ESSENTIAL-WEB V1.0: 24T tokens of organized web data
Описание
ESSENTIAL-WEB V 1.0: 24T токенов организованных веб-данных
В этой статье представлена ESSENTIAL-WEB V 1.0, огромный набор данных объемом 24 триллиона токенов, предназначенный для улучшения обучения языковых моделей. Каждый документ в наборе данных аннотирован таксономией из двенадцати категорий, охватывающей различные аспекты, такие как тема, формат, сложность контента и качество. Эти аннотации генерируются с помощью тонко настроенной модели EAI-Distill-0.5b. Набор данных облегчает эффективную обработку данных с использованием фильтров в стиле SQL, позволяя создавать конкурентоспособные наборы данных в таких областях, как математика, веб-код, STEM и медицина. Авторы демонстрируют полезность набора данных, создавая высокопроизводительные наборы данных в этих областях, достигая сопоставимых или превосходящих результатов по сравнению с существующими современными наборами данных. ESSENTIAL-WEB V 1.0 доступен на HuggingFace для публичного использования и внесения вклада. Цель выпуска этого набора данных - предоставить доступную и понятную экосистему открытых данных для обучения конкурентоспособных языковых моделей. Процесс включает в себя дедупликацию, фильтрацию данных Common Crawl и применение классификатора с высоким уровнем полноты.
#NLP #НаборДанных #ЯзыковыеМодели #ИИ #МашинноеОбучение #ОбработкаДанных #ОткрытыеДанные
документ - https://arxiv.org/pdf/2506.14111v1
подписаться - https://t.me/arxivdotorg
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
Автор

Похожие видео

ЖК "Nord" Барнаул

Флешмоб «Флаг России». ГБССУ СО ГПВИ «Волгоградский ПНИ»

06-06-2025

ТАКИМ ЖЕНЩИНАМ ВСЕГДА ИЗМЕНЯЮТ! 🎁 в ТГ - @VINICHENKO_KIRA Забирай ПРАКТИКИ и ГАЙДЫ

Детская Мишель от фабри Эра.

22,06,25 ЛЕТНЯЯ ФУТБОЛКА СПИЦАМИ

ОПУСК СТОЯКА | Какая скорость говна? | ЖК «Сердце Столицы»
