Mercury: Ultra-Fast Language Models Based on Diffusion
Описание
Mercury: Сверхбыстрые языковые модели на основе диффузии
В этом документе представлена Mercury, новое семейство больших языковых моделей (LLM) от Inception Labs, основанных на диффузии. Эти модели, параметризованные архитектурой Transformer, разработаны для высокоскоростной и качественной генерации текста. Отчет фокусируется на Mercury Coder, наборе моделей, оптимизированных для приложений кодирования, доступных в размерах Mini и Small. Mercury Coder достигает передовой пропускной способности, достигая более 1000 токенов в секунду на графических процессорах NVIDIA H100, превосходя другие модели по скорости до 10 раз, сохраняя при этом сопоставимое качество. Модели оцениваются на различных эталонных тестах кода и в реальных приложениях, таких как Copilot Arena. В документе также подробно описаны архитектура, показатели производительности и потенциальные приложения с упором на улучшенную точность, корректность и возможности заполнения кода на разных языках программирования. Модели используют параллельную генерацию токенов для лучшего использования GPU и вычислительной эффективности, что делает их подходящими для приложений, чувствительных к задержкам.
#LLM #ДиффузионныеМодели #InceptionLabs #MercuryCoder #AI #ГенерацияКода #Трансформеры
документ - https://arxiv.org/pdf/2506.17298v1
подписаться - https://t.me/arxivdotorg
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
Автор

Похожие видео

База знаний плоской Земли

Урок 14. Работа. Мощность. Физика 7 класс.

XXVIII ПМЭФ.Круглый стол "Материализация цифрового следа" (25)

ЭТО не оставит вас равнодушными

71 СЕРИЯ.ТРЕНАЖЕР ПО ИСТОРИИ,XIX век. Крымская война 1853–1856 гг. Причины и итоги.

....Что такое Озоновая дыра....

Магистерская программа: «Морское право»
