LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming?
Описание
LiveCodeBench Pro: Экспертная оценка LLM в спортивном программировании
В данной статье представлен LiveCodeBench Pro, новый бенчмарк, разработанный для строгой оценки больших языковых моделей (LLM) в спортивном программировании с использованием экспертных человеческих знаний. Бенчмарк включает постоянно обновляемые задачи с престижных соревнований, таких как Codeforces, ICPC и IOI, чтобы минимизировать загрязнение данных. Эксперты в области спортивного программирования аннотируют каждую задачу, классифицируя их по алгоритмической теме, сложности и когнитивному фокусу, такому как знание, логика или наблюдение. Оценка передовых моделей на LiveCodeBench Pro показывает, что LLM все еще имеют значительные ограничения, достигая нулевого процента прохождения на сложных задачах. Модели хорошо справляются с задачами, требующими больших знаний и логики, но испытывают трудности с задачами, требующими внимательности/наблюдательности, и сложными случаями. Экспертный анализ неудачных попыток показывает, что отказы моделей в основном вызваны концептуальными ошибками, что контрастирует с типичными человеческими ошибками, где чаще встречаются проблемы с реализацией. Разрешение нескольких попыток (pass@k) существенно улучшает производительность на более простых задачах, но не устраняет разрыв на сложных. Модели, использующие рассуждения (reasoning models), демонстрируют улучшение производительности по сравнению с моделями без рассуждений, особенно в структурированных и логических задачах. Несмотря на заявления о превосходстве над элитными программистами, между текущими LLM и уровнем гроссмейстеров в спортивном программировании остается существенный разрыв. LiveCodeBench Pro предоставляет детальную диагностику для направления будущих исследований по улучшению способностей LLM к рассуждениям в кодировании.
paper - https://arxiv.org/pdf/2506.11928v1
subscribe - https://t.me/arxivdotorg
created with NotebookLM
Автор

Похожие видео

Тот самый #амброксан 👇🏽 #shorts

Законы квантовой механики. Неопределённость.

Симультанные лапароскопическии вмешательства при колоректальном раке с метастазами в печень

Четвёртый рейх возрождается? Или кто продолжает дело Вальтера Кюннета?

12. Савельев - Нищета мозга - 11 - Новые виды мозга - 161-176

Почему не нужны знания в эпоху ИИ

Чеканова Валерия Сергеевна, 15.09.2025 в 14.00
