Возрастное ограничение 12+

LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming?

24.06.2025 07:08 Наука

Описание

LiveCodeBench Pro: Экспертная оценка LLM в спортивном программировании

В данной статье представлен LiveCodeBench Pro, новый бенчмарк, разработанный для строгой оценки больших языковых моделей (LLM) в спортивном программировании с использованием экспертных человеческих знаний. Бенчмарк включает постоянно обновляемые задачи с престижных соревнований, таких как Codeforces, ICPC и IOI, чтобы минимизировать загрязнение данных. Эксперты в области спортивного программирования аннотируют каждую задачу, классифицируя их по алгоритмической теме, сложности и когнитивному фокусу, такому как знание, логика или наблюдение. Оценка передовых моделей на LiveCodeBench Pro показывает, что LLM все еще имеют значительные ограничения, достигая нулевого процента прохождения на сложных задачах. Модели хорошо справляются с задачами, требующими больших знаний и логики, но испытывают трудности с задачами, требующими внимательности/наблюдательности, и сложными случаями. Экспертный анализ неудачных попыток показывает, что отказы моделей в основном вызваны концептуальными ошибками, что контрастирует с типичными человеческими ошибками, где чаще встречаются проблемы с реализацией. Разрешение нескольких попыток (pass@k) существенно улучшает производительность на более простых задачах, но не устраняет разрыв на сложных. Модели, использующие рассуждения (reasoning models), демонстрируют улучшение производительности по сравнению с моделями без рассуждений, особенно в структурированных и логических задачах. Несмотря на заявления о превосходстве над элитными программистами, между текущими LLM и уровнем гроссмейстеров в спортивном программировании остается существенный разрыв. LiveCodeBench Pro предоставляет детальную диагностику для направления будущих исследований по улучшению способностей LLM к рассуждениям в кодировании.


paper - https://arxiv.org/pdf/2506.11928v1
subscribe - https://t.me/arxivdotorg
created with NotebookLM

Автор

Paper debate
Paper debate