Self-Challenging Language Model Agents
Описание
Самообучающиеся агенты языковых моделей
Обучение агентов на основе больших языковых моделей для сложного использования инструментов затруднено из-за высокой стоимости данных задач, аннотированных человеком. В данной статье представлен фреймворк самообучения, в котором агент генерирует свои собственные высококачественные обучающие задачи. Фреймворк назначает агенту две роли: испытателя, который создает задачи после взаимодействия с инструментами, и исполнителя, который учится, решая эти задачи с помощью обучения с подкреплением. Задачи определяются с использованием нового формализма «Код как задача» (Code-as-Task, CaT), который включает инструкцию, функцию проверки, пример решения и примеры неудачных исходов. CaT обеспечивает автоматическую фильтрацию для гарантии, что сгенерированные задачи выполнимы, проверяемы и достаточно сложны. Метод поддерживает самосовершенствование путем обучения на собственных данных агента и дистилляцию путем использования синтетических задач от более сильной модели. Оценка на бенчмарках по многошаговому использованию инструментов M3ToolEval и TauBench демонстрирует эффективность фреймворка. Эксперименты показывают более чем двукратное улучшение Llama-3.1-8B-Instruct при использовании только самогенерируемых обучающих данных. Подход превосходит предыдущие методы синтеза задач, особенно в частично наблюдаемых средах. Ограничения включают тонкие семантические ошибки при генерации задач и необходимость улучшения общесредовых агентских способностей.
статья - https://arxiv.org/pdf/2506.01716v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM
Автор

Похожие видео

Сирийская чаша третьей четверти XIV века для богатых из раскопа по ул. 50-лет Октября

Ярутка полевая Thlaspi arvense L.

О влиянии экзосом молодых свиней на продолжительность жизни старых крыс

Сэм Харрис и Роджер Пенроуз. Разделенный мозг, сознание и иллюзия «Я»

Алексей Семихатов «Почему квантовое такое странное, что там происходит, и можно ли этим управлять?»

Оптимальная последовательность лечения ГЦР

Дурново (фильм)
