Возрастное ограничение 12+

Self-Challenging Language Model Agents

27.06.2025 05:55 Наука

Описание

Самообучающиеся агенты языковых моделей

Обучение агентов на основе больших языковых моделей для сложного использования инструментов затруднено из-за высокой стоимости данных задач, аннотированных человеком. В данной статье представлен фреймворк самообучения, в котором агент генерирует свои собственные высококачественные обучающие задачи. Фреймворк назначает агенту две роли: испытателя, который создает задачи после взаимодействия с инструментами, и исполнителя, который учится, решая эти задачи с помощью обучения с подкреплением. Задачи определяются с использованием нового формализма «Код как задача» (Code-as-Task, CaT), который включает инструкцию, функцию проверки, пример решения и примеры неудачных исходов. CaT обеспечивает автоматическую фильтрацию для гарантии, что сгенерированные задачи выполнимы, проверяемы и достаточно сложны. Метод поддерживает самосовершенствование путем обучения на собственных данных агента и дистилляцию путем использования синтетических задач от более сильной модели. Оценка на бенчмарках по многошаговому использованию инструментов M3ToolEval и TauBench демонстрирует эффективность фреймворка. Эксперименты показывают более чем двукратное улучшение Llama-3.1-8B-Instruct при использовании только самогенерируемых обучающих данных. Подход превосходит предыдущие методы синтеза задач, особенно в частично наблюдаемых средах. Ограничения включают тонкие семантические ошибки при генерации задач и необходимость улучшения общесредовых агентских способностей.

статья - https://arxiv.org/pdf/2506.01716v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM