Возрастное ограничение 12+

Horizon Reduction Makes Offline RL Scalable

27.06.2025 06:36 Наука

Описание

Сокращение горизонта делает офлайн-ОРУ масштабируемым

В данной работе исследуется масштабируемость алгоритмов офлайн-обучения с подкреплением (ОРУ) на сложных задачах с длительным горизонтом. Показано, что существующие методы офлайн-ОРУ демонстрируют плохое поведение масштабирования, насыщаясь значительно ниже оптимальной производительности даже при существенно больших наборах данных. Авторы выдвигают гипотезу, что длительный горизонт представляет собой фундаментальный барьер для масштабирования офлайн-ОРУ. Эмпирически демонстрируется, что накопление смещения при обучении с темпоральными различиями является ключевой проблемой, которую нелегко решить с помощью стандартной настройки гиперпараметров или более крупных моделей. Сложность отображения состояние-действие в задачах с длительным горизонтом также способствует трудностям в обучении стратегии. Исследование показывает, что методы, явно сокращающие эффективный горизонт, значительно повышают масштабируемость офлайн-ОРУ. Представлен минимальный масштабируемый метод под названием SHARSA, который эффективно сокращает горизонты как ценности, так и стратегии. Основанный на поведенческом клонировании и n-шаговом SARSA, SHARSA достигает превосходной асимптотической производительности и поведения масштабирования по сравнению с оцененными базовыми линиями. Абляционные исследования подтверждают эффективность проектных решений SHARSA, включая выборку с отклонением для извлечения стратегии. Работа завершается призывом к оценке масштабируемости на больших наборах данных и сложных задачах для стимулирования будущего прогресса алгоритмов в офлайн-ОРУ.

статья - https://arxiv.org/pdf/2506.04168v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM

Автор

Paper debate
Paper debate