Horizon Reduction Makes Offline RL Scalable
Описание
Сокращение горизонта делает офлайн-ОРУ масштабируемым
В данной работе исследуется масштабируемость алгоритмов офлайн-обучения с подкреплением (ОРУ) на сложных задачах с длительным горизонтом. Показано, что существующие методы офлайн-ОРУ демонстрируют плохое поведение масштабирования, насыщаясь значительно ниже оптимальной производительности даже при существенно больших наборах данных. Авторы выдвигают гипотезу, что длительный горизонт представляет собой фундаментальный барьер для масштабирования офлайн-ОРУ. Эмпирически демонстрируется, что накопление смещения при обучении с темпоральными различиями является ключевой проблемой, которую нелегко решить с помощью стандартной настройки гиперпараметров или более крупных моделей. Сложность отображения состояние-действие в задачах с длительным горизонтом также способствует трудностям в обучении стратегии. Исследование показывает, что методы, явно сокращающие эффективный горизонт, значительно повышают масштабируемость офлайн-ОРУ. Представлен минимальный масштабируемый метод под названием SHARSA, который эффективно сокращает горизонты как ценности, так и стратегии. Основанный на поведенческом клонировании и n-шаговом SARSA, SHARSA достигает превосходной асимптотической производительности и поведения масштабирования по сравнению с оцененными базовыми линиями. Абляционные исследования подтверждают эффективность проектных решений SHARSA, включая выборку с отклонением для извлечения стратегии. Работа завершается призывом к оценке масштабируемости на больших наборах данных и сложных задачах для стимулирования будущего прогресса алгоритмов в офлайн-ОРУ.
статья - https://arxiv.org/pdf/2506.04168v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM
Автор

Похожие видео

Нейтрино объяснят куда пропала вся антиматерия Вселенной

A Method for Real-Time Brain Imaging in Unrestrained Mice Across Sleep-Wake States

Динозавры. Часть 1. /С. Дробышевский/

Удивительное открытие! Теперь каждый может увидеть Матрицу.

Донские пески – Засыпанные города России. ПОТОП 19 ВЕКА. Часть 9.

А было ли чтонибудь до Большого Взрыва

Жена Пушкина и Дантес: была ли влюбленность? #пушкин #дантес #гончарова #пророк #онегин
