Возрастное ограничение 12+

Horizon Reduction Makes Offline RL Scalable

27.06.2025 06:36 Наука

Описание

Сокращение горизонта делает офлайн-ОРУ масштабируемым

В данной работе исследуется масштабируемость алгоритмов офлайн-обучения с подкреплением (ОРУ) на сложных задачах с длительным горизонтом. Показано, что существующие методы офлайн-ОРУ демонстрируют плохое поведение масштабирования, насыщаясь значительно ниже оптимальной производительности даже при существенно больших наборах данных. Авторы выдвигают гипотезу, что длительный горизонт представляет собой фундаментальный барьер для масштабирования офлайн-ОРУ. Эмпирически демонстрируется, что накопление смещения при обучении с темпоральными различиями является ключевой проблемой, которую нелегко решить с помощью стандартной настройки гиперпараметров или более крупных моделей. Сложность отображения состояние-действие в задачах с длительным горизонтом также способствует трудностям в обучении стратегии. Исследование показывает, что методы, явно сокращающие эффективный горизонт, значительно повышают масштабируемость офлайн-ОРУ. Представлен минимальный масштабируемый метод под названием SHARSA, который эффективно сокращает горизонты как ценности, так и стратегии. Основанный на поведенческом клонировании и n-шаговом SARSA, SHARSA достигает превосходной асимптотической производительности и поведения масштабирования по сравнению с оцененными базовыми линиями. Абляционные исследования подтверждают эффективность проектных решений SHARSA, включая выборку с отклонением для извлечения стратегии. Работа завершается призывом к оценке масштабируемости на больших наборах данных и сложных задачах для стимулирования будущего прогресса алгоритмов в офлайн-ОРУ.

статья - https://arxiv.org/pdf/2506.04168v1
подписаться - https://t.me/arxivdotorg
создано с помощью NotebookLM

Автор

Paper debate

Похожие видео

Нейтрино объяснят куда пропала вся антиматерия Вселенной

1 3:21

A Method for Real-Time Brain Imaging in Unrestrained Mice Across Sleep-Wake States

1 2:53

Жена Пушкина и Дантес: была ли влюбленность? #пушкин #дантес #гончарова #пророк #онегин

1 0:59

Выщелачивание (смывка) богатой золотосодержащей лигатуры. Leaching (washing) of rich gold-bearing l

1 32:45

Horizon Reduction Makes Offline RL Scalable

Описание

Автор

Похожие видео

Нейтрино объяснят куда пропала вся антиматерия Вселенной

A Method for Real-Time Brain Imaging in Unrestrained Mice Across Sleep-Wake States

Динозавры. Часть 1. /С. Дробышевский/

Удивительное открытие! Теперь каждый может увидеть Матрицу.

Донские пески – Засыпанные города России. ПОТОП 19 ВЕКА. Часть 9.

А было ли чтонибудь до Большого Взрыва

Жена Пушкина и Дантес: была ли влюбленность? #пушкин #дантес #гончарова #пророк #онегин

Выщелачивание (смывка) богатой золотосодержащей лигатуры. Leaching (washing) of rich gold-bearing l