Возрастное ограничение 12+

Лекция №15 "Обучение с подкреплением"

24.06.2025 1:45:56 Обучение

Описание

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения.
Преподаватель: Любовь Антюфриева
Дата: 19.02.2025

00:00 Заставка
00:45 Обучение методом проб и ошибок
01:58 Мотивация использования обучения с подкреплением
05:41 Устоявшаяся терминология
06:47 Примеры задач, решаемых с использованием RL
15:02 Stateless environment in RL
15:38 Задача о многоруких бандитах
16:31 Gymnasium framework
26:28 Поиск оптимальной стратегии решения
35:36 Метаэвристики в обучении с подкреплением
36:11 Cross-entropy method (CEM)
40:41 Пример CEM в Gym
45:22 Марковский процесс принятия решений (Markov decision process, MDP)
48:43 Markov process
01:05:11 Проблема поиска оптимальной политики
01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP")
01:24:17 Temporal difference (TD)-обучение (TD-learning)
01:27:15 Q-Learning
01:33:43 Deep Q-Learning

Материалы лекции:
Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh

Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new

Сайт: https://msu.ai
VK: https://vk.com/msu_ai
Telegram: https://t.me/msu_ai_channel

#МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования