Лекция №15 "Обучение с подкреплением"
Описание
Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для восьмого потока обучения.
Преподаватель: Любовь Антюфриева
Дата: 19.02.2025
00:00 Заставка
00:45 Обучение методом проб и ошибок
01:58 Мотивация использования обучения с подкреплением
05:41 Устоявшаяся терминология
06:47 Примеры задач, решаемых с использованием RL
15:02 Stateless environment in RL
15:38 Задача о многоруких бандитах
16:31 Gymnasium framework
26:28 Поиск оптимальной стратегии решения
35:36 Метаэвристики в обучении с подкреплением
36:11 Cross-entropy method (CEM)
40:41 Пример CEM в Gym
45:22 Марковский процесс принятия решений (Markov decision process, MDP)
48:43 Markov process
01:05:11 Проблема поиска оптимальной политики
01:14:45 Поиск оптимальной политики Беллмана для MDP (решение "MDP")
01:24:17 Temporal difference (TD)-обучение (TD-learning)
01:27:15 Q-Learning
01:33:43 Deep Q-Learning
Материалы лекции:
Открыть в Colab: https://colab.research.google.com/drive/1Vi2o2PHgvKEsFofrTm2vPweZFkYXekfh
Открыть в HTML: https://msu.ai/reinforcement_learning_notebook_new
Сайт: https://msu.ai
VK: https://vk.com/msu_ai
Telegram: https://t.me/msu_ai_channel
#МГУ #искусственный_интеллект #нейронные_сети #neural_networks #science #наука #научные_исследования #нейронные_сети_в_науке #как_применять_нейронные_сети #курс_для_студентов_МГУ #наука_и_исследования
Автор

Похожие видео

Пример ролика по приемной кампании

77 - Section 7 summary

Запись встречи 07.03.2025 10-59-25 - запись_06.06.2025

Broken Girl Story English Story For Listening Daily Routine Improve Your English Through Stories

Мастер-класс «Защита авторских прав в ивент-индустрии»

33. API First Design

fybvfhrt
