Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods

От табличного RL к Deep RL и policy gradient methods
Пчелин Константин Константинович

00:16 Вступление
02:10 Когда табличный RL перестает масштабироваться
07:12 Аппроксимация функций
14:21 Проекционный оператор Беллмана
19:51 Deadly Triad
22:58 Deep Q-Network
40:39 Почему переходят к policy-based подходу
42:57 Policy Gradient
01:03:21 Сравнение подходов

Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664

#teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #проекционный_оператор_Беллмана #projected_Bellman_operator #deadly_triad #DQN #value_based_подход #policy_based_подход #policy_gradient_method #REINFORCE

Видео Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods канала teach-in

Комментарии отсутствуют

Информация о видео

19 апреля 2026 г. 20:54:14

01:07:15

teach-in

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала

Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods

Пчелин К.К. - Машинное обучение с подкреплением - 6. Actor-Critic и Proximal Policy Optimization

Казаков К.А. - Квантовая механика - 6. Измерения в квантовой механике

Пенской А.В. - Минимальные подмногообразия и гармонические отображения - 6. Вариационный подход

Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling

Пчелин К.К. - Машинное обучение с подкреплением - 4. Метод Монте-Карло и TD метод. SARSA, Q-learning

Манухов С.И. - Теория групп в физике частиц - 20. Группа SU(n) и группа перестановок

Смирнов А.М. - Лазерная спектроскопия полупроводников - 9. Спектрометры и покрытия

Пенской А.В. - Минимальные подмногообразия и гармонические отображения - 8. Функционал энергии

Пенской А.В. - Минимальные подмногообразия и гармонические отображения - 7. Теорема Хопфа-Ринова

Гиренок Ф.И. - Философия сознания - 10. Сингулярность в философии

Муравлева Л.В. - Механика неньютоновских жидкостей - 11. Методы решения задач для сред Бингама

Муравлева Л.В. - Механика неньютоновских жидкостей - 12. Модели Бингама, Кэссона и Гершеля-Балкли

Пенской А.В. - Минимальные подмногообразия и гармонические отображения - 9. Уравнение гармоничности

Гиренок Ф.И. - Философия сознания - 11. Слушать миф и чувствовать абсурд

Муравлева Л.В. - Механика неньютоновских жидкостей - 2. Квазиньютоновская жидкость

Пенской А.В. - Минимальные подмногообразия и гармонические отображения - 10.Отображения поверхностей

Шорохов А.С. - Современные методы в нанофотонике - 9.Оптимизация нанофотонных устройств (часть II)

Шорохов А.С. - Современные методы в нанофотонике - 10.Оптимизация нанофотонных устройств (часть III)

Муравлева Л.В. - Механика неньютоновских жидкостей - 10. Течение вязкопластичной жидкости в канале

Манухов С.И. - Теория групп в физике частиц - 15. Неприводимые представления группы Лоренца