Загрузка...

Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods

От табличного RL к Deep RL и policy gradient methods
Пчелин Константин Константинович

00:16 Вступление
02:10 Когда табличный RL перестает масштабироваться
07:12 Аппроксимация функций
14:21 Проекционный оператор Беллмана
19:51 Deadly Triad
22:58 Deep Q-Network
40:39 Почему переходят к policy-based подходу
42:57 Policy Gradient
01:03:21 Сравнение подходов

Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664

#teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #проекционный_оператор_Беллмана #projected_Bellman_operator #deadly_triad #DQN #value_based_подход #policy_based_подход #policy_gradient_method #REINFORCE

Видео Пчелин К.К. - Машинное обучение с подкреплением - 5. Deep RL и policy gradient methods канала teach-in
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять