Загрузка страницы

DeepMind x UCL RL Lecture Series - Policy-Gradient and Actor-Critic methods [9/13]

Research Scientist Hado van Hasselt covers policy algorithms that can learn policies directly and actor critic algorithms that combine value predictions for more efficient learning.

Slides: https://dpmd.ai/policygradient
Full video lecture series: https://dpmd.ai/DeepMindxUCL21

Видео DeepMind x UCL RL Lecture Series - Policy-Gradient and Actor-Critic methods [9/13] канала Google DeepMind
Показать
Комментарии отсутствуют
Введите заголовок:

Введите адрес ссылки:

Введите адрес видео с YouTube:

Зарегистрируйтесь или войдите с
Информация о видео
9 сентября 2021 г. 19:06:37
01:38:50
Яндекс.Метрика