Загрузка...

Reinforcement Learning: Bellman Optimality Equation and the Q-function

In this video, I explain the Bellman Optimality Equation and the Q-function, two core concepts in reinforcement learning.
We’ll start by asking an important question: What happens when acting greedily no longer improves a policy? This leads us to the idea of optimal policies and the value function that satisfies the Bellman Optimality Equation.
The video includes:
A clear explanation of the Q-function
How the Bellman Optimality Equation is used in learning
A simple, step-by-step numerical example of computing a Q-value
How to extract a policy from Q-value

Видео Reinforcement Learning: Bellman Optimality Equation and the Q-function канала Machine Learning with PyTorch
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять