Загрузка...

RLF S3L1: When the Map Runs Out — Why Model-Free RL?

This lecture motivates the entire section by showing where Dynamic Programming (DP) breaks down. Students learn why real-world environments — Blackjack, Atari, robotics — make DP impossible to apply, and how Monte Carlo (MC) methods solve this by replacing the "model" with raw experience. We finish with the one-sentence summary of MC: play many episodes, average the returns you see.

Full Course: https://quanzetta.com/courses/reinforcement-learning-foundation/

Видео RLF S3L1: When the Map Runs Out — Why Model-Free RL? канала Quanzetta
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять