Загрузка...

[260408] 03. DreamerV1: Dream to Control, Learning Behaviors by Latent Imagination (ICLR 2020)

월드모델 스터디 3회차 — DreamerV1 논문 리뷰 발표 및 Q&A

발표자: 김주연

📌 다루는 내용
• 강화학습 Background — Model-free vs Model-based, MDP/POMDP, World Model, Latent Space
• Dreamer의 Key Contribution — Latent Imagination만으로 장기 행동 학습, Value Model로 상상 지평 한계 보완, 미분 가능한 상상 그래프
• Method — Representation/Transition/Reward 모델 구성, Action-Value 학습, V_λ 추정, Objective
• Representation Learning 비교 — Reward Prediction / Reconstruction / Contrastive Estimation
• DeepMind Control Suite 20개 과제 실험 결과 — 샘플 효율성과 장기 과제 강점
• PlaNet 대비 차별점, Dreamer V2·V3로 이어지는 흐름

⏱️ 타임라인
00:00 오프닝 — Dream to Control 소개
01:01 Background — 강화학습의 목표와 용어
03:51 Model-free vs Model-based 방법론
05:49 MDP와 POMDP
07:56 World Model이란 무엇인가
09:09 Latent Space가 왜 중요한가
12:25 Key Contributions 정리
15:59 Method 개요 — 전체 알고리즘 구조
18:05 Latent Dynamics Model (Representation / Transition / Reward)
20:31 Imagination Environment와 상상의 시작점
23:24 Action Model과 Value Model
23:41 Value Estimation — V_λ의 도입
27:43 Objective — 행동/가치 모델 학습
29:32 Representation Learning 비교 실험
32:42 Results — 정량 결과와 샘플 효율성
37:10 Figure 4 — Value Model의 중요성
38:52 Figure 5 — World Model의 미래 예측 능력
42:19 Dreamer 강점 정리
44:21 Q&A — 미분 가능성, 모델 오차, 저자 이야기
50:58 Dreamer V4 및 시리즈 이야기
58:12 강화학습 스터디·추천 자료

🔗 기타 링크
• 스터디 GitHub: https://github.com/Pseudo-Lab/hello-world-models
• 가짜연구소: https://www.linkedin.com/company/pseudolab/

#월드모델 #Dreamer #DreamToControl #강화학습 #WorldModel #LatentImagination #ModelBasedRL #ICLR2020 #DanijarHafner #AIPaperReadingClubs

Видео [260408] 03. DreamerV1: Dream to Control, Learning Behaviors by Latent Imagination (ICLR 2020) канала 가짜연구소
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять