Загрузка...

[260401] 02. PlaNet: Learning Latent Dynamics for Planning from Pixels (ICML 2019)

월드모델 스터디 2회차 — PlaNet 논문 리뷰 발표 및 Q&A

발표자: 이재호

📌 다루는 내용
• RSSM (Recurrent State-Space Model) — 결정론적 RNN과 확률론적 SSM을 결합한 모델 구조
• Latent Overshooting — 표준 ELBO의 1단계 예측 한계를 넘어 다단계 예측을 가능하게 하는 방법론
• Planning in Latent Space — CEM(Cross Entropy Method)을 활용한 잠재 공간 내 행동 계획 수립
• Model-Free RL vs Model-Based RL 비교 — 200배 적은 환경 상호작용으로 준수한 성능 달성
• Q&A — RSSM과 Latent Overshooting 결합 시 성능 저하 현상에 대한 토론

⏱️ 타임라인
00:00 논문 소개 및 목차
02:17 마르코프 성질, 전이 확률, MDP/POMDP 배경
07:54 PlaNet 인트로덕션 — Model-Free vs Model-Based RL
09:11 PlaNet 개요 — Deep Planning Network
11:07 RSSM 모델 구조 — RNN + SSM 결합
12:10 RSSM 피거 분석 — 히든 스테이트와 확률적 상태
14:25 Latent Overshooting — 표준 ELBO의 한계와 다단계 예측
18:39 Latent Overshooting 피거 분석 — 사전/사후 확률, KL Divergence
22:01 Planning in Latent Space — CEM 방식의 행동 계획
24:22 알고리즘 1 — 모델 학습과 데이터 수집
26:41 알고리즘 2 — CEM 기반 플래닝 알고리즘
30:10 실험 설정 — DeepMind Control Suite 6가지 태스크
31:52 실험 결과 — Model-Free 대비 성능 비교
33:35 Ablation Study — Stochastic/Deterministic 요소 분석
35:28 에이전트 디자인 — 랜덤 컬렉션/슈팅 비교
37:18 Single Agent All Tasks — 멀티태스크 성능
38:19 Latent Overshooting 실험 결과 — RSSM에서의 한계
39:32 결론 및 향후 연구
41:47 Q&A — RSSM + Overshooting 성능 저하 토론
51:00 논문 수학적 내용 학습 방법 토론
53:43 강화학습 사전 학습 필요성 토론
58:26 액션 Repeat 관련 질문
01:02:23 Latent Planning에 대한 소감 및 Dreamer 연결

🔗 기타 링크
• 스터디 GitHub: https://github.com/Pseudo-Lab/hello-world-models
• 가짜연구소: https://www.linkedin.com/company/pseudolab/

#월드모델 #PlaNet #RSSM #LatentOvershooting #CEM #강화학습 #ModelBasedRL #ICML2019 #DeepPlanningNetwork #AIPaperReadingClubs

Видео [260401] 02. PlaNet: Learning Latent Dynamics for Planning from Pixels (ICML 2019) канала 가짜연구소
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять