- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
[260408] 03. DreamerV1: Dream to Control, Learning Behaviors by Latent Imagination (ICLR 2020)
월드모델 스터디 3회차 — DreamerV1 논문 리뷰 발표 및 Q&A
발표자: 김주연
📌 다루는 내용
• 강화학습 Background — Model-free vs Model-based, MDP/POMDP, World Model, Latent Space
• Dreamer의 Key Contribution — Latent Imagination만으로 장기 행동 학습, Value Model로 상상 지평 한계 보완, 미분 가능한 상상 그래프
• Method — Representation/Transition/Reward 모델 구성, Action-Value 학습, V_λ 추정, Objective
• Representation Learning 비교 — Reward Prediction / Reconstruction / Contrastive Estimation
• DeepMind Control Suite 20개 과제 실험 결과 — 샘플 효율성과 장기 과제 강점
• PlaNet 대비 차별점, Dreamer V2·V3로 이어지는 흐름
⏱️ 타임라인
00:00 오프닝 — Dream to Control 소개
01:01 Background — 강화학습의 목표와 용어
03:51 Model-free vs Model-based 방법론
05:49 MDP와 POMDP
07:56 World Model이란 무엇인가
09:09 Latent Space가 왜 중요한가
12:25 Key Contributions 정리
15:59 Method 개요 — 전체 알고리즘 구조
18:05 Latent Dynamics Model (Representation / Transition / Reward)
20:31 Imagination Environment와 상상의 시작점
23:24 Action Model과 Value Model
23:41 Value Estimation — V_λ의 도입
27:43 Objective — 행동/가치 모델 학습
29:32 Representation Learning 비교 실험
32:42 Results — 정량 결과와 샘플 효율성
37:10 Figure 4 — Value Model의 중요성
38:52 Figure 5 — World Model의 미래 예측 능력
42:19 Dreamer 강점 정리
44:21 Q&A — 미분 가능성, 모델 오차, 저자 이야기
50:58 Dreamer V4 및 시리즈 이야기
58:12 강화학습 스터디·추천 자료
🔗 기타 링크
• 스터디 GitHub: https://github.com/Pseudo-Lab/hello-world-models
• 가짜연구소: https://www.linkedin.com/company/pseudolab/
#월드모델 #Dreamer #DreamToControl #강화학습 #WorldModel #LatentImagination #ModelBasedRL #ICLR2020 #DanijarHafner #AIPaperReadingClubs
Видео [260408] 03. DreamerV1: Dream to Control, Learning Behaviors by Latent Imagination (ICLR 2020) канала 가짜연구소
발표자: 김주연
📌 다루는 내용
• 강화학습 Background — Model-free vs Model-based, MDP/POMDP, World Model, Latent Space
• Dreamer의 Key Contribution — Latent Imagination만으로 장기 행동 학습, Value Model로 상상 지평 한계 보완, 미분 가능한 상상 그래프
• Method — Representation/Transition/Reward 모델 구성, Action-Value 학습, V_λ 추정, Objective
• Representation Learning 비교 — Reward Prediction / Reconstruction / Contrastive Estimation
• DeepMind Control Suite 20개 과제 실험 결과 — 샘플 효율성과 장기 과제 강점
• PlaNet 대비 차별점, Dreamer V2·V3로 이어지는 흐름
⏱️ 타임라인
00:00 오프닝 — Dream to Control 소개
01:01 Background — 강화학습의 목표와 용어
03:51 Model-free vs Model-based 방법론
05:49 MDP와 POMDP
07:56 World Model이란 무엇인가
09:09 Latent Space가 왜 중요한가
12:25 Key Contributions 정리
15:59 Method 개요 — 전체 알고리즘 구조
18:05 Latent Dynamics Model (Representation / Transition / Reward)
20:31 Imagination Environment와 상상의 시작점
23:24 Action Model과 Value Model
23:41 Value Estimation — V_λ의 도입
27:43 Objective — 행동/가치 모델 학습
29:32 Representation Learning 비교 실험
32:42 Results — 정량 결과와 샘플 효율성
37:10 Figure 4 — Value Model의 중요성
38:52 Figure 5 — World Model의 미래 예측 능력
42:19 Dreamer 강점 정리
44:21 Q&A — 미분 가능성, 모델 오차, 저자 이야기
50:58 Dreamer V4 및 시리즈 이야기
58:12 강화학습 스터디·추천 자료
🔗 기타 링크
• 스터디 GitHub: https://github.com/Pseudo-Lab/hello-world-models
• 가짜연구소: https://www.linkedin.com/company/pseudolab/
#월드모델 #Dreamer #DreamToControl #강화학습 #WorldModel #LatentImagination #ModelBasedRL #ICLR2020 #DanijarHafner #AIPaperReadingClubs
Видео [260408] 03. DreamerV1: Dream to Control, Learning Behaviors by Latent Imagination (ICLR 2020) канала 가짜연구소
Комментарии отсутствуют
Информация о видео
22 апреля 2026 г. 16:23:01
01:02:55
Другие видео канала


![[MBRL] 3. MBRL 서베이 논문 리뷰](https://i.ytimg.com/vi/QCUIDVprtBY/default.jpg)

![[논문미식회] CV329: EfficientNetV2: Smaller Models and Faster Training](https://i.ytimg.com/vi/hkI4oH4CXHI/default.jpg)


![[논문미식회] CV302: Artistic Photo Transfer Models: CartoonGAN, AnimeGAN](https://i.ytimg.com/vi/PTRuifh2nSE/default.jpg)

![[수도엔터] Tacotron: Towards End-to-End Speech Synthesis - 수도엔터 8주차](https://i.ytimg.com/vi/A2grSUuhB3k/default.jpg)
![[260401] 02. PlaNet: Learning Latent Dynamics for Planning from Pixels (ICML 2019)](https://i.ytimg.com/vi/qVEcdMkFZc4/default.jpg)

![[가짜연구소] 모두가한걸음씩성장하는PyTorch 2주차 - Lab01 Tensor Manipulation](https://i.ytimg.com/vi/uRBNAE3Nhyo/default.jpg)
![[논문미식회] CV306: Breaking Certified Defenses Semantic Adversarial Examples](https://i.ytimg.com/vi/xr13EjlhRnQ/default.jpg)



![[추천시스템]논문리뷰:BERT4Rec](https://i.ytimg.com/vi/6ZOmzYf6otY/default.jpg)
![[SSL] 논문 리뷰 : Emerging Properties in Self-Supervised Vision Transformers](https://i.ytimg.com/vi/cDqLLhwzbzI/default.jpg)
![[SSL] 논문리뷰 : Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection](https://i.ytimg.com/vi/oPiz_gGTJWM/default.jpg)
![[가짜연구소] 모두가한걸음씩성장하는PyTorch 11주차 - 튜토리얼 실습 2 (시계열-코로나 확진자 수 예측 모델 구축) part 2](https://i.ytimg.com/vi/aOF__JXTzdY/default.jpg)
![[논문미식회] CV307: CycleMLP: A MLP-like Architecture for Dense Prediction](https://i.ytimg.com/vi/kac-sXiZENM/default.jpg)