Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models

Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models

Modern AI: Foundations, Learning, and Systems
Episode 14 Why Reinforcement Learning Can Align Models
为什么强化学习能对齐模型
Part I: Foundations (3pgs)
1. The Counter-Intuition
反直觉
2. Policy Gradient Basics
策略梯度基础
3. From Policy to Alignment
从策略到对齐
Part II: Mathematics (3pgs)
4. RLHF: Learning from Human Feedback
RLHF:从人类反馈学习
5. Lévy Lemma & High-Dim Concentration
Lévy 引理与高维集中
6. Isoperimetric Inequality
等周不等式
Part III: Practice (3pgs) 7. Alignment in Large Models
大模型对齐
8. Discussion 讨论
9. Gym Lab 实验

Видео Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models канала Deephonk Stem

Комментарии отсутствуют

Информация о видео

29 апреля 2026 г. 22:06:58

00:40:05

Deephonk Stem

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала