Загрузка...

Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models

Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models

Modern AI: Foundations, Learning, and Systems
Episode 14 Why Reinforcement Learning Can Align Models
为什么强化学习能对齐模型
Part I: Foundations (3pgs)
1. The Counter-Intuition
反直觉
2. Policy Gradient Basics
策略梯度基础
3. From Policy to Alignment
从策略到对齐
Part II: Mathematics (3pgs)
4. RLHF: Learning from Human Feedback
RLHF:从人类反馈学习
5. Lévy Lemma & High-Dim Concentration
Lévy 引理与高维集中
6. Isoperimetric Inequality
等周不等式
Part III: Practice (3pgs) 7. Alignment in Large Models
大模型对齐
8. Discussion 讨论
9. Gym Lab 实验

Видео Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models канала Deephonk Stem
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять