- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models
Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models
Modern AI: Foundations, Learning, and Systems
Episode 14 Why Reinforcement Learning Can Align Models
为什么强化学习能对齐模型
Part I: Foundations (3pgs)
1. The Counter-Intuition
反直觉
2. Policy Gradient Basics
策略梯度基础
3. From Policy to Alignment
从策略到对齐
Part II: Mathematics (3pgs)
4. RLHF: Learning from Human Feedback
RLHF:从人类反馈学习
5. Lévy Lemma & High-Dim Concentration
Lévy 引理与高维集中
6. Isoperimetric Inequality
等周不等式
Part III: Practice (3pgs) 7. Alignment in Large Models
大模型对齐
8. Discussion 讨论
9. Gym Lab 实验
Видео Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models канала Deephonk Stem
Modern AI: Foundations, Learning, and Systems
Episode 14 Why Reinforcement Learning Can Align Models
为什么强化学习能对齐模型
Part I: Foundations (3pgs)
1. The Counter-Intuition
反直觉
2. Policy Gradient Basics
策略梯度基础
3. From Policy to Alignment
从策略到对齐
Part II: Mathematics (3pgs)
4. RLHF: Learning from Human Feedback
RLHF:从人类反馈学习
5. Lévy Lemma & High-Dim Concentration
Lévy 引理与高维集中
6. Isoperimetric Inequality
等周不等式
Part III: Practice (3pgs) 7. Alignment in Large Models
大模型对齐
8. Discussion 讨论
9. Gym Lab 实验
Видео Deephonk Stemcast -- Modern AI 14 Why Reinforcement Learning Can Align Models канала Deephonk Stem
Комментарии отсутствуют
Информация о видео
29 апреля 2026 г. 22:06:58
00:40:05
Другие видео канала
