- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling
Reward Modelling
Пчелин Константин Константинович
00:16 Вступление
02:33 Языковая модель как MDP
04:23 Зачем нужна reward model ?
09:25 Модель Брэдли-Терри
11:56 Обучение Reward Model
21:31 Reward Overoptimization
31:47 Reward Shaping
36:31 ORM и PRM
47:58 Практические аспекты
Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664
teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #RLHF #reward_modelling #модель_Брэдли_Терри #Bradley_Terry_model #reward_shaping #ORM #PRM
Видео Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling канала teach-in
Пчелин Константин Константинович
00:16 Вступление
02:33 Языковая модель как MDP
04:23 Зачем нужна reward model ?
09:25 Модель Брэдли-Терри
11:56 Обучение Reward Model
21:31 Reward Overoptimization
31:47 Reward Shaping
36:31 ORM и PRM
47:58 Практические аспекты
Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664
teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #RLHF #reward_modelling #модель_Брэдли_Терри #Bradley_Terry_model #reward_shaping #ORM #PRM
Видео Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling канала teach-in
Комментарии отсутствуют
Информация о видео
28 апреля 2026 г. 13:00:27
00:58:38
Другие видео канала
