Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling

Reward Modelling
Пчелин Константин Константинович

00:16 Вступление
02:33 Языковая модель как MDP
04:23 Зачем нужна reward model ?
09:25 Модель Брэдли-Терри
11:56 Обучение Reward Model
21:31 Reward Overoptimization
31:47 Reward Shaping
36:31 ORM и PRM
47:58 Практические аспекты

Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664

teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #RLHF #reward_modelling #модель_Брэдли_Терри #Bradley_Terry_model #reward_shaping #ORM #PRM

Видео Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling канала teach-in

Комментарии отсутствуют

Информация о видео

28 апреля 2026 г. 13:00:27

00:58:38

teach-in

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала