Загрузка...

Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling

Reward Modelling
Пчелин Константин Константинович

00:16 Вступление
02:33 Языковая модель как MDP
04:23 Зачем нужна reward model ?
09:25 Модель Брэдли-Терри
11:56 Обучение Reward Model
21:31 Reward Overoptimization
31:47 Reward Shaping
36:31 ORM и PRM
47:58 Практические аспекты

Ссылка на плейлист Teach-In: https://teach-in.ru/course/reinforcement-learning
Ссылка на плейлист YouTube: https://www.youtube.com/playlist?list=PLcsjsqLLSfNBlD-_pB_YGAVNNOu1BKHPW
Ссылка на плейлист VK: https://vkvideo.ru/playlist/-176441665_867
Ссылка на плейлист RuTube: https://rutube.ru/plst/1513664

teach_in #мгу #msu #мехмат #mechanics_and_mathematics #лекции #lectures #Пчелин #Pchelin #Миронов #Mironov #машинное_обучение #machine_learning #обучение_с_подкреплением #reinforcement_learning #RL #RLHF #reward_modelling #модель_Брэдли_Терри #Bradley_Terry_model #reward_shaping #ORM #PRM

Видео Пчелин К.К. - Машинное обучение с подкреплением - 7. Reward Modelling канала teach-in
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять