Авто	Видео-блоги	ДТП, аварии	Для маленьких	Еда, напитки
Животные	Закон и право	Знаменитости	Игры	Искусство
Комедии	Красота, мода	Кулинария, рецепты	Люди	Мото
Музыка	Мультфильмы	Наука, технологии	Новости	Образование
Политика	Праздники	Приколы	Природа	Происшествия
Путешествия	Развлечения	Ржач	Семья	Сериалы
Спорт	Стиль жизни	ТВ передачи	Танцы	Технологии
Товары	Ужасы	Фильмы	Шоу-бизнес	Юмор

EP37 | 深談Deepseek (下)：R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1

#### 歡迎在Podcast平台追蹤我們 :
Apple Podcast: https://apple.co/3Y27vcO
Spotify: https://spoti.fi/3NsHY7G

#### 本期簡介
Deepseek-R1 以「純自動化 GPRO」取代 RLHF 的人力標註，成功降低訓練成本並造就令人驚嘆的「aha moment」。相較 OpenAI 的 o1，Deepseek-R1 更具規模化優勢。本集剖析其強化學習邏輯、封禁爭議及模型蒸餾風波、以及對於應用端的啟示。

#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創智能CEO / 數創實驗室創始人, Podcast播客主理人

美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士

#### 意見回饋
歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6

#### 相關連結
LINE社群入群連結 : https://bit.ly/3TU9K0I
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : vincent.chen@datainnolab.ai

Видео EP37 | 深談Deepseek (下)：R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1 канала 數創實驗室 DataInnoLab