Загрузка...

EP37 | 深談Deepseek (下):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1

#### 歡迎在Podcast平台追蹤我們 :
Apple Podcast: https://apple.co/3Y27vcO
Spotify: https://spoti.fi/3NsHY7G

#### 本期簡介
Deepseek-R1 以「純自動化 GPRO」取代 RLHF 的人力標註,成功降低訓練成本並造就令人驚嘆的「aha moment」。相較 OpenAI 的 o1,Deepseek-R1 更具規模化優勢。本集剖析其強化學習邏輯、封禁爭議及模型蒸餾風波、以及對於應用端的啟示。

#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創智能CEO / 數創實驗室創始人, Podcast播客主理人

美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士

#### 意見回饋
歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6

#### 相關連結
LINE社群入群連結 : https://bit.ly/3TU9K0I
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : vincent.chen@datainnolab.ai

Видео EP37 | 深談Deepseek (下):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1 канала 數創實驗室 DataInnoLab
Яндекс.Метрика

На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.

Об использовании CookiesПринять