EP37 | 深談Deepseek (下):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1
#### 歡迎在Podcast平台追蹤我們 :
Apple Podcast: https://apple.co/3Y27vcO
Spotify: https://spoti.fi/3NsHY7G
#### 本期簡介
Deepseek-R1 以「純自動化 GPRO」取代 RLHF 的人力標註,成功降低訓練成本並造就令人驚嘆的「aha moment」。相較 OpenAI 的 o1,Deepseek-R1 更具規模化優勢。本集剖析其強化學習邏輯、封禁爭議及模型蒸餾風波、以及對於應用端的啟示。
#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創智能CEO / 數創實驗室創始人, Podcast播客主理人
美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士
#### 意見回饋
歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6
#### 相關連結
LINE社群入群連結 : https://bit.ly/3TU9K0I
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : vincent.chen@datainnolab.ai
Видео EP37 | 深談Deepseek (下):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1 канала 數創實驗室 DataInnoLab
Apple Podcast: https://apple.co/3Y27vcO
Spotify: https://spoti.fi/3NsHY7G
#### 本期簡介
Deepseek-R1 以「純自動化 GPRO」取代 RLHF 的人力標註,成功降低訓練成本並造就令人驚嘆的「aha moment」。相較 OpenAI 的 o1,Deepseek-R1 更具規模化優勢。本集剖析其強化學習邏輯、封禁爭議及模型蒸餾風波、以及對於應用端的啟示。
#### 關於主持人
Vincent Chen (www.linkedin.com/in/hsiang-hao-chen-53443593)
數創智能CEO / 數創實驗室創始人, Podcast播客主理人
美國財星500強電商大廠 | 數據團隊主管
台灣零售行業上市公司 | 資料技術處處長
AI & 大數據跨國經驗10年+ | 跨國反欺詐 | 智能行銷 & 推薦系統
英國全球百大 Data Science & 台灣交大MBA雙碩士
#### 意見回饋
歡迎回饋您希望收聽的AI主題 : https://bit.ly/40Q8PT6
#### 相關連結
LINE社群入群連結 : https://bit.ly/3TU9K0I
數創實驗室官網 : https://datainnolab.ai
聯繫數創實驗室 : vincent.chen@datainnolab.ai
Видео EP37 | 深談Deepseek (下):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1 канала 數創實驗室 DataInnoLab
3B 671B aha moment AI AI訓練 AlphaGo Amazon CoT Deepseek Deepseek-R1 Deepseek-v3 Google GPRO Microsoft Azure Model Distillation Nvidia o1 OpenAI Pan Jiayi Perplexity qwen RL RLHF UC Berkeley Vertex AI 人工 加減乘除 參數量 可擴充性 大模型 大語言模型 封禁措施 小模型 市場 強化學習 思維練 技術創新 推理 政府 效率 教師模型 數學 模型 模型參數 模型蒸餾 機制 研究 美國 義大利攻擊 自動化流程 自我修正 英偉達 輝達 通義千問 阿里 雲端大廠 頓悟時刻
Комментарии отсутствуют
Информация о видео
17 апреля 2025 г. 17:00:08
00:25:38
Другие видео канала