Загрузка...

DeepSeek's Biggest Leap Yet: V4 Delivers the Impossible

DeepSeek just dropped V4: a 1.6 trillion parameter open-source model that handles 1 million tokens of context using only 10% of the memory of its predecessor. MIT licensed, 6× cheaper than GPT-5.5, and the architecture inside it might be the biggest shift in transformer design since FlashAttention.

Paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

Timestamps:
00:00 The 90% memory cut
00:29 From V3 to V4: the architectural lineage
01:02 The quadratic wall
01:45 The three architectural pillars
02:32 Hybrid Attention deep dive: CSA + HCA
03:22 mHC and Muon: stabilizing 1.6T parameters
04:09 On-Policy Distillation
04:58 The efficiency leap: 27% FLOPs, 10% KV cache
05:42 Benchmarks: SimpleQA, Codeforces, MRCR
06:36 Head-to-head vs GPT-5.5 and Gemini 3.1 Pro
07:20 What 1M tokens unlocks in production
08:09 Open-source is closing the gap
08:54 Outro

Видео DeepSeek's Biggest Leap Yet: V4 Delivers the Impossible канала Sebastian Buzdugan
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять