Загрузка...

MiniCPM-o 4.5 Explained: Full-Duplex Omni-Modal AI on One Timeline

This blackboard explainer breaks down “MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction.”

The key idea is not just lower latency. MiniCPM-o 4.5 targets a deeper interaction problem: most multimodal assistants still separate
perception and response. This paper proposes Omni-Flow, a streaming framework that puts vision, audio, text, and speech onto one shared
time axis, so the model can keep seeing and hearing while it speaks.

Paper: https://arxiv.org/abs/2604.27393

Chapters:
00:00 The interaction problem
00:39 Turn-taking vs full duplex
01:15 End-to-end architecture
01:55 Omni-Flow serialization
02:32 Chunk-size tradeoff
03:06 TAIL speech timing
03:44 Evidence and deployment
04:39 Training recipe and takeaway

Видео MiniCPM-o 4.5 Explained: Full-Duplex Omni-Modal AI on One Timeline канала Xiaol.x
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять