Загрузка...

Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti

Тест нейросети Qwen 3.6 27B с технологией MTP (Multi-Token Prediction): запускаем модель локально на двух видеокартах RTX 5070 Ti и проверяем, как Multi-Token Prediction удваивает скорость генерации без потери качества.

В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).

Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.

Мой курс "Применение искусственного интеллекта ChatGPT для 1С" https://nizamov.school/courses/ai/chatgpt-1s

Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек

Команды запуска llama.cpp:

Без MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --split-mode tensor

С MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensor

Что делает каждый флаг:

CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку

./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки

-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face

-ngl 99 - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM

-c 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш

-fa on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)

--spec-type draft-mtp — тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной

--spec-draft-n-max 3 — максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации

--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)

--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions

00:00:00 Введение — удвоение скорости LLM через Multi-Token Prediction
00:00:23 Реклама курса по LLM-разработке для 1С
00:00:52 Подготовка: выбор модели и запуск сервера на двух RTX 5070 Ti
00:03:59 Бенчмарк без MTP: 55 токенов в секунду
00:04:34 Включение спекулятивного декодирования
00:05:08 Бенчмарк с MTP: 105 токенов в секунду
00:05:25 Проверка сгенерированного кода нейронки
00:06:37 Итоги и выводы

#Qwen #Qwen3 #QwenMTP #MTP #MultiTokenPrediction #LLM #нейросеть #локальнаянейросеть #llamacpp #нейросетьдлякода #ИИ #искусственныйинтеллект #LLMлокально #GGUF #unsloth #RTX5070Ti #нейросетьдляпрограммиста #opensourceLLM #нейросеть2026 #машинноеобучение

Видео Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti канала nizamov school
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять