- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti
Тест нейросети Qwen 3.6 27B с технологией MTP (Multi-Token Prediction): запускаем модель локально на двух видеокартах RTX 5070 Ti и проверяем, как Multi-Token Prediction удваивает скорость генерации без потери качества.
В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).
Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.
Мой курс "Применение искусственного интеллекта ChatGPT для 1С" https://nizamov.school/courses/ai/chatgpt-1s
Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек
Команды запуска llama.cpp:
Без MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --split-mode tensor
С MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensor
Что делает каждый флаг:
CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку
./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки
-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face
-ngl 99 - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM
-c 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш
-fa on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)
--spec-type draft-mtp — тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной
--spec-draft-n-max 3 — максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации
--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)
--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions
00:00:00 Введение — удвоение скорости LLM через Multi-Token Prediction
00:00:23 Реклама курса по LLM-разработке для 1С
00:00:52 Подготовка: выбор модели и запуск сервера на двух RTX 5070 Ti
00:03:59 Бенчмарк без MTP: 55 токенов в секунду
00:04:34 Включение спекулятивного декодирования
00:05:08 Бенчмарк с MTP: 105 токенов в секунду
00:05:25 Проверка сгенерированного кода нейронки
00:06:37 Итоги и выводы
#Qwen #Qwen3 #QwenMTP #MTP #MultiTokenPrediction #LLM #нейросеть #локальнаянейросеть #llamacpp #нейросетьдлякода #ИИ #искусственныйинтеллект #LLMлокально #GGUF #unsloth #RTX5070Ti #нейросетьдляпрограммиста #opensourceLLM #нейросеть2026 #машинноеобучение
Видео Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti канала nizamov school
В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).
Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.
Мой курс "Применение искусственного интеллекта ChatGPT для 1С" https://nizamov.school/courses/ai/chatgpt-1s
Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек
Команды запуска llama.cpp:
Без MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --split-mode tensor
С MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensor
Что делает каждый флаг:
CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку
./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки
-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face
-ngl 99 - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM
-c 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш
-fa on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)
--spec-type draft-mtp — тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной
--spec-draft-n-max 3 — максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации
--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)
--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions
00:00:00 Введение — удвоение скорости LLM через Multi-Token Prediction
00:00:23 Реклама курса по LLM-разработке для 1С
00:00:52 Подготовка: выбор модели и запуск сервера на двух RTX 5070 Ti
00:03:59 Бенчмарк без MTP: 55 токенов в секунду
00:04:34 Включение спекулятивного декодирования
00:05:08 Бенчмарк с MTP: 105 токенов в секунду
00:05:25 Проверка сгенерированного кода нейронки
00:06:37 Итоги и выводы
#Qwen #Qwen3 #QwenMTP #MTP #MultiTokenPrediction #LLM #нейросеть #локальнаянейросеть #llamacpp #нейросетьдлякода #ИИ #искусственныйинтеллект #LLMлокально #GGUF #unsloth #RTX5070Ti #нейросетьдляпрограммиста #opensourceLLM #нейросеть2026 #машинноеобучение
Видео Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti канала nizamov school
Комментарии отсутствуют
Информация о видео
5 июня 2026 г. 20:12:36
00:06:52
Другие видео канала




















