Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel

A llama.cpp b9235 release új spekulatív decoding optimalizációi látványosan gyorsíthatják a helyi AI inference sebességét NVIDIA GPU-kon, például RTX 3090-en is. Ebben a videóban megmutatom, hogyan ugrott nálam a Qwen / llama.cpp token generálási sebesség 58 token/sec-ről 68 token/sec-re az új ngram-map-k4v, ngram-mod és draft-mtp paraméterekkel.

A b9235 frissítés több fontos javítást hozott a speculative decoding működésében: jobb lett az MTP és n-gram módok kombinálása, javult az acceptance logika, és végre hatékonyabban használhatók együtt az olyan flag-ek, mint a --spec-type draft-mtp,ngram-mod,ngram-map-k4v.

A videóban bemutatom, mit jelentenek ezek a paraméterek, miért gyorsíthatnak a helyi LLM futtatáson, és hogyan érdemes értelmezni a token/sec növekedést RTX 3090-en. A cél nem csak a benchmark, hanem annak megértése, hogy a hosszabb n-gram alapú draft tokenek hogyan csökkenthetik a fő modell soros decode lépéseit.

A spekulatív decoding lényege: egy olcsóbb mechanizmus előre javasol tokeneket, majd a fő modell egy batch-ben ellenőrzi őket. Ez azért gyorsíthat, mert több token batch-ben ellenőrzése hatékonyabb, mint ugyanennyi token szekvenciális, egyesével történő generálása.
A llama.cpp egy nyílt forráskódú, C/C++ nyelven írt szoftverkönyvtár, amely lehetővé teszi nagy nyelvi modellek (LLM) hatékony helyi futtatását minimális hardverigény mellett, akár egy átlagos laptopon is.

*Indítás*
:: --no-cache-prompt ^
@echo off
cd /d "d:\AI\llama.cpp\build\bin\Release"

llama-server.exe ^
-m "d:\AI\llama.cpp\Qwen3.6-27B-IQ4_NL.gguf" ^
--spec-type draft-mtp,ngram-mod,ngram-map-k4v ^
--spec-draft-n-max 3 ^
--parallel 1 ^
--spec-draft-ngl 99 ^
--spec-draft-p-min 0.0 ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 48 ^
--spec-ngram-mod-n-max 64 ^
--spec-ngram-map-k4v-size-n 16 ^
--spec-ngram-map-k4v-size-m 96 ^
--spec-ngram-map-k4v-min-hits 1 ^
--ctx-size 64000 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
-b 1024 ^
-ub 1024 ^
-ngl 99 ^
--flash-attn on ^
--temp 1 ^
--top-p 0.95 ^
--presence-penalty 1.5 ^
--top-k 20 ^
--min-p 0.0 ^
--repeat_penalty 1.0 ^
--no-mmproj ^
--host 0.0.0.0 ^
--port 8080

pause

*Linkek*
llama.cpp: https://github.com/ggml-org/llama.cpp
Release b9235: https://github.com/ggml-org/llama.cpp/releases/tag/b9235
unsloth/Qwen3.6-27B-MTP-GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF

Buildelés
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022

cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON

cmake --build build --config Release -j

*Legyél Te is Tagja az Mp3Pintyo csatornának*
https://www.youtube.com/channel/UC-3YkVvPQbZiApqrRXEOaPg/join

*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG

*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo

*BUYING MY ARTS*
► https://stock.adobe.com/contributor/211260791/zsolt
*STAY ACTIVE FOR A FOLLOW*
►TWITTER: https://twitter.com/Mp3Pintyo
►INSTAGRAM: https://www.instagram.com/mp3pintyo/
►PINTEREST: https://www.pinterest.com/mp3pintyo/
►SOUNDCLOUD: https://soundcloud.com/mp3pintyo

Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.

Témák a videóban:
llama.cpp b9235, speculative decoding, ngram-map-k4v, draft-mtp, RTX 3090 AI inference, token/sec gyorsítás, local LLM optimalizáció, Qwen futtatás, GPU inference tuning.

#llamacpp #LocalLLM #AIInference #RTX3090 #NVIDIA #Qwen #SpeculativeDecoding #LLM #GPU #OpenSourceAI

#ai #mesterségesintelligencia #mi #mp3pintyo1

Видео Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel канала Pintér Zsolt - AI magyarul

Комментарии отсутствуют

Информация о видео

26 мая 2026 г. 20:21:58

00:16:29

Pintér Zsolt - AI magyarul

Теги

Правообладателям

Жалоба на материал Недопустимый материал Нарушение авторских прав

Комментарии

Другие видео канала

Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel

The true reason why Italy banned ChatGPT. #chatgpt #gpt4 #italy #italia #short #pizza #shorts #ai

A Z-Image Turbo képgeneráló modell elérhető lett az🔥Ingyenes Google Colab (T4) rendszerben

A MiniMax-M2.1 egy 10 milliárd (10B) aktív paraméterrel rendelkező nyílt forráskódú nyelvi modell

GPT-4V: Az AI, ami képes látni. Tölts fel egy képet és tegyél fel róla egy kérdést!

Franz Kafka's giant rotating head. A statue in Prague. #shorts #prague #franzkafka #europe #czech

An ethereal and mystical piece centered around a solo female vocal #ai #acestep #song #fantasy

Google Parti - text2image képgeneráló mesterséges intelligencia a Google Labs konyhájából

Mi az OpenRouter? Hogyan kell beállítani és hogyan lehet használni? Milyen előnyökkel jár?

Biztos, hogy a legolcsóbb boltból a legjobb vásárolni? Megbízható? Mi tud a döntésben segíteni?

Expression Editor: Arckifejezések egyszerű módosítása ingyenesen AI és Docker segítségével

A Tencent Hunyuan 3D 3.0 egy ingyenes AI eszköz, amely szövegből, képből 3D modelleket generál

ImagineArt 2.0: célja a szintetikus megjelenés helyett a stúdióminőségű vizuális tartalomgyártás

Rajzolj valós időben realisztikus képeket a tableteden az S Pen vagy az Apple Pencil használatával

Az LM Link az LM Studio új szolgáltatása, építsünk egy privát mesterséges intelligencia hálózatot

ByteDance Seed Tar: egyszerre tudja "leírni", amit lát, és "megálmodni", majd létrehozni azt

Twitter (X) threadek lementése NotebookLM-hez másodpercek alatt! | Hermes Agent Tutorial

Nem kell modell csak egy próbababa rajz + SD az e-kereskedelmi modellfotók létrehozásához

LLM finomhangolás 1. rész: Bevezetés a nagy nyelvi modellek finomhangolásába, útmutató, telepítés

What is your cat name? #shorts #cat #cats #foryou #foryoupage #catlover #catvideos #meow #catlovers

LGM: nagy felbontású 3D modellek gyors létrehozása szöveges utasítások vagy egyszerű képek alapján

LivePortrait 2.: Élethű videó egy másik videóból! Telepítési útmutató saját gépen: Win, Linux, Mac