- Популярные видео
- Авто
- Видео-блоги
- ДТП, аварии
- Для маленьких
- Еда, напитки
- Животные
- Закон и право
- Знаменитости
- Игры
- Искусство
- Комедии
- Красота, мода
- Кулинария, рецепты
- Люди
- Мото
- Музыка
- Мультфильмы
- Наука, технологии
- Новости
- Образование
- Политика
- Праздники
- Приколы
- Природа
- Происшествия
- Путешествия
- Развлечения
- Ржач
- Семья
- Сериалы
- Спорт
- Стиль жизни
- ТВ передачи
- Танцы
- Технологии
- Товары
- Ужасы
- Фильмы
- Шоу-бизнес
- Юмор
Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel
A llama.cpp b9235 release új spekulatív decoding optimalizációi látványosan gyorsíthatják a helyi AI inference sebességét NVIDIA GPU-kon, például RTX 3090-en is. Ebben a videóban megmutatom, hogyan ugrott nálam a Qwen / llama.cpp token generálási sebesség 58 token/sec-ről 68 token/sec-re az új ngram-map-k4v, ngram-mod és draft-mtp paraméterekkel.
A b9235 frissítés több fontos javítást hozott a speculative decoding működésében: jobb lett az MTP és n-gram módok kombinálása, javult az acceptance logika, és végre hatékonyabban használhatók együtt az olyan flag-ek, mint a --spec-type draft-mtp,ngram-mod,ngram-map-k4v.
A videóban bemutatom, mit jelentenek ezek a paraméterek, miért gyorsíthatnak a helyi LLM futtatáson, és hogyan érdemes értelmezni a token/sec növekedést RTX 3090-en. A cél nem csak a benchmark, hanem annak megértése, hogy a hosszabb n-gram alapú draft tokenek hogyan csökkenthetik a fő modell soros decode lépéseit.
A spekulatív decoding lényege: egy olcsóbb mechanizmus előre javasol tokeneket, majd a fő modell egy batch-ben ellenőrzi őket. Ez azért gyorsíthat, mert több token batch-ben ellenőrzése hatékonyabb, mint ugyanennyi token szekvenciális, egyesével történő generálása.
A llama.cpp egy nyílt forráskódú, C/C++ nyelven írt szoftverkönyvtár, amely lehetővé teszi nagy nyelvi modellek (LLM) hatékony helyi futtatását minimális hardverigény mellett, akár egy átlagos laptopon is.
*Indítás*
:: --no-cache-prompt ^
@echo off
cd /d "d:\AI\llama.cpp\build\bin\Release"
llama-server.exe ^
-m "d:\AI\llama.cpp\Qwen3.6-27B-IQ4_NL.gguf" ^
--spec-type draft-mtp,ngram-mod,ngram-map-k4v ^
--spec-draft-n-max 3 ^
--parallel 1 ^
--spec-draft-ngl 99 ^
--spec-draft-p-min 0.0 ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 48 ^
--spec-ngram-mod-n-max 64 ^
--spec-ngram-map-k4v-size-n 16 ^
--spec-ngram-map-k4v-size-m 96 ^
--spec-ngram-map-k4v-min-hits 1 ^
--ctx-size 64000 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
-b 1024 ^
-ub 1024 ^
-ngl 99 ^
--flash-attn on ^
--temp 1 ^
--top-p 0.95 ^
--presence-penalty 1.5 ^
--top-k 20 ^
--min-p 0.0 ^
--repeat_penalty 1.0 ^
--no-mmproj ^
--host 0.0.0.0 ^
--port 8080
pause
*Linkek*
llama.cpp: https://github.com/ggml-org/llama.cpp
Release b9235: https://github.com/ggml-org/llama.cpp/releases/tag/b9235
unsloth/Qwen3.6-27B-MTP-GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF
Buildelés
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022
cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON
cmake --build build --config Release -j
*Legyél Te is Tagja az Mp3Pintyo csatornának*
https://www.youtube.com/channel/UC-3YkVvPQbZiApqrRXEOaPg/join
*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG
*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo
*BUYING MY ARTS*
► https://stock.adobe.com/contributor/211260791/zsolt
*STAY ACTIVE FOR A FOLLOW*
►TWITTER: https://twitter.com/Mp3Pintyo
►INSTAGRAM: https://www.instagram.com/mp3pintyo/
►PINTEREST: https://www.pinterest.com/mp3pintyo/
►SOUNDCLOUD: https://soundcloud.com/mp3pintyo
Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.
Témák a videóban:
llama.cpp b9235, speculative decoding, ngram-map-k4v, draft-mtp, RTX 3090 AI inference, token/sec gyorsítás, local LLM optimalizáció, Qwen futtatás, GPU inference tuning.
#llamacpp #LocalLLM #AIInference #RTX3090 #NVIDIA #Qwen #SpeculativeDecoding #LLM #GPU #OpenSourceAI
#ai #mesterségesintelligencia #mi #mp3pintyo1
Видео Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel канала Pintér Zsolt - AI magyarul
A b9235 frissítés több fontos javítást hozott a speculative decoding működésében: jobb lett az MTP és n-gram módok kombinálása, javult az acceptance logika, és végre hatékonyabban használhatók együtt az olyan flag-ek, mint a --spec-type draft-mtp,ngram-mod,ngram-map-k4v.
A videóban bemutatom, mit jelentenek ezek a paraméterek, miért gyorsíthatnak a helyi LLM futtatáson, és hogyan érdemes értelmezni a token/sec növekedést RTX 3090-en. A cél nem csak a benchmark, hanem annak megértése, hogy a hosszabb n-gram alapú draft tokenek hogyan csökkenthetik a fő modell soros decode lépéseit.
A spekulatív decoding lényege: egy olcsóbb mechanizmus előre javasol tokeneket, majd a fő modell egy batch-ben ellenőrzi őket. Ez azért gyorsíthat, mert több token batch-ben ellenőrzése hatékonyabb, mint ugyanennyi token szekvenciális, egyesével történő generálása.
A llama.cpp egy nyílt forráskódú, C/C++ nyelven írt szoftverkönyvtár, amely lehetővé teszi nagy nyelvi modellek (LLM) hatékony helyi futtatását minimális hardverigény mellett, akár egy átlagos laptopon is.
*Indítás*
:: --no-cache-prompt ^
@echo off
cd /d "d:\AI\llama.cpp\build\bin\Release"
llama-server.exe ^
-m "d:\AI\llama.cpp\Qwen3.6-27B-IQ4_NL.gguf" ^
--spec-type draft-mtp,ngram-mod,ngram-map-k4v ^
--spec-draft-n-max 3 ^
--parallel 1 ^
--spec-draft-ngl 99 ^
--spec-draft-p-min 0.0 ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 48 ^
--spec-ngram-mod-n-max 64 ^
--spec-ngram-map-k4v-size-n 16 ^
--spec-ngram-map-k4v-size-m 96 ^
--spec-ngram-map-k4v-min-hits 1 ^
--ctx-size 64000 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
-b 1024 ^
-ub 1024 ^
-ngl 99 ^
--flash-attn on ^
--temp 1 ^
--top-p 0.95 ^
--presence-penalty 1.5 ^
--top-k 20 ^
--min-p 0.0 ^
--repeat_penalty 1.0 ^
--no-mmproj ^
--host 0.0.0.0 ^
--port 8080
pause
*Linkek*
llama.cpp: https://github.com/ggml-org/llama.cpp
Release b9235: https://github.com/ggml-org/llama.cpp/releases/tag/b9235
unsloth/Qwen3.6-27B-MTP-GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF
Buildelés
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022
cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON
cmake --build build --config Release -j
*Legyél Te is Tagja az Mp3Pintyo csatornának*
https://www.youtube.com/channel/UC-3YkVvPQbZiApqrRXEOaPg/join
*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG
*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo
*BUYING MY ARTS*
► https://stock.adobe.com/contributor/211260791/zsolt
*STAY ACTIVE FOR A FOLLOW*
►TWITTER: https://twitter.com/Mp3Pintyo
►INSTAGRAM: https://www.instagram.com/mp3pintyo/
►PINTEREST: https://www.pinterest.com/mp3pintyo/
►SOUNDCLOUD: https://soundcloud.com/mp3pintyo
Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.
Témák a videóban:
llama.cpp b9235, speculative decoding, ngram-map-k4v, draft-mtp, RTX 3090 AI inference, token/sec gyorsítás, local LLM optimalizáció, Qwen futtatás, GPU inference tuning.
#llamacpp #LocalLLM #AIInference #RTX3090 #NVIDIA #Qwen #SpeculativeDecoding #LLM #GPU #OpenSourceAI
#ai #mesterségesintelligencia #mi #mp3pintyo1
Видео Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel канала Pintér Zsolt - AI magyarul
Комментарии отсутствуют
Информация о видео
26 мая 2026 г. 20:21:58
00:16:29
Другие видео канала





















