Загрузка...

Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel

A llama.cpp b9235 release új spekulatív decoding optimalizációi látványosan gyorsíthatják a helyi AI inference sebességét NVIDIA GPU-kon, például RTX 3090-en is. Ebben a videóban megmutatom, hogyan ugrott nálam a Qwen / llama.cpp token generálási sebesség 58 token/sec-ről 68 token/sec-re az új ngram-map-k4v, ngram-mod és draft-mtp paraméterekkel.

A b9235 frissítés több fontos javítást hozott a speculative decoding működésében: jobb lett az MTP és n-gram módok kombinálása, javult az acceptance logika, és végre hatékonyabban használhatók együtt az olyan flag-ek, mint a --spec-type draft-mtp,ngram-mod,ngram-map-k4v.

A videóban bemutatom, mit jelentenek ezek a paraméterek, miért gyorsíthatnak a helyi LLM futtatáson, és hogyan érdemes értelmezni a token/sec növekedést RTX 3090-en. A cél nem csak a benchmark, hanem annak megértése, hogy a hosszabb n-gram alapú draft tokenek hogyan csökkenthetik a fő modell soros decode lépéseit.

A spekulatív decoding lényege: egy olcsóbb mechanizmus előre javasol tokeneket, majd a fő modell egy batch-ben ellenőrzi őket. Ez azért gyorsíthat, mert több token batch-ben ellenőrzése hatékonyabb, mint ugyanennyi token szekvenciális, egyesével történő generálása.
A llama.cpp egy nyílt forráskódú, C/C++ nyelven írt szoftverkönyvtár, amely lehetővé teszi nagy nyelvi modellek (LLM) hatékony helyi futtatását minimális hardverigény mellett, akár egy átlagos laptopon is.

*Indítás*
:: --no-cache-prompt ^
@echo off
cd /d "d:\AI\llama.cpp\build\bin\Release"

llama-server.exe ^
-m "d:\AI\llama.cpp\Qwen3.6-27B-IQ4_NL.gguf" ^
--spec-type draft-mtp,ngram-mod,ngram-map-k4v ^
--spec-draft-n-max 3 ^
--parallel 1 ^
--spec-draft-ngl 99 ^
--spec-draft-p-min 0.0 ^
--spec-ngram-mod-n-match 24 ^
--spec-ngram-mod-n-min 48 ^
--spec-ngram-mod-n-max 64 ^
--spec-ngram-map-k4v-size-n 16 ^
--spec-ngram-map-k4v-size-m 96 ^
--spec-ngram-map-k4v-min-hits 1 ^
--ctx-size 64000 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
-b 1024 ^
-ub 1024 ^
-ngl 99 ^
--flash-attn on ^
--temp 1 ^
--top-p 0.95 ^
--presence-penalty 1.5 ^
--top-k 20 ^
--min-p 0.0 ^
--repeat_penalty 1.0 ^
--no-mmproj ^
--host 0.0.0.0 ^
--port 8080

pause

*Linkek*
llama.cpp: https://github.com/ggml-org/llama.cpp
Release b9235: https://github.com/ggml-org/llama.cpp/releases/tag/b9235
unsloth/Qwen3.6-27B-MTP-GGUF: https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF

Buildelés
Ne sima Command Promptból indítsd, hanem Start menüben keresd meg:
x64 Native Tools Command Prompt for VS 2022

cmake -S . -B build ^
-G "Visual Studio 17 2022" ^
-A x64 ^
-T cuda=13.1 ^
-DGGML_CUDA=ON

cmake --build build --config Release -j

*Legyél Te is Tagja az Mp3Pintyo csatornának*
https://www.youtube.com/channel/UC-3YkVvPQbZiApqrRXEOaPg/join

*DISCORD*
Mp3Pintyo szerver: https://discord.gg/NBgUuVDURG

*Támogatás*
Patreon: https://www.patreon.com/mp3pintyo

*BUYING MY ARTS*
► https://stock.adobe.com/contributor/211260791/zsolt
*STAY ACTIVE FOR A FOLLOW*
►TWITTER: https://twitter.com/Mp3Pintyo
►INSTAGRAM: https://www.instagram.com/mp3pintyo/
►PINTEREST: https://www.pinterest.com/mp3pintyo/
►SOUNDCLOUD: https://soundcloud.com/mp3pintyo

Ez a videó bemutatja a mesterséges intelligencia alkalmazását. Az AI (mesterséges intelligencia) rengeteg területen könnyíti és segíti az életünket.

Témák a videóban:
llama.cpp b9235, speculative decoding, ngram-map-k4v, draft-mtp, RTX 3090 AI inference, token/sec gyorsítás, local LLM optimalizáció, Qwen futtatás, GPU inference tuning.

#llamacpp #LocalLLM #AIInference #RTX3090 #NVIDIA #Qwen #SpeculativeDecoding #LLM #GPU #OpenSourceAI

#ai #mesterségesintelligencia #mi #mp3pintyo1

Видео Qwen 3.6 27B token generálási sebesség gyorsítása 58-ról 68 token/sec-re az új paraméterekkel канала Pintér Zsolt - AI magyarul
Яндекс.Метрика
Все заметки Новая заметка Страницу в заметки
Страницу в закладки Мои закладки
На информационно-развлекательном портале SALDA.WS применяются cookie-файлы. Нажимая кнопку Принять, вы подтверждаете свое согласие на их использование.
О CookiesНапомнить позжеПринять