![]()
Gemma 4 MTP Drafter
谷歌昨天又出招了——4 月初剛發(fā)的 Gemma 4,今天直接送上一個(gè)讓推理快 3 倍的「外掛」:MTP drafter
官方原話只有一句,但很狠:Same quality, way more speed
Gemma 4 是什么,先簡(jiǎn)單回顧
幾個(gè)關(guān)鍵數(shù)字:
參數(shù)覆蓋 2B → 31B 全檔位 ,從手機(jī)能跑的 E2B/E4B 到工作站級(jí)別的 31B Dense、26B MoE 都有
多模態(tài) :文本、圖像、視頻、音頻統(tǒng)統(tǒng)支持
推理強(qiáng) :MMLU Pro 跑到 85%+,開源陣營(yíng)里站在第一梯隊(duì)
下載量驚人 :發(fā)布前 4 周已經(jīng)超過 6000 萬次下載(Google 自己公布的數(shù)據(jù))
但模型再?gòu)?qiáng),跑不起來都是白搭。今天這次更新,谷歌瞄準(zhǔn)的就是「跑」這件事
MTP 加速的真實(shí)數(shù)字
谷歌博客地址:blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
下面是博客里直接給出的速度對(duì)比圖,橫坐標(biāo)是不同硬件、不同框架、不同模型規(guī)格,縱坐標(biāo)是 tokens/sec 提升倍數(shù):
![]()
Gemma 4 MTP drafter speed ups across hardware
測(cè)試涵蓋 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 四套主流推理?xiàng)#?strong>最高可達(dá) 3 倍提速
為什么能快這么多
要看懂 MTP,先得理解一個(gè)反直覺的事實(shí):
? 標(biāo)準(zhǔn) LLM 推理不是算力瓶頸,是顯存帶寬瓶頸
谷歌博客原話翻譯過來是:
? CPU/GPU 大部分時(shí)間都花在「把幾十億參數(shù)從顯存挪到計(jì)算單元」上,僅僅是為了生成一個(gè) token。計(jì)算單元長(zhǎng)期閑置,延遲主要被搬運(yùn)拖死
所以 MTP 這套思路的本質(zhì)是——用閑著的算力,提前預(yù)測(cè)多個(gè) token
具體怎么做:
1. 主模型(target,比如 Gemma 4 31B)+ 一個(gè)輕量級(jí) drafter(草稿模型)
2. drafter 利用主模型已經(jīng)計(jì)算好的 activations 和 KV cache,一次預(yù)測(cè)多個(gè) token
3. 主模型并行驗(yàn)證這些 token:對(duì)的整段接受,還順帶多生成 1 個(gè)
4. 錯(cuò)的丟掉,從分歧點(diǎn)繼續(xù)
老章用人話翻譯一下:
小弟(drafter)打草稿 → 一口氣往后猜 4-8 個(gè) token
大哥(target)做審核 → 整段并行打勾,對(duì)的全收,錯(cuò)的從那里重來
最關(guān)鍵的是 drafter 復(fù)用 target 的 KV cache,不需要重新算上下文,幾乎是「白嫖」算力
谷歌還在邊緣端做了額外優(yōu)化:E2B/E4B 這種小模型在 embedder 階段引入了 efficient clustering,把生成端再壓一壓,給手機(jī)/平板續(xù)命
推測(cè)解碼不是新東西,但谷歌把它做成了開箱即用
熟悉的同學(xué)知道,speculative decoding 這套東西最早是谷歌自己 2022 年那篇 Fast Inference from Transformers via Speculative Decoding 提出來的
DeepSeek、Qwen 在自己的推理?xiàng)@锒加眠^類似思路。但這次 Gemma 4 的關(guān)鍵貢獻(xiàn)是:
官方出 drafter :每個(gè)尺寸的 Gemma 4 都配了對(duì)應(yīng) drafter,不用自己練
生態(tài)全面適配 :Apache 2.0 協(xié)議,HuggingFace、Kaggle 都能下,Day-0 全家桶覆蓋
直接看支持的框架矩陣:
框架/平臺(tái)
狀態(tài)
入口
Hugging Face Transformers
? 已支持
https://huggingface.co/collections/google/gemma-4
MLX(Apple Silicon)
? 已支持
https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp
vLLM
? Day-0
https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html
SGLang
? Day-0
https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4
Ollama
? 已支持
ollama run gemma4:31b-coding-mtp-bf16
Google AI Edge Gallery
? Android/iOS 直接玩
App Store / Play Store
vLLM 的 Day-0 配合
vLLM 這次相當(dāng)上心,直接發(fā)了一個(gè)開箱即用的 docker 鏡像:
![]()
docker pull vllm/vllm-openai:gemma4-0505-cu129
完整 recipes 在這:recipes.vllm.ai/Google/gemma-4-26B-A4B-it
網(wǎng)友實(shí)測(cè):DGX Spark 跑 31B
光看官方數(shù)據(jù)沒意思,看一份獨(dú)立的實(shí)測(cè)
有位老哥在 NVIDIA DGX Spark(GB10 芯片)上跑 Gemma 4 31B,配上對(duì)應(yīng)的 31B drafter,對(duì)照組是關(guān)掉 MTP 的同一個(gè)模型
實(shí)測(cè)數(shù)字(baseline → MTP):
concurrency=1:3.65 → 6.37 tok/s (1.74×)
concurrency=4:14.34 → 23.59 tok/s (1.65×)
concurrency=8:14.37 → 24.18 tok/s (1.68×)
老哥的原話:
? Google 說 up to 2x,我們沒完全摸到,但提升是實(shí)打?qū)嵉模皇?vapor
技術(shù)棧也直接給出來了:
DGX Spark (GB10)
+ gemma-4-31b-it
+ gemma-4-31b-it-assistant # MTP drafter
+ vLLM (PR 41745 自編譯)
一些值得注意的細(xì)節(jié)谷歌博客里埋了幾個(gè)老章覺得很關(guān)鍵的點(diǎn):
1. Apple Silicon 上 batch=1 時(shí) 26B MoE 路由有挑戰(zhàn)
但只要把并發(fā)拉到 4-8,本地最高能拿到 ~2.2× 加速——M 系列 Mac 跑模型的人請(qǐng)注意,并發(fā)開起來才能吃到這波紅利
2. 26B MoE 和 31B Dense 都能在消費(fèi)級(jí) GPU 上跑
之前這個(gè)尺寸基本是數(shù)據(jù)中心獨(dú)占。MTP 把延遲壓下來之后,本地編程助手、Agent 工作流的可行性大幅提升
3. 邊緣端 E2B/E4B 直接續(xù)航受益
設(shè)備端推理快了,CPU 喚醒時(shí)間就短,電池消耗就少。手機(jī)上跑大模型不再是噱頭
4. 零質(zhì)量損失
谷歌反復(fù)強(qiáng)調(diào):因?yàn)樽罱K輸出由主模型驗(yàn)證,輸出和不開 MTP 完全一致——這點(diǎn)對(duì)生產(chǎn)環(huán)境很關(guān)鍵
老章的看法
Gemma 4 的劇本其實(shí)分兩幕:
第一幕(4 月初) :放出全尺寸全模態(tài)模型,把開源的智能上限往上推
第二幕(5 月 5 日) :放出 MTP drafter,把同一批模型的速度往上推
把這兩件事拼起來看,谷歌想做的是:讓開源模型從「能跑」走向「日常可用」
適合誰用:
想在自有 GPU 上把 Gemma 4 服務(wù)化的團(tuán)隊(duì)
對(duì)延遲敏感的 Agent / 編程助手 / 語音交互場(chǎng)景
Mac 用戶、Android/iOS 邊緣開發(fā)者
顯卡不夠多但要榨吞吐量的工作室(這個(gè)我熟)
不太適合:
單純做超大 batch 離線推理,本來 GPU 就拉滿的場(chǎng)景,加速空間會(huì)縮水
還在等 transformers 4.x 老版本支持的,請(qǐng)先升級(jí)
Gemma 4 這波的關(guān)鍵不是「分?jǐn)?shù)又漲多少」,而是同樣的模型、同樣的輸出、速度直接 ×2~×3
這種「不動(dòng)質(zhì)量動(dòng)效率」的更新,對(duì)開源生態(tài)的實(shí)際意義比再發(fā)一個(gè)更大的模型更大
制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.