網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌亮招，Gemma 4加速3倍，vLLM Day0 支持

2026-05-06 22:22:19　來源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

Gemma 4 MTP Drafter

谷歌昨天又出招了——4 月初剛發(fā)的 Gemma 4，今天直接送上一個(gè)讓推理快 3 倍的「外掛」：MTP drafter

官方原話只有一句，但很狠：Same quality, way more speed

Gemma 4 是什么，先簡(jiǎn)單回顧

幾個(gè)關(guān)鍵數(shù)字：

參數(shù)覆蓋 2B → 31B 全檔位 ，從手機(jī)能跑的 E2B/E4B 到工作站級(jí)別的 31B Dense、26B MoE 都有
多模態(tài) ：文本、圖像、視頻、音頻統(tǒng)統(tǒng)支持
推理強(qiáng) ：MMLU Pro 跑到 85%+，開源陣營(yíng)里站在第一梯隊(duì)
下載量驚人 ：發(fā)布前 4 周已經(jīng)超過 6000 萬次下載（Google 自己公布的數(shù)據(jù)）

但模型再?gòu)?qiáng)，跑不起來都是白搭。今天這次更新，谷歌瞄準(zhǔn)的就是「跑」這件事

MTP 加速的真實(shí)數(shù)字

谷歌博客地址：blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

下面是博客里直接給出的速度對(duì)比圖，橫坐標(biāo)是不同硬件、不同框架、不同模型規(guī)格，縱坐標(biāo)是 tokens/sec 提升倍數(shù)：

Gemma 4 MTP drafter speed ups across hardware

測(cè)試涵蓋 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 四套主流推理?xiàng)＃?strong>最高可達(dá) 3 倍提速

為什么能快這么多

要看懂 MTP，先得理解一個(gè)反直覺的事實(shí)：

? 標(biāo)準(zhǔn) LLM 推理不是算力瓶頸，是顯存帶寬瓶頸

谷歌博客原話翻譯過來是：

? CPU/GPU 大部分時(shí)間都花在「把幾十億參數(shù)從顯存挪到計(jì)算單元」上，僅僅是為了生成一個(gè) token。計(jì)算單元長(zhǎng)期閑置，延遲主要被搬運(yùn)拖死

所以 MTP 這套思路的本質(zhì)是——用閑著的算力，提前預(yù)測(cè)多個(gè) token

具體怎么做：

1. 主模型（target，比如 Gemma 4 31B）+ 一個(gè)輕量級(jí) drafter（草稿模型）
2. drafter 利用主模型已經(jīng)計(jì)算好的 activations 和 KV cache，一次預(yù)測(cè)多個(gè) token
3. 主模型并行驗(yàn)證這些 token：對(duì)的整段接受，還順帶多生成 1 個(gè)
4. 錯(cuò)的丟掉，從分歧點(diǎn)繼續(xù)

老章用人話翻譯一下：

小弟（drafter）打草稿  → 一口氣往后猜 4-8 個(gè) token
大哥（target）做審核   → 整段并行打勾，對(duì)的全收，錯(cuò)的從那里重來

最關(guān)鍵的是 drafter 復(fù)用 target 的 KV cache，不需要重新算上下文，幾乎是「白嫖」算力

谷歌還在邊緣端做了額外優(yōu)化：E2B/E4B 這種小模型在 embedder 階段引入了 efficient clustering，把生成端再壓一壓，給手機(jī)/平板續(xù)命

推測(cè)解碼不是新東西，但谷歌把它做成了開箱即用

熟悉的同學(xué)知道，speculative decoding 這套東西最早是谷歌自己 2022 年那篇 Fast Inference from Transformers via Speculative Decoding 提出來的

DeepSeek、Qwen 在自己的推理?xiàng)＠锒加眠^類似思路。但這次 Gemma 4 的關(guān)鍵貢獻(xiàn)是：

官方出 drafter ：每個(gè)尺寸的 Gemma 4 都配了對(duì)應(yīng) drafter，不用自己練
生態(tài)全面適配 ：Apache 2.0 協(xié)議，HuggingFace、Kaggle 都能下，Day-0 全家桶覆蓋

直接看支持的框架矩陣：

框架/平臺(tái)

狀態(tài)

入口

Hugging Face Transformers

? 已支持

https://huggingface.co/collections/google/gemma-4

MLX（Apple Silicon）

? 已支持

https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp

vLLM

? Day-0

https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html

SGLang

? Day-0

https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

Ollama

? 已支持

ollama run gemma4:31b-coding-mtp-bf16

Google AI Edge Gallery

? Android/iOS 直接玩

App Store / Play Store

vLLM 的 Day-0 配合

vLLM 這次相當(dāng)上心，直接發(fā)了一個(gè)開箱即用的 docker 鏡像：

docker pull vllm/vllm-openai:gemma4-0505-cu129

完整 recipes 在這：recipes.vllm.ai/Google/gemma-4-26B-A4B-it

網(wǎng)友實(shí)測(cè)：DGX Spark 跑 31B

光看官方數(shù)據(jù)沒意思，看一份獨(dú)立的實(shí)測(cè)

有位老哥在 NVIDIA DGX Spark（GB10 芯片）上跑 Gemma 4 31B，配上對(duì)應(yīng)的 31B drafter，對(duì)照組是關(guān)掉 MTP 的同一個(gè)模型

實(shí)測(cè)數(shù)字（baseline → MTP）：

concurrency=1：3.65 → 6.37 tok/s （1.74×）
concurrency=4：14.34 → 23.59 tok/s （1.65×）
concurrency=8：14.37 → 24.18 tok/s （1.68×）

老哥的原話：

? Google 說 up to 2x，我們沒完全摸到，但提升是實(shí)打?qū)嵉模皇?vapor

技術(shù)棧也直接給出來了：

DGX Spark (GB10)
+ gemma-4-31b-it
+ gemma-4-31b-it-assistant   # MTP drafter
+ vLLM (PR 41745 自編譯)

一些值得注意的細(xì)節(jié)

谷歌博客里埋了幾個(gè)老章覺得很關(guān)鍵的點(diǎn)：

1. Apple Silicon 上 batch=1 時(shí) 26B MoE 路由有挑戰(zhàn)

但只要把并發(fā)拉到 4-8，本地最高能拿到 ~2.2× 加速——M 系列 Mac 跑模型的人請(qǐng)注意，并發(fā)開起來才能吃到這波紅利

2. 26B MoE 和 31B Dense 都能在消費(fèi)級(jí) GPU 上跑

之前這個(gè)尺寸基本是數(shù)據(jù)中心獨(dú)占。MTP 把延遲壓下來之后，本地編程助手、Agent 工作流的可行性大幅提升

3. 邊緣端 E2B/E4B 直接續(xù)航受益

設(shè)備端推理快了，CPU 喚醒時(shí)間就短，電池消耗就少。手機(jī)上跑大模型不再是噱頭

4. 零質(zhì)量損失

谷歌反復(fù)強(qiáng)調(diào)：因?yàn)樽罱K輸出由主模型驗(yàn)證，輸出和不開 MTP 完全一致——這點(diǎn)對(duì)生產(chǎn)環(huán)境很關(guān)鍵

老章的看法

Gemma 4 的劇本其實(shí)分兩幕：

第一幕（4 月初） ：放出全尺寸全模態(tài)模型，把開源的智能上限往上推
第二幕（5 月 5 日） ：放出 MTP drafter，把同一批模型的速度往上推

把這兩件事拼起來看，谷歌想做的是：讓開源模型從「能跑」走向「日常可用」

適合誰用：

想在自有 GPU 上把 Gemma 4 服務(wù)化的團(tuán)隊(duì)
對(duì)延遲敏感的 Agent / 編程助手 / 語音交互場(chǎng)景
Mac 用戶、Android/iOS 邊緣開發(fā)者
顯卡不夠多但要榨吞吐量的工作室（這個(gè)我熟）

不太適合：

單純做超大 batch 離線推理，本來 GPU 就拉滿的場(chǎng)景，加速空間會(huì)縮水
還在等 transformers 4.x 老版本支持的，請(qǐng)先升級(jí)

總結(jié)

Gemma 4 這波的關(guān)鍵不是「分?jǐn)?shù)又漲多少」，而是同樣的模型、同樣的輸出、速度直接 ×2~×3

這種「不動(dòng)質(zhì)量動(dòng)效率」的更新，對(duì)開源生態(tài)的實(shí)際意義比再發(fā)一個(gè)更大的模型更大

制作不易，如果這篇文章覺得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.