<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      谷歌亮招,Gemma 4加速3倍,vLLM Day0 支持

      0
      分享至


      Gemma 4 MTP Drafter

      谷歌昨天又出招了——4 月初剛發(fā)的 Gemma 4,今天直接送上一個(gè)讓推理快 3 倍的「外掛」:MTP drafter

      官方原話只有一句,但很狠:Same quality, way more speed

      Gemma 4 是什么,先簡(jiǎn)單回顧

      幾個(gè)關(guān)鍵數(shù)字:

      • 參數(shù)覆蓋 2B → 31B 全檔位 ,從手機(jī)能跑的 E2B/E4B 到工作站級(jí)別的 31B Dense、26B MoE 都有

      • 多模態(tài) :文本、圖像、視頻、音頻統(tǒng)統(tǒng)支持

      • 推理強(qiáng) :MMLU Pro 跑到 85%+,開源陣營(yíng)里站在第一梯隊(duì)

      • 下載量驚人 :發(fā)布前 4 周已經(jīng)超過 6000 萬次下載(Google 自己公布的數(shù)據(jù))

      但模型再?gòu)?qiáng),跑不起來都是白搭。今天這次更新,谷歌瞄準(zhǔn)的就是「跑」這件事

      MTP 加速的真實(shí)數(shù)字

      谷歌博客地址:blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

      下面是博客里直接給出的速度對(duì)比圖,橫坐標(biāo)是不同硬件、不同框架、不同模型規(guī)格,縱坐標(biāo)是 tokens/sec 提升倍數(shù):


      Gemma 4 MTP drafter speed ups across hardware

      測(cè)試涵蓋 LiteRT-LM、MLX、Hugging Face Transformers、vLLM 四套主流推理?xiàng)#?strong>最高可達(dá) 3 倍提速

      為什么能快這么多

      要看懂 MTP,先得理解一個(gè)反直覺的事實(shí):

      ? 標(biāo)準(zhǔn) LLM 推理不是算力瓶頸,是顯存帶寬瓶頸

      谷歌博客原話翻譯過來是:

      ? CPU/GPU 大部分時(shí)間都花在「把幾十億參數(shù)從顯存挪到計(jì)算單元」上,僅僅是為了生成一個(gè) token。計(jì)算單元長(zhǎng)期閑置,延遲主要被搬運(yùn)拖死

      所以 MTP 這套思路的本質(zhì)是——用閑著的算力,提前預(yù)測(cè)多個(gè) token

      具體怎么做:

      1. 主模型(target,比如 Gemma 4 31B)+ 一個(gè)輕量級(jí) drafter(草稿模型)
      2. drafter 利用主模型已經(jīng)計(jì)算好的 activations 和 KV cache,一次預(yù)測(cè)多個(gè) token
      3. 主模型并行驗(yàn)證這些 token:對(duì)的整段接受,還順帶多生成 1 個(gè)
      4. 錯(cuò)的丟掉,從分歧點(diǎn)繼續(xù)

      老章用人話翻譯一下:

      小弟(drafter)打草稿  → 一口氣往后猜 4-8 個(gè) token
      大哥(target)做審核 → 整段并行打勾,對(duì)的全收,錯(cuò)的從那里重來

      最關(guān)鍵的是 drafter 復(fù)用 target 的 KV cache,不需要重新算上下文,幾乎是「白嫖」算力

      谷歌還在邊緣端做了額外優(yōu)化:E2B/E4B 這種小模型在 embedder 階段引入了 efficient clustering,把生成端再壓一壓,給手機(jī)/平板續(xù)命

      推測(cè)解碼不是新東西,但谷歌把它做成了開箱即用

      熟悉的同學(xué)知道,speculative decoding 這套東西最早是谷歌自己 2022 年那篇 Fast Inference from Transformers via Speculative Decoding 提出來的

      DeepSeek、Qwen 在自己的推理?xiàng)@锒加眠^類似思路。但這次 Gemma 4 的關(guān)鍵貢獻(xiàn)是:

      1. 官方出 drafter :每個(gè)尺寸的 Gemma 4 都配了對(duì)應(yīng) drafter,不用自己練

      2. 生態(tài)全面適配 :Apache 2.0 協(xié)議,HuggingFace、Kaggle 都能下,Day-0 全家桶覆蓋

      直接看支持的框架矩陣:

      框架/平臺(tái)

      狀態(tài)

      入口

      Hugging Face Transformers

      ? 已支持

      https://huggingface.co/collections/google/gemma-4

      MLX(Apple Silicon)

      ? 已支持

      https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp

      vLLM

      ? Day-0

      https://docs.vllm.ai/projects/recipes/en/latest/Google/Gemma4.html

      SGLang

      ? Day-0

      https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

      Ollama

      ? 已支持

      ollama run gemma4:31b-coding-mtp-bf16

      Google AI Edge Gallery

      ? Android/iOS 直接玩

      App Store / Play Store


      vLLM 的 Day-0 配合

      vLLM 這次相當(dāng)上心,直接發(fā)了一個(gè)開箱即用的 docker 鏡像:


      docker pull vllm/vllm-openai:gemma4-0505-cu129

      完整 recipes 在這:recipes.vllm.ai/Google/gemma-4-26B-A4B-it

      網(wǎng)友實(shí)測(cè):DGX Spark 跑 31B

      光看官方數(shù)據(jù)沒意思,看一份獨(dú)立的實(shí)測(cè)

      有位老哥在 NVIDIA DGX Spark(GB10 芯片)上跑 Gemma 4 31B,配上對(duì)應(yīng)的 31B drafter,對(duì)照組是關(guān)掉 MTP 的同一個(gè)模型

      實(shí)測(cè)數(shù)字(baseline → MTP):

      • concurrency=1:3.65 → 6.37 tok/s (1.74×)

      • concurrency=4:14.34 → 23.59 tok/s (1.65×)

      • concurrency=8:14.37 → 24.18 tok/s (1.68×)

      老哥的原話:

      ? Google 說 up to 2x,我們沒完全摸到,但提升是實(shí)打?qū)嵉模皇?vapor

      技術(shù)棧也直接給出來了:

      DGX Spark (GB10)
      + gemma-4-31b-it
      + gemma-4-31b-it-assistant # MTP drafter
      + vLLM (PR 41745 自編譯)
      一些值得注意的細(xì)節(jié)

      谷歌博客里埋了幾個(gè)老章覺得很關(guān)鍵的點(diǎn):

      1. Apple Silicon 上 batch=1 時(shí) 26B MoE 路由有挑戰(zhàn)

      但只要把并發(fā)拉到 4-8,本地最高能拿到 ~2.2× 加速——M 系列 Mac 跑模型的人請(qǐng)注意,并發(fā)開起來才能吃到這波紅利

      2. 26B MoE 和 31B Dense 都能在消費(fèi)級(jí) GPU 上跑

      之前這個(gè)尺寸基本是數(shù)據(jù)中心獨(dú)占。MTP 把延遲壓下來之后,本地編程助手、Agent 工作流的可行性大幅提升

      3. 邊緣端 E2B/E4B 直接續(xù)航受益

      設(shè)備端推理快了,CPU 喚醒時(shí)間就短,電池消耗就少。手機(jī)上跑大模型不再是噱頭

      4. 零質(zhì)量損失

      谷歌反復(fù)強(qiáng)調(diào):因?yàn)樽罱K輸出由主模型驗(yàn)證,輸出和不開 MTP 完全一致——這點(diǎn)對(duì)生產(chǎn)環(huán)境很關(guān)鍵

      老章的看法

      Gemma 4 的劇本其實(shí)分兩幕:

      • 第一幕(4 月初) :放出全尺寸全模態(tài)模型,把開源的智能上限往上推

      • 第二幕(5 月 5 日) :放出 MTP drafter,把同一批模型的速度往上推

      把這兩件事拼起來看,谷歌想做的是:讓開源模型從「能跑」走向「日常可用」

      適合誰用:

      • 想在自有 GPU 上把 Gemma 4 服務(wù)化的團(tuán)隊(duì)

      • 對(duì)延遲敏感的 Agent / 編程助手 / 語音交互場(chǎng)景

      • Mac 用戶、Android/iOS 邊緣開發(fā)者

      • 顯卡不夠多但要榨吞吐量的工作室(這個(gè)我熟)

      不太適合:

      • 單純做超大 batch 離線推理,本來 GPU 就拉滿的場(chǎng)景,加速空間會(huì)縮水

      • 還在等 transformers 4.x 老版本支持的,請(qǐng)先升級(jí)

      總結(jié)

      Gemma 4 這波的關(guān)鍵不是「分?jǐn)?shù)又漲多少」,而是同樣的模型、同樣的輸出、速度直接 ×2~×3

      這種「不動(dòng)質(zhì)量動(dòng)效率」的更新,對(duì)開源生態(tài)的實(shí)際意義比再發(fā)一個(gè)更大的模型更大

      制作不易,如果這篇文章覺得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4死1傷!遼寧遼陽發(fā)布一起較大交通事故調(diào)查報(bào)告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      4死1傷!遼寧遼陽發(fā)布一起較大交通事故調(diào)查報(bào)告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      揚(yáng)子晚報(bào)
      2026-05-12 20:57:58
      干了20年殯葬,我希望所有家屬拿到骨灰后,不要把親人塞進(jìn)后備箱

      干了20年殯葬,我希望所有家屬拿到骨灰后,不要把親人塞進(jìn)后備箱

      千秋文化
      2026-05-12 20:21:18
      張本智和回到日本 當(dāng)眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問題

      張本智和回到日本 當(dāng)眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問題

      風(fēng)過鄉(xiāng)
      2026-05-12 20:36:06
      穿禮服后退款后續(xù):女子身份曝光社死,工作遭牽連,商家準(zhǔn)備起訴

      穿禮服后退款后續(xù):女子身份曝光社死,工作遭牽連,商家準(zhǔn)備起訴

      八斗小先生
      2026-05-12 17:23:09
      女子跪求丈夫諒解后續(xù):妻子被捉奸兩次,望丈夫再原諒自己一次

      女子跪求丈夫諒解后續(xù):妻子被捉奸兩次,望丈夫再原諒自己一次

      漢史趣聞
      2026-05-12 15:53:02
      中方阻斷令收意外之喜,27國(guó)開始共振,美將面臨三重“地震”

      中方阻斷令收意外之喜,27國(guó)開始共振,美將面臨三重“地震”

      鳥兒太能吃
      2026-05-11 16:27:45
      英媒蓋棺定論:特朗普未登機(jī),美國(guó)債務(wù)爆雷,時(shí)代已然終結(jié)

      英媒蓋棺定論:特朗普未登機(jī),美國(guó)債務(wù)爆雷,時(shí)代已然終結(jié)

      古事尋蹤記
      2026-05-12 07:12:15
      劉嘉玲曬法國(guó)生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

      劉嘉玲曬法國(guó)生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

      喜歡歷史的阿繁
      2026-05-12 12:12:22
      雅迪愛瑪不香了??jī)?nèi)行人透露:最值得買的6個(gè)高性價(jià)比電動(dòng)車品牌

      雅迪愛瑪不香了??jī)?nèi)行人透露:最值得買的6個(gè)高性價(jià)比電動(dòng)車品牌

      老特有話說
      2026-05-12 15:40:47
      工作中刁難群眾、吃拿卡要!珠海香洲區(qū)住建系統(tǒng)3人被查

      工作中刁難群眾、吃拿卡要!珠海香洲區(qū)住建系統(tǒng)3人被查

      南方都市報(bào)
      2026-05-12 12:00:13
      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      上觀新聞
      2026-05-12 15:48:11
      1940年最完美的暗殺:“23名保鏢貼身保護(hù),但腦袋卻被人砍掉”

      1940年最完美的暗殺:“23名保鏢貼身保護(hù),但腦袋卻被人砍掉”

      紀(jì)實(shí)文錄
      2025-05-08 16:15:44
      國(guó)際足聯(lián)輸了,他輸給的不是電視轉(zhuǎn)播,他輸給了中國(guó)球迷!

      國(guó)際足聯(lián)輸了,他輸給的不是電視轉(zhuǎn)播,他輸給了中國(guó)球迷!

      故事終將光明磊落
      2026-05-12 14:04:16
      男團(tuán)、女團(tuán)奪冠僅1天,韓媒、日媒接連發(fā)聲銳評(píng),態(tài)度出奇一致

      男團(tuán)、女團(tuán)奪冠僅1天,韓媒、日媒接連發(fā)聲銳評(píng),態(tài)度出奇一致

      夢(mèng)醉為紅顏一笑
      2026-05-12 11:54:46
      多名家長(zhǎng)反映成都又一幼兒園將閉園 教育局回應(yīng)

      多名家長(zhǎng)反映成都又一幼兒園將閉園 教育局回應(yīng)

      天府觀察
      2026-05-11 15:59:43
      疫情向十多國(guó)擴(kuò)散?美國(guó)放走漢坦病毒感染者,開始給全世界埋雷?

      疫情向十多國(guó)擴(kuò)散?美國(guó)放走漢坦病毒感染者,開始給全世界埋雷?

      明天見灌裝冰塊
      2026-05-12 21:10:57
      53歲古巨基首曬半歲次子,大眼仔呆萌可愛,表白57歲太太:相守30年,你最偉大

      53歲古巨基首曬半歲次子,大眼仔呆萌可愛,表白57歲太太:相守30年,你最偉大

      手工制作阿殲
      2026-05-12 15:36:56
      美國(guó)體操丑聞再爆發(fā)!教練暗藏?cái)z像頭,偷拍6至14歲少女換衣

      美國(guó)體操丑聞再爆發(fā)!教練暗藏?cái)z像頭,偷拍6至14歲少女換衣

      夜白侃球
      2026-05-12 10:32:21
      有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

      有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

      夜深愛雜談
      2026-03-02 22:37:17
      50歲才醒悟:飯局上,領(lǐng)導(dǎo)低聲對(duì)你說“去把賬結(jié)了”,千萬別說“好”,聰明人都這么辦

      50歲才醒悟:飯局上,領(lǐng)導(dǎo)低聲對(duì)你說“去把賬結(jié)了”,千萬別說“好”,聰明人都這么辦

      心理觀察局
      2026-05-12 09:39:11
      2026-05-13 00:47:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3395文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級(jí)!掉粉20萬評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤(rùn)再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      本地
      家居
      手機(jī)
      親子
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      極簡(jiǎn)主義下的居住場(chǎng)域與空間

      手機(jī)要聞

      小米18工程機(jī)曝光:2nm芯、雙揚(yáng)、大X軸馬達(dá),終不用妥協(xié)了

      親子要聞

      有點(diǎn)東西。周寧運(yùn)動(dòng)空間

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 大伊香蕉精品一区视频在线| 天堂av最新版中文在线| 亚洲成人性爱网站| 全部无卡免费的毛片在线看| 亚洲欧美乱日韩乱国产| 丝袜 中出 制服 人妻 美腿| 狠狠色AV一区二区| 超碰国产精品久久国产精品99| 人妻少妇不满足中文字幕| 成人免费精品网站在线观看影片| 日韩一区二区超清视频| 国产精品99久久不卡| 3P免费视频在线观看| 中文精品字幕人妻熟女| 久久精品国产蜜臀av| 欧美视频一区二区专区| 99热这里只有免费国产精品| av激情亚洲男人的天堂| 97成人精品一区二区三区狼人| 国产麻豆成人传媒免费观看| 亚洲h网一区二区三区| 亚洲爆乳无码专区| 久久99精品国产.久久久久| 中文国产不卡一区二区| 男人把女人桶到爽免费应用| 亚洲色成人网站www永久四虎| 免费观看精品视频999| 开心激情站开心激情网六月婷婷| 亚洲伊人情人综合网站| 国产成人精品午夜视频| 欧洲女人牲交视频免费| 69人人| 国产偷人妻精品一区二区在线| 久久久WWW成人免费毛片| 中文成人无字幕乱码精品| 成 人 免 费 黄 色| 精品偷拍一区二区三区| 超碰人人射| 成人国产精品免费网站| 一本久久a精品一区二区| 久久久亚洲精品蜜桃臀|