<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      月之暗面(Moonshot AI)和清華大學(xué)最新研究:推理吞吐量暴漲54%

      0
      分享至

      緊跟Kimi K2.6,推一篇有點(diǎn)腦洞的論文,來自月之暗面(Moonshot AI)和清華大學(xué)的最新聯(lián)合研究

      一句話說清楚:這論文在搞什么?

      把 Prefill(預(yù)填充)變成一種跨數(shù)據(jù)中心的云服務(wù)。

      聽起來有點(diǎn)抽象?我換個說法:以前大模型推理的 Prefill 和 Decode 兩個階段必須待在同一個機(jī)房里,因?yàn)橹虚g傳輸?shù)?KVCache 太大了,跨機(jī)房根本搬不動

      而這篇論文說,新一代混合注意力模型的 KVCache 縮小了十幾倍甚至幾十倍,我們可以把 Prefill 拆出去、放到另一個機(jī)房的高算力集群上跑,然后用普通以太網(wǎng)把 KVCache 傳回來做 Decode

      這個架構(gòu)叫做Prefill-as-a-Service(PrfaaS),實(shí)測吞吐量比同構(gòu) PD 部署高 54%,比樸素異構(gòu)方案高 32%


      地址 arxiv.org/abs/2604.15039 為什么要搞跨數(shù)據(jù)中心?

      先說背景

      PD 分離(Prefill-Decode Disaggregation)已經(jīng)是大規(guī)模 LLM 推理的標(biāo)準(zhǔn)范式了

      Moonshot AI 自家的 Mooncake 系統(tǒng)就是這個方向的先行者,后來跟 vLLM、SGLang、Dynamo 都做了深度合作,把 KVCache 當(dāng)成 vip 來管理

      PD 分離的原理很簡單:Prefill 是計(jì)算密集型的,Decode 是內(nèi)存帶寬密集型的,兩者對硬件的需求完全不同

      理論上,我們應(yīng)該用算力強(qiáng)的芯片專門跑 Prefill,用帶寬大的芯片專門跑 Decode——這就是所謂的異構(gòu)推理

      但現(xiàn)實(shí)很骨感,問題出在 KVCache 傳輸上

      下圖展示了傳統(tǒng)單集群 PD 推理(左)和 PrfaaS 跨數(shù)據(jù)中心推理(右)的對比:


      傳統(tǒng)PD架構(gòu) vs PrfaaS架構(gòu)

      在傳統(tǒng)的 Dense Attention 模型里,一個 32K token 的請求,單個 MiniMax-M2.5 實(shí)例產(chǎn)生的 KVCache 傳輸速率高達(dá)約 60 Gbps。這什么概念?一臺機(jī)器的跨數(shù)據(jù)中心以太網(wǎng)帶寬都扛不住。所以 Prefill 和 Decode 必須共享同一個高帶寬 RDMA 網(wǎng)絡(luò),被死死綁在同一個機(jī)房里

      下圖展示了 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,可以看到帶寬需求有多恐怖:


      MiniMax-M2.5 KV吞吐量

      這就導(dǎo)致了一個尷尬局面:你想搞異構(gòu)推理?可以,但你得把不同類型的芯片塞進(jìn)同一個 RDMA 集群里。這在運(yùn)維上極其僵化——你連 Prefill 和 Decode 的硬件比例都沒法靈活調(diào)整

      混合注意力模型改變了游戲規(guī)則

      這篇論文指出了一個關(guān)鍵的轉(zhuǎn)折點(diǎn):新一代的混合注意力架構(gòu),正在從根本上改變 KVCache 的大小

      什么是混合注意力?簡單說就是在模型里只保留少量的全注意力層(Full Attention),大部分層用線性注意力(Linear Attention)或滑動窗口注意力(SWA)替代。這些層產(chǎn)生的 KVCache 大小是固定的,不會隨輸入長度線性增長

      論文里列出了一組最新的混合注意力模型:

      模型

      架構(gòu)比例

      KV 吞吐量@32K

      MiniMax-M2.5(Dense)

      全 GQA

      ~60 Gbps

      Qwen3-235B(Dense)

      全 MLA

      ~33 Gbps

      Qwen3.5-397B

      3:1 線性:全注意力

      ~8 GbpsMiMo-V2-Flash

      5:1 SWA:全注意力

      ~4.7 GbpsRing-2.5-1T

      7:1 線性:全注意力

      更低

      看到了嗎?從 60 Gbps 直接降到 4.7 Gbps,降了 13 倍!Ring-2.5-1T 更是靠 MLA + 7:1 混合比例實(shí)現(xiàn)了約36 倍的 KV 內(nèi)存節(jié)省。

      這個數(shù)量級的變化意味著:KVCache 終于可以用普通以太網(wǎng)跨數(shù)據(jù)中心傳了。

      但是!光靠模型架構(gòu)還不夠

      論文強(qiáng)調(diào)得很清楚:實(shí)際工作負(fù)載是突發(fā)的,請求長度嚴(yán)重不均,前綴緩存分布不平衡,跨集群帶寬還會波動。如果傻乎乎地把所有 Prefill 都扔到遠(yuǎn)端集群,照樣會擁塞、排隊(duì)、利用率低下

      模型讓跨數(shù)據(jù)中心傳輸變得"可能",但要讓它"實(shí)用",還需要系統(tǒng)層面的精心設(shè)計(jì)

      PrfaaS 的核心設(shè)計(jì)

      PrfaaS 的架構(gòu)相當(dāng)優(yōu)雅,核心思想是 **"選擇性卸載"**——只把值得的請求送到遠(yuǎn)端。

      下圖是 PrfaaS-PD 的部署拓?fù)洌?/p>


      PrfaaS-PD 架構(gòu)部署圖

      整個系統(tǒng)分為三個子系統(tǒng):

      1. 計(jì)算子系統(tǒng)

      • PrfaaS 集群:高算力硬件(如 H200),專門處理長上下文 Prefill

      • 本地 PD 集群:常規(guī)硬件(如 H20),負(fù)責(zé)短請求的 Prefill + 所有請求的 Decode

      2. 網(wǎng)絡(luò)子系統(tǒng)

      • 集群內(nèi)部:RDMA 高帶寬互聯(lián)

      • 集群之間:普通以太網(wǎng)(VPC 對等連接或?qū)>€)

      3. 存儲子系統(tǒng):混合前綴緩存池

      這個設(shè)計(jì)很巧妙。混合注意力模型里有兩種不同的 KVCache:

      • 線性注意力層的遞歸狀態(tài):大小固定,只能精確匹配復(fù)用

      • 全注意力層的 KVCache:隨長度線性增長,支持前綴部分匹配

      混合前綴緩存池架構(gòu)

      PrfaaS 把這兩類 KVCache 分組管理,但共享底層的內(nèi)存池。緩存塊分為兩類:前綴緩存塊(可跨請求復(fù)用)和傳輸緩存塊(傳完即丟)。全局 KVCache 管理器維護(hù)所有集群的緩存元數(shù)據(jù),調(diào)度器據(jù)此決定請求路由。

      關(guān)鍵調(diào)度策略:雙時間尺度調(diào)度

      這是論文最硬核的部分。PrfaaS 的調(diào)度器分兩個層面運(yùn)作:

      短期調(diào)度:帶寬感知 + 緩存感知路由

      設(shè)一個長度閾值t,請求的增量 Prefill 長度(去掉緩存命中的前綴后)超過t的,發(fā)到 PrfaaS 集群;不超過的,留在本地 PD 集群處理。

      為什么這樣做?因?yàn)槎陶埱蟮?Prefill 通常是內(nèi)存瓶頸(不是計(jì)算瓶頸),送到高算力集群反而浪費(fèi);而且短請求的 KV 吞吐量相對更高,會更快吃滿跨集群帶寬。

      調(diào)度器還會實(shí)時監(jiān)控 PrfaaS 集群的出口鏈路利用率和隊(duì)列深度:

      • 帶寬緊張時:各集群的前綴緩存獨(dú)立評估,盡量減少跨集群傳輸

      • 帶寬充裕時:全局最優(yōu)緩存匹配,甚至允許跨集群緩存遷移

      長期調(diào)度:流量驅(qū)動的資源再分配

      本地 PD 集群內(nèi)的 Prefill/Decode 實(shí)例比例可以動態(tài)調(diào)整。當(dāng)流量模式變化時,調(diào)度器會重新計(jì)算最優(yōu)的Np/Nd比例和路由閾值t

      實(shí)驗(yàn)結(jié)果:54% 吞吐量提升

      論文用內(nèi)部一個 1T 參數(shù)的混合架構(gòu)模型(基于 Kimi Linear 架構(gòu),3:1 KDA:MLA 層比例)做了案例研究。

      硬件配置:

      • PrfaaS 集群:32 個 H200 GPU(高算力,專跑長上下文 Prefill)

      • 本地 PD 集群:64 個 H20 GPU(常規(guī) PD 模式,800 Gbps RDMA)

      • 跨集群帶寬:約 100 Gbps VPC 網(wǎng)絡(luò)

      • 對比基線:96 個 H20 GPU 的同構(gòu) PD 集群

      工作負(fù)載:

      • 輸入長度:截?cái)鄬?shù)正態(tài)分布,均值約 27K tokens,范圍 128~128K

      • 輸出長度:固定 1024 tokens

      • SLO:40 tokens/s

      下圖展示了最優(yōu)參數(shù)搜索過程——找到最佳的 Prefill/Decode 分配比和路由閾值:


      參數(shù)搜索過程路由閾值搜索

      最優(yōu)配置:

      • 路由閾值 t = 19.4K tokens

      • 本地 PD 集群:3 個 Prefill 實(shí)例 + 5 個 Decode 實(shí)例

      • 約 50% 的請求(長請求)被卸載到 PrfaaS 集群

      核心結(jié)果:

      指標(biāo)

      PrfaaS-PD

      同構(gòu) PD

      樸素異構(gòu) PD

      吞吐量提升

      基準(zhǔn)

      低 54%

      低 32%

      P90 TTFT

      基準(zhǔn)

      高 64%

      跨集群帶寬消耗

      13 Gbps

      不適用

      更高

      最讓我驚艷的數(shù)字:PrfaaS 集群的平均出口帶寬僅 13 Gbps,只占 100 Gbps 以太網(wǎng)鏈路的 13%。這說明混合注意力模型的 KVCache 跨數(shù)據(jù)中心傳輸不僅可行,而且還有巨大的余量!

      而樸素異構(gòu)方案(不做選擇性卸載,所有 Prefill 都扔到 H200)只提升了 16% 吞吐量,被 PrfaaS-PD 的 54% 遠(yuǎn)遠(yuǎn)甩在身后。這充分說明了調(diào)度策略的重要性——光有異構(gòu)硬件不夠,得有聰明的調(diào)度。

      對未來的影響

      這篇論文背后的信號非常明確:

      1. 模型架構(gòu)正在重塑推理系統(tǒng)設(shè)計(jì)

      Kimi Linear、Qwen3.5、MiMo-V2-Flash、Ring-2.5-1T……新一代模型幾乎都在走混合注意力路線。KVCache 的急劇縮小,讓跨數(shù)據(jù)中心推理從"不可能"變成了"值得優(yōu)化"。

      2. 硬件專用化趨勢加速

      NVIDIA 的 Rubin CPX 專攻 Prefill 吞吐,Groq 的 LPU 專攻 Decode 帶寬,Taalas HC1 主打超高內(nèi)存帶寬。PrfaaS 架構(gòu)讓這些異構(gòu)硬件可以各自獨(dú)立部署、獨(dú)立擴(kuò)縮容,不用硬塞進(jìn)同一個 RDMA 集群。

      3. 大規(guī)模部署的成本優(yōu)化空間巨大

      論文指出,即使是萬卡級別的部署,PrfaaS 集群的跨數(shù)據(jù)中心帶寬需求也就在 Tbps 量級,現(xiàn)代數(shù)據(jù)中心完全能承載。這意味著企業(yè)可以在算力便宜的地方部署 Prefill 集群,在離用戶近的地方部署 Decode 集群。

      總結(jié)

      這篇論文的核心洞察其實(shí)很簡單:下一代模型的 KVCache 夠小了,小到可以跨數(shù)據(jù)中心傳輸了。但光"夠小"還不行,還需要選擇性卸載、帶寬感知調(diào)度、緩存感知路由這一套系統(tǒng)設(shè)計(jì)配合。模型架構(gòu)和系統(tǒng)設(shè)計(jì)雙管齊下,才能讓跨數(shù)據(jù)中心的異構(gòu)推理真正落地。

      作為 Mooncake 的延續(xù)之作,這篇論文繼續(xù)體現(xiàn)了 Moonshot AI 在推理系統(tǒng)領(lǐng)域的深厚積累。而且論文明確提到了跟 vLLM、SGLang 的合作,說明這些想法很可能會逐步落地到開源推理框架中。

      制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個關(guān)注。給我個三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經(jīng)常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經(jīng)常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      萬萬沒想到,蘇林去跟莫迪見了一面,竟把印度的禍水引進(jìn)了南海!

      萬萬沒想到,蘇林去跟莫迪見了一面,竟把印度的禍水引進(jìn)了南海!

      夢史
      2026-05-13 04:58:32
      男子2天內(nèi)嫖娼2次被行拘

      男子2天內(nèi)嫖娼2次被行拘

      觀威海
      2026-05-12 10:47:08
      方臘僅有8員大將,為何卻讓梁山損失了70名好漢?原因很簡單

      方臘僅有8員大將,為何卻讓梁山損失了70名好漢?原因很簡單

      掠影后有感
      2026-05-11 11:28:59
      1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

      1987年,馬季宴請馮鞏等幾位徒弟,這一桌菜,可不便宜

      喜文多見01
      2026-05-12 10:54:13
      廣州中考名額分配詳細(xì)結(jié)果出爐:誰家拿到9個二中名額?

      廣州中考名額分配詳細(xì)結(jié)果出爐:誰家拿到9個二中名額?

      南方都市報
      2026-05-12 19:06:26
      申花簽下馬萊加三年長約,鋒線補(bǔ)強(qiáng)球迷期待新賽季

      申花簽下馬萊加三年長約,鋒線補(bǔ)強(qiáng)球迷期待新賽季

      漫川舟船
      2026-05-13 00:16:35
      剛剛,四川突發(fā)地震!

      剛剛,四川突發(fā)地震!

      吉刻新聞
      2026-05-12 21:53:03
      “可偏轉(zhuǎn)彈丸!中國研發(fā)出鱷魚結(jié)構(gòu)裝甲”

      “可偏轉(zhuǎn)彈丸!中國研發(fā)出鱷魚結(jié)構(gòu)裝甲”

      觀察者網(wǎng)
      2026-05-12 14:04:05
      磷化銦熱度退潮!AI算力又一剛需新材料,剛被資金盯上

      磷化銦熱度退潮!AI算力又一剛需新材料,剛被資金盯上

      侃故事的阿慶
      2026-05-12 18:33:56
      血賺!曼聯(lián)力壓切爾西撿漏頂級中衛(wèi),3650 萬水貨離隊(duì)倒計(jì)時

      血賺!曼聯(lián)力壓切爾西撿漏頂級中衛(wèi),3650 萬水貨離隊(duì)倒計(jì)時

      瀾歸序
      2026-05-13 04:38:16
      《放羊的星星》男演員李威卷入精舍殺人案,被判1年10個月有期徒刑,緩刑5年

      《放羊的星星》男演員李威卷入精舍殺人案,被判1年10個月有期徒刑,緩刑5年

      蓬勃新聞
      2026-05-12 13:02:22
      女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

      女學(xué)霸發(fā)明“咯噔字體”,老師低分警告:別用個性挑戰(zhàn)考試底線

      蝴蝶花雨話教育
      2026-05-07 00:05:04
      我故意在家里跑兩套Wi-Fi,不只是為了安全

      我故意在家里跑兩套Wi-Fi,不只是為了安全

      我是一個養(yǎng)蝦人
      2026-05-12 07:36:25
      48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

      48歲歐陽夏丹現(xiàn)狀:離開央視,被教授邀請現(xiàn)身挪威,至今未婚未育

      白面書誏
      2026-05-07 17:50:08
      沒有外援就拔刀相向?神權(quán)杖硬剛槍桿子,塔利班進(jìn)入內(nèi)斗階段!

      沒有外援就拔刀相向?神權(quán)杖硬剛槍桿子,塔利班進(jìn)入內(nèi)斗階段!

      寰球經(jīng)緯所
      2026-05-10 10:55:10
      41歲C羅獲評6.4分:拼盡全力,目睹球隊(duì)遭絕平,無緣率隊(duì)提前奪冠

      41歲C羅獲評6.4分:拼盡全力,目睹球隊(duì)遭絕平,無緣率隊(duì)提前奪冠

      側(cè)身凌空斬
      2026-05-13 04:13:15
      5-5,2-0!亞洲杯悲喜夜!沙特日本出線,8強(qiáng)誕生6席:國足晉級!

      5-5,2-0!亞洲杯悲喜夜!沙特日本出線,8強(qiáng)誕生6席:國足晉級!

      小徐講八卦
      2026-05-13 06:35:16
      41:0全票通過!歐盟突然對華重磅表態(tài),中方直接正面回應(yīng)

      41:0全票通過!歐盟突然對華重磅表態(tài),中方直接正面回應(yīng)

      標(biāo)體
      2026-05-13 03:09:00
      169.7萬!民政部一紙數(shù)據(jù)震動全國,比戰(zhàn)爭更可怕的警報正在拉響

      169.7萬!民政部一紙數(shù)據(jù)震動全國,比戰(zhàn)爭更可怕的警報正在拉響

      青梅侃史啊
      2026-05-12 09:59:53
      2026-05-13 07:52:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3396文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      凱文·沃什出任美聯(lián)儲主席 其岳父是特朗普總統(tǒng)的老友

      頭條要聞

      凱文·沃什出任美聯(lián)儲主席 其岳父是特朗普總統(tǒng)的老友

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      親子
      房產(chǎn)
      家居
      公開課
      軍事航空

      親子要聞

      夏天建議:把孩子的空調(diào)服換成它!

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      家居要聞

      極簡主義下的居住場域與空間

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復(fù)對伊朗軍事行動

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 婷婷丁香社区| 中文字幕人妻无码专区app| 亚洲一区精品伊人久久| 午夜福利国产成人无码gif动图| 中文屏幕乱码av| 亚洲另类专区中文字幕| 亚洲国产福利成人一区二区| 久久久久久久国产精品美女| 亚洲欧美一区二区三区在线观看| 亚洲熟妇色XXXXX欧美老妇Y| 欧美人牲口杂交在线播放免费| 中文字幕在线无码一区二区三区| 免费欧美性爱| 国产小屁孩cao大人免费视频| v中文在线| 三级黄色网址| 亚洲欧美日韩自偷自拍| 性欧美高清come| 国产黄大片在线观看画质优化| 国产精品女丝袜白丝袜| 理论片一区| 亚洲无码在线免费观看| 噜噜噜综合亚洲| 日照市| 亚洲欧洲精品一区二区| 97插插插| 少妇厨房愉情理伦片BD在线观看| 韩日美无码精品无码| 国产精品av一区二区| 无码一区二区三区中文字幕| 精品无码久久久久久午夜| 国产日韩A∨无码免费播放| 国产超碰人人| 亚洲а∨天堂久久精品2021| 国产全肉乱妇杂乱视频| 激情综合婷婷色五月蜜桃| 久久久久久亚洲AV无码专区| 无码中文字幕乱在线观看| 亚洲国产成人超a在线播放| 国产精品久久久久无码av| 久久亚洲精品11p|