網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

月之暗面（Moonshot AI）和清華大學(xué)最新研究：推理吞吐量暴漲54%

2026-04-21 21:23:10　來源: Ai學(xué)習(xí)的老章

北京舉報

分享至

緊跟Kimi K2.6，推一篇有點(diǎn)腦洞的論文，來自月之暗面（Moonshot AI）和清華大學(xué)的最新聯(lián)合研究

一句話說清楚：這論文在搞什么？

把 Prefill（預(yù)填充）變成一種跨數(shù)據(jù)中心的云服務(wù)。

聽起來有點(diǎn)抽象？我換個說法：以前大模型推理的 Prefill 和 Decode 兩個階段必須待在同一個機(jī)房里，因?yàn)橹虚g傳輸?shù)?KVCache 太大了，跨機(jī)房根本搬不動

而這篇論文說，新一代混合注意力模型的 KVCache 縮小了十幾倍甚至幾十倍，我們可以把 Prefill 拆出去、放到另一個機(jī)房的高算力集群上跑，然后用普通以太網(wǎng)把 KVCache 傳回來做 Decode

這個架構(gòu)叫做Prefill-as-a-Service（PrfaaS），實(shí)測吞吐量比同構(gòu) PD 部署高 54%，比樸素異構(gòu)方案高 32%

地址 arxiv.org/abs/2604.15039 為什么要搞跨數(shù)據(jù)中心？

先說背景

PD 分離（Prefill-Decode Disaggregation）已經(jīng)是大規(guī)模 LLM 推理的標(biāo)準(zhǔn)范式了

Moonshot AI 自家的 Mooncake 系統(tǒng)就是這個方向的先行者，后來跟 vLLM、SGLang、Dynamo 都做了深度合作，把 KVCache 當(dāng)成 vip 來管理

PD 分離的原理很簡單：Prefill 是計(jì)算密集型的，Decode 是內(nèi)存帶寬密集型的，兩者對硬件的需求完全不同

理論上，我們應(yīng)該用算力強(qiáng)的芯片專門跑 Prefill，用帶寬大的芯片專門跑 Decode——這就是所謂的異構(gòu)推理

但現(xiàn)實(shí)很骨感，問題出在 KVCache 傳輸上

下圖展示了傳統(tǒng)單集群 PD 推理（左）和 PrfaaS 跨數(shù)據(jù)中心推理（右）的對比：

傳統(tǒng)PD架構(gòu) vs PrfaaS架構(gòu)

在傳統(tǒng)的 Dense Attention 模型里，一個 32K token 的請求，單個 MiniMax-M2.5 實(shí)例產(chǎn)生的 KVCache 傳輸速率高達(dá)約 60 Gbps。這什么概念？一臺機(jī)器的跨數(shù)據(jù)中心以太網(wǎng)帶寬都扛不住。所以 Prefill 和 Decode 必須共享同一個高帶寬 RDMA 網(wǎng)絡(luò)，被死死綁在同一個機(jī)房里

下圖展示了 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量，可以看到帶寬需求有多恐怖：

MiniMax-M2.5 KV吞吐量

這就導(dǎo)致了一個尷尬局面：你想搞異構(gòu)推理？可以，但你得把不同類型的芯片塞進(jìn)同一個 RDMA 集群里。這在運(yùn)維上極其僵化——你連 Prefill 和 Decode 的硬件比例都沒法靈活調(diào)整

混合注意力模型改變了游戲規(guī)則

這篇論文指出了一個關(guān)鍵的轉(zhuǎn)折點(diǎn)：新一代的混合注意力架構(gòu)，正在從根本上改變 KVCache 的大小

什么是混合注意力？簡單說就是在模型里只保留少量的全注意力層（Full Attention），大部分層用線性注意力（Linear Attention）或滑動窗口注意力（SWA）替代。這些層產(chǎn)生的 KVCache 大小是固定的，不會隨輸入長度線性增長

論文里列出了一組最新的混合注意力模型：

模型

架構(gòu)比例

KV 吞吐量@32K

MiniMax-M2.5（Dense）

全 GQA

~60 Gbps

Qwen3-235B（Dense）

全 MLA

~33 Gbps

Qwen3.5-397B

3:1 線性:全注意力

~8 GbpsMiMo-V2-Flash

5:1 SWA:全注意力

~4.7 GbpsRing-2.5-1T

7:1 線性:全注意力

更低

看到了嗎？從 60 Gbps 直接降到 4.7 Gbps，降了 13 倍！Ring-2.5-1T 更是靠 MLA + 7:1 混合比例實(shí)現(xiàn)了約36 倍的 KV 內(nèi)存節(jié)省。

這個數(shù)量級的變化意味著：KVCache 終于可以用普通以太網(wǎng)跨數(shù)據(jù)中心傳了。

但是！光靠模型架構(gòu)還不夠

論文強(qiáng)調(diào)得很清楚：實(shí)際工作負(fù)載是突發(fā)的，請求長度嚴(yán)重不均，前綴緩存分布不平衡，跨集群帶寬還會波動。如果傻乎乎地把所有 Prefill 都扔到遠(yuǎn)端集群，照樣會擁塞、排隊(duì)、利用率低下

模型讓跨數(shù)據(jù)中心傳輸變得"可能"，但要讓它"實(shí)用"，還需要系統(tǒng)層面的精心設(shè)計(jì)

PrfaaS 的核心設(shè)計(jì)

PrfaaS 的架構(gòu)相當(dāng)優(yōu)雅，核心思想是 **"選擇性卸載"**——只把值得的請求送到遠(yuǎn)端。

下圖是 PrfaaS-PD 的部署拓?fù)洌?/p>

PrfaaS-PD 架構(gòu)部署圖

整個系統(tǒng)分為三個子系統(tǒng)：

1. 計(jì)算子系統(tǒng)

PrfaaS 集群：高算力硬件（如 H200），專門處理長上下文 Prefill
本地 PD 集群：常規(guī)硬件（如 H20），負(fù)責(zé)短請求的 Prefill + 所有請求的 Decode

2. 網(wǎng)絡(luò)子系統(tǒng)

集群內(nèi)部：RDMA 高帶寬互聯(lián)
集群之間：普通以太網(wǎng)（VPC 對等連接或?qū)＞€）

3. 存儲子系統(tǒng)：混合前綴緩存池

這個設(shè)計(jì)很巧妙。混合注意力模型里有兩種不同的 KVCache：

線性注意力層的遞歸狀態(tài)：大小固定，只能精確匹配復(fù)用
全注意力層的 KVCache：隨長度線性增長，支持前綴部分匹配

混合前綴緩存池架構(gòu)

PrfaaS 把這兩類 KVCache 分組管理，但共享底層的內(nèi)存池。緩存塊分為兩類：前綴緩存塊（可跨請求復(fù)用）和傳輸緩存塊（傳完即丟）。全局 KVCache 管理器維護(hù)所有集群的緩存元數(shù)據(jù)，調(diào)度器據(jù)此決定請求路由。

關(guān)鍵調(diào)度策略：雙時間尺度調(diào)度

這是論文最硬核的部分。PrfaaS 的調(diào)度器分兩個層面運(yùn)作：

短期調(diào)度：帶寬感知 + 緩存感知路由

設(shè)一個長度閾值t，請求的增量 Prefill 長度（去掉緩存命中的前綴后）超過t的，發(fā)到 PrfaaS 集群；不超過的，留在本地 PD 集群處理。

為什么這樣做？因?yàn)槎陶埱蟮?Prefill 通常是內(nèi)存瓶頸（不是計(jì)算瓶頸），送到高算力集群反而浪費(fèi)；而且短請求的 KV 吞吐量相對更高，會更快吃滿跨集群帶寬。

調(diào)度器還會實(shí)時監(jiān)控 PrfaaS 集群的出口鏈路利用率和隊(duì)列深度：

帶寬緊張時：各集群的前綴緩存獨(dú)立評估，盡量減少跨集群傳輸
帶寬充裕時：全局最優(yōu)緩存匹配，甚至允許跨集群緩存遷移

長期調(diào)度：流量驅(qū)動的資源再分配

本地 PD 集群內(nèi)的 Prefill/Decode 實(shí)例比例可以動態(tài)調(diào)整。當(dāng)流量模式變化時，調(diào)度器會重新計(jì)算最優(yōu)的Np/Nd比例和路由閾值t。

實(shí)驗(yàn)結(jié)果：54% 吞吐量提升

論文用內(nèi)部一個 1T 參數(shù)的混合架構(gòu)模型（基于 Kimi Linear 架構(gòu)，3:1 KDA:MLA 層比例）做了案例研究。

硬件配置：

PrfaaS 集群：32 個 H200 GPU（高算力，專跑長上下文 Prefill）
本地 PD 集群：64 個 H20 GPU（常規(guī) PD 模式，800 Gbps RDMA）
跨集群帶寬：約 100 Gbps VPC 網(wǎng)絡(luò)
對比基線：96 個 H20 GPU 的同構(gòu) PD 集群

工作負(fù)載：

輸入長度：截?cái)鄬?shù)正態(tài)分布，均值約 27K tokens，范圍 128~128K
輸出長度：固定 1024 tokens
SLO：40 tokens/s

下圖展示了最優(yōu)參數(shù)搜索過程——找到最佳的 Prefill/Decode 分配比和路由閾值：

參數(shù)搜索過程路由閾值搜索

最優(yōu)配置：

路由閾值 t = 19.4K tokens
本地 PD 集群：3 個 Prefill 實(shí)例 + 5 個 Decode 實(shí)例
約 50% 的請求（長請求）被卸載到 PrfaaS 集群

核心結(jié)果：

指標(biāo)

PrfaaS-PD

同構(gòu) PD

樸素異構(gòu) PD

吞吐量提升

基準(zhǔn)

低 54%

低 32%

P90 TTFT

基準(zhǔn)

高 64%

跨集群帶寬消耗

13 Gbps

不適用

更高

最讓我驚艷的數(shù)字：PrfaaS 集群的平均出口帶寬僅 13 Gbps，只占 100 Gbps 以太網(wǎng)鏈路的 13%。這說明混合注意力模型的 KVCache 跨數(shù)據(jù)中心傳輸不僅可行，而且還有巨大的余量！

而樸素異構(gòu)方案（不做選擇性卸載，所有 Prefill 都扔到 H200）只提升了 16% 吞吐量，被 PrfaaS-PD 的 54% 遠(yuǎn)遠(yuǎn)甩在身后。這充分說明了調(diào)度策略的重要性——光有異構(gòu)硬件不夠，得有聰明的調(diào)度。

對未來的影響

這篇論文背后的信號非常明確：

1. 模型架構(gòu)正在重塑推理系統(tǒng)設(shè)計(jì)

Kimi Linear、Qwen3.5、MiMo-V2-Flash、Ring-2.5-1T……新一代模型幾乎都在走混合注意力路線。KVCache 的急劇縮小，讓跨數(shù)據(jù)中心推理從"不可能"變成了"值得優(yōu)化"。

2. 硬件專用化趨勢加速

NVIDIA 的 Rubin CPX 專攻 Prefill 吞吐，Groq 的 LPU 專攻 Decode 帶寬，Taalas HC1 主打超高內(nèi)存帶寬。PrfaaS 架構(gòu)讓這些異構(gòu)硬件可以各自獨(dú)立部署、獨(dú)立擴(kuò)縮容，不用硬塞進(jìn)同一個 RDMA 集群。

3. 大規(guī)模部署的成本優(yōu)化空間巨大

論文指出，即使是萬卡級別的部署，PrfaaS 集群的跨數(shù)據(jù)中心帶寬需求也就在 Tbps 量級，現(xiàn)代數(shù)據(jù)中心完全能承載。這意味著企業(yè)可以在算力便宜的地方部署 Prefill 集群，在離用戶近的地方部署 Decode 集群。

總結(jié)

這篇論文的核心洞察其實(shí)很簡單：下一代模型的 KVCache 夠小了，小到可以跨數(shù)據(jù)中心傳輸了。但光"夠小"還不行，還需要選擇性卸載、帶寬感知調(diào)度、緩存感知路由這一套系統(tǒng)設(shè)計(jì)配合。模型架構(gòu)和系統(tǒng)設(shè)計(jì)雙管齊下，才能讓跨數(shù)據(jù)中心的異構(gòu)推理真正落地。

作為 Mooncake 的延續(xù)之作，這篇論文繼續(xù)體現(xiàn)了 Moonshot AI 在推理系統(tǒng)領(lǐng)域的深厚積累。而且論文明確提到了跟 vLLM、SGLang 的合作，說明這些想法很可能會逐步落地到開源推理框架中。

制作不易，如果這篇文章覺得對你有用，可否點(diǎn)個關(guān)注。給我個三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.