<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      獨家|Kimi聯合清華提出“算力預制菜”技術,AI詞元吞吐提高54%

      0
      分享至



      “算力預制菜”,這不是我提的,而是Kimi解析的PrfaaS技術總結。



      就在國產Kimi K2.6模型即將發布的前夕,月之暗面Kimi聯合清華放出關鍵技術突破。

      4月17日,Kimi與清華大學日前聯合推出全新跨數據中心架構PrfaaS(預填充即服務),直擊大模型長上下文算力瓶頸。

      PrfaaS架構把大模型長文本預填充單獨交給專屬算力集群處理,算出的KVCache通過普通網絡傳給解碼集群用;再搭配智能調度與緩存優化,不用高端低延遲網絡,就能讓預填充、解碼兩大模塊分開靈活擴容,降本又好部署。

      實測基于1T混合參數模型,這套增強異構方案僅占用少量跨機房帶寬,相較傳統同構部署、基礎異構方案,吞吐量分別提升54%、32%,大幅拉高超大模型集群吞吐上限。

      4月17日,該研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》為題發表在Arxiv上。

      本論文通訊作者為清華大學副教授、開源項目Mooncake發起人、開源項目KTransformers發起人章明星。

      核心作者包括中國工程院院士、清華大學計算機系教授鄭緯民,清華大學教授武永衛,月之暗面工程副總裁許欣然、月之暗面秦若愚等人。

      需要提及一點的是,這也是鄭緯民院士最自豪的研究成果之一——幾乎每次演講都會提到Mooncake。



      論文:https://arxiv.org/abs/2604.15039v1

      對于Kimi K2.5背后技術,詳見前文:楊植麟GTC大會演講全文:Kimi的三大核心技術將顛覆AI大模型的未來

      為什么PrfaaS優于傳統KVCache?

      這次誕生出兩個新的AI名詞:KVCache(鍵值緩存)、PrfaaS。

      通俗點說,KVCache就是使用AI回答問題時存起來的“歷史聊天記憶+計算草稿”,避免重復干活,大幅提速、省算力。

      實際上,目前在AI推理階段,大語言模型主要分PD兩步分離式架構輸出:

      1、預填充(Prefill)。你發完問題,AI一次性把你整段話、上下文全部算一遍,算出一堆關鍵數據,打包存下來,這堆存下來的數據就是KVCache。

      2、解碼生成(Decode逐字輸出)。后面慢慢打字的時候,直接調用存好的KVCache緩存,只算最新一個字,不用重復算前面所有內容。

      許欣然曾解釋稱:

      通常情況下,一臺機器上的GPU既用于“備菜”(預填充,即思考過程),也用于“炒菜”(解碼,即逐字逐句輸出),這兩個階段交替進行。假設今天只有一個請求,就是顯卡可以順利地進行“思考”和“輸出”,過程相對簡單。但是隨著用戶增多,傳統想法是需要更多人使用同一張卡進行服務,因此當顯卡在“炒菜”的過程中,如果有新請求進來,它就必須立即開始“備菜”。在Kimi的表現上可能是回答一半卡住,等一會兒再繼續,這樣的用戶體驗很差。

      通過分離式架構,我們將“備菜”和“炒菜”階段獨立開來。這樣每個階段都有專人負責,如果“炒菜”的資源不足,就增加“炒菜”的資源,“備菜”資源不足就增加“備菜”的資源,每個任務完成后,轉交至下一階段。這樣不管用戶有多少,只要對話開始,就不會出現卡頓問題。我們可以放心地將壓力加載,GPU始終保持滿負荷運行。一方面降低了成本,另一方面也提升了用戶體驗,實現了雙贏。

      當前,預填充-解碼 (PD) 解耦已成為大規模 LLM 服務的標準架構,但實際上其部署邊界仍然取決于鍵值緩存 (KVCache) 的傳輸。

      而在傳統的密集注意力模型中,預填充會產生巨大的KVCache流量,使得預填充和解碼在單個高帶寬網絡域內緊密耦合,從而限制了異構部署和資源彈性。

      近年來,包括DeepSeek在內的全新混合注意力架構,大幅減小了KVCache的大小,使得跨集群KVCache傳輸變得越來越可行。

      然而,僅僅減小KVCache的大小并不能使異構跨數據中心的PD服務真正實現:實際工作負載仍然具有突發性,請求長度高度不均勻,前綴緩存分布不均,并且集群間帶寬波動較大。

      因此,完全將預填充外部化的簡單設計仍然可能面臨擁塞、隊列不穩定和利用率低等問題。



      論文中以MiniMax 2.5為例。

      在標準 Transformer 式注意力中,KVCache 隨上下文長度線性增長,可能達到數十GB。具有GQA的代表性密集模型 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,瓶頸非常明顯:對于一個32K tokens的請求,單個MiniMax-M2.5實例產生的KVCache約為60 Gbps,所需的出站帶寬遠遠超過典型機器跨數據中心以太網的容量。

      這正是為什么傳統的PD分離仍然在操作上與緊密集成的網絡域綁定在一起的原因。網絡預算如此之大,以至于在更松散的互連上移動預填充和解碼,更不用說跨數據中心了,根本不可行。



      因此,在AI算力工程階段,Kimi和清華大學團隊基于全新的跨數據中心服務架構“預填充即服務”(Prefill-as-a-Service,簡稱PrfaaS),解決此問題。

      那么,PrfaaS如何解決傳統PD分離架構的異構部署瓶頸?我根據論文,總結了以下三點:

      1、混合注意力模型減少KVCache規模;

      2、選擇性卸載長上下文請求問題,使僅50%的長請求占用帶寬,且混合模型KV吞吐量降低13倍,最終跨數據中心帶寬需求僅為13Gbps

      3、帶寬感知調度與緩存感知路由,使跨數據中心帶寬需求降至百Gbps量級。

      具體而言,根據論文,PrfaaS-PD系統包含三個角色:PrfaaS預填充、PD-P(PD集群內的預填充節點)和PD-D(PD集群內的解碼節點)。

      該架構選擇性地將長上下文預填充任務卸載到獨立的、計算密集型的預填充集群,并通過通用以太網將生成的鍵值緩存(KVCache)傳輸到本地的預處理集群進行解碼。

      PrfaaS并非僅僅減少KVCache容量,而是將模型端的鍵值效率與系統端的選擇性卸載、帶寬感知調度和緩存感知請求放置相結合。這種設計無需異構加速器共享相同的低延遲RDMA網絡,從而實現了在耦合集群間獨立擴展預填充和解碼容量。

      論文還通過一個案例研究來驗證這一思路,該案例使用了內部的1T參數混合模型——也就是Kimi K2.5。



      遵循Kimi Linear架構,該模型在獨立的PrfaaS集群用于長上下文預填充、以及傳統PD集群用于解碼和短上下文預填充所構成的異構部署中,系統的服務吞吐量分別比同構PD基準和拓撲異構基準高出54%和32%,同時每臺機器僅消耗適度的跨數據中心帶寬。

      這些結果表明,KVCache高效的模型架構是必要的,但并不足以實現跨數據中心的異構服務。真正使部署可行的是模型端KVCache的精簡與系統端選擇性卸載及帶寬感知調度的結合。

      二者共同作用,將跨數據中心PD分離從一種頗具吸引力的想法轉變為一種切實可行的服務架構。

      論文指出,盡管異構PrfaaS-PD配置中采用32個H200 GPU,本地PD采用64個H20 GPU,但僅作為具有代表性的硬件組合,并非唯一可行的搭配。更具成本效益的預填充專用芯片將進一步降低生產環境中的部署成本。

      換句話說,這套架構也用了國產或專用AI芯片進行部署測試。

      論文結論中表示:“為應對異構分散推理的實際部署挑戰,我們提出了跨數據中心KVCache的概念,將分散式服務從單一同構集群擴展到跨集群的異構部署。在此基礎上,我們設計了PrfaaS-PD分散架構,通過利用商品以太網連接的異構PrfaaS集群,以低成本提升系統服務吞吐量。我們設想,跨數據中心KVCache范式將與下一代模型、硬件和網絡協同演進,從而實現大規模下高效大模型服務。”

      論文作者介紹&Kimi新模型曝光



      本論文通訊作者、清華大學教授、KVCache.AI團隊負責人章明星,本科畢業于北京郵電大學,博士畢業于清華大學,師從清華大學教授武永衛,曾擔任深信服首席算法技術專家和創新研究院院長,并在系統領域發表數十篇頂級會議論文。

      清華大學KVCache.AI團隊發布了開源項目KTransformers中,僅用一張24GB的消費級顯卡就成功驅動了具有236B參數量的DeepSeek V2大模型,實現了14 Tokens/秒的生成速度——這意味著,2千億大模型的使用門檻降低到4萬以內。

      天眼查顯示,清華大學計算機科學與技術系教授武永衛聯合發起成立的AI infra公司趨境科技中,章明星持股2.6783%。



      鄭緯民院士。現任中國工程院院士、九源智能計算系統生態聯合體理事長、清華大學計算機系教授。

      鄭緯民院士1970年畢業于清華大學自動控制系,1982年獲清華大學計算機科學與技術專業碩士學位,1985年至1986年在美國紐約州立大學石溪分校進修學習,1989年至1991年在英國南安普敦大學進修學習,曾任中國計算機學會理事長。2019年,鄭緯民當選中國工程院院士。

      鄭緯民主要學術方向為網絡存儲系統。長期從事網絡存儲系統科學研究、工程建設和人才培養。



      本論文第一作者Ruoyu Qin(秦若愚),目前就職于月之暗面,曾在清華大學計算機科學與技術系MADSys實驗室讀博,師從章明星教授,主要研究領域為分布式系統和機器學習系統。

      此前,秦若愚和章明星在KVCache.AI項目上,與月之暗面共同發布了人工智能助手Kimi底層的Mooncake模型推理架構。這一架構承載了Kimi 80%以上的實際線上流量,在某些模擬場景中,吞吐量可以增加到未優化場景的5.25倍。

      Mooncake論文還在USENIX 文件和存儲技術會議 (FAST)上獲得Erik Riedel Best Paper Award。



      就在今年4月15日,Kimi推出的K2.6-code-preview已經上線。

      這意味著,Kimi即將要發布K2.6系列新的基座模型。

      早前,據界面新聞,在Kimi K2.5模型發布一個月之后,月之暗面ARR(年度經常性收入)突破1億美元。

      不得不說,楊植麟掌舵的月之暗面堪稱AI賽道迭代標桿

      一邊快速更新Kimi模型版本,一邊深耕底層算力架構創新,軟硬協同全速突破,進化效率拉滿,穩步奔赴AGI終局。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普結束訪華離開,高市早苗等到最后一刻也沒如愿

      特朗普結束訪華離開,高市早苗等到最后一刻也沒如愿

      古古聊軍事
      2026-05-15 21:55:50
      我官至副廳騙女友是科員,她帶我見家長,發現她媽是我曾經的領導

      我官至副廳騙女友是科員,她帶我見家長,發現她媽是我曾經的領導

      麥子情感故事
      2026-05-15 15:43:10
      別再吹牛自己心理素質硬!進了審訊室,大部分人撐不過3輪就崩盤

      別再吹牛自己心理素質硬!進了審訊室,大部分人撐不過3輪就崩盤

      小虎新車推薦員
      2026-05-14 00:09:17
      張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

      張藝謀也沒想到,養了27年的陳婷,竟會親手摘掉張藝謀妻子的認證

      她時尚丫
      2026-05-15 23:17:51
      廣東省紀委監委通報:何寧卡被查

      廣東省紀委監委通報:何寧卡被查

      鄉知鄉見
      2026-05-15 23:53:41
      美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

      美國歷代總統訪華都愛吃些啥?這幾道菜,讓他們放下刀叉拿筷子

      青煙小先生
      2026-05-14 19:26:33
      杭州跪地救人女子找到!新華社點名,工作單位曝光,難怪后怕不已

      杭州跪地救人女子找到!新華社點名,工作單位曝光,難怪后怕不已

      奇思妙想草葉君
      2026-05-14 13:44:31
      A股:今天跌到4135了,下周一,股市很可能這樣走

      A股:今天跌到4135了,下周一,股市很可能這樣走

      明心
      2026-05-15 15:13:49
      中方是否同意未來購買美國石油?外交部回應

      中方是否同意未來購買美國石油?外交部回應

      澎湃新聞
      2026-05-15 15:30:31
      津門虎球迷意難平!不止因為1-2惜敗蓉城,更多在于以下這五點!

      津門虎球迷意難平!不止因為1-2惜敗蓉城,更多在于以下這五點!

      田先生籃球
      2026-05-15 22:15:03
      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      老方
      2026-05-15 11:37:48
      1978年許世友接中央絕密密令:野戰軍全換廣西軍區牌照,去哪連師長都無權問!

      1978年許世友接中央絕密密令:野戰軍全換廣西軍區牌照,去哪連師長都無權問!

      史海孤雁
      2026-05-15 15:12:40
      命中關鍵三分率隊取勝,張鎮麟出場34分鐘&三分5中3取17分

      命中關鍵三分率隊取勝,張鎮麟出場34分鐘&三分5中3取17分

      懂球帝
      2026-05-15 21:44:31
      天壇為什么不能隨便去?真正原因很多人不知道,不是迷信

      天壇為什么不能隨便去?真正原因很多人不知道,不是迷信

      叮當當科技
      2026-05-15 18:23:34
      “已建好的都不敢開業”,民營醫院已倒閉4000家

      “已建好的都不敢開業”,民營醫院已倒閉4000家

      健識局
      2026-05-14 19:25:57
      相戀僅7個月 !皇馬25歲巨星與網紅女友分手:姐弟戀告終

      相戀僅7個月 !皇馬25歲巨星與網紅女友分手:姐弟戀告終

      葉青足球世界
      2026-05-15 20:47:37
      近70年首次,美中情局局長罕見訪問古巴,為改善兩國關系探路?

      近70年首次,美中情局局長罕見訪問古巴,為改善兩國關系探路?

      紅星新聞
      2026-05-15 12:34:25
      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島聚焦丨中成藥迎“最嚴清退”!7月起超4萬種中成藥可能停產,健胃消食片等明星產品將淘汰?

      半島官網
      2026-05-14 16:52:07
      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      “莫奈紫”變“摸奶子”,OPPO呼吸都是錯的

      梳子姐
      2026-05-13 19:46:10
      國宴上眾人排隊找馬斯克合影,最尷尬的可能是楊元慶

      國宴上眾人排隊找馬斯克合影,最尷尬的可能是楊元慶

      歷史總在押韻
      2026-05-15 19:05:11
      2026-05-16 00:31:00
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2320文章數 10609關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      頭條要聞

      特朗普稱中方同意購買200架波音飛機 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      數碼
      游戲
      本地
      房產
      親子

      數碼要聞

      七彩虹2026款iGame M15/M16 Origo筆記本發售,11499元起

      PS5史詩級更新!全新功能上線測試版

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      親子要聞

      一起預防老年癡呆

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人AV在线电影播放 | 国产99在线a视频| 日韩成人无码影院| 熟女视频一区二区三区嫩草| 午夜欧美| 亚洲已满18点击进入在线看片 | 欧美黑人又粗又大xxxx| 国产午夜福利大片免费看| 中国国产XXXX免费视频| 欧洲性开放老太大| 欧美精品国产综合久久| AV不卡在线永久免费观看| 国产精品.xx视频.xxtv| 55夜色66夜色国产精品视频 | 国产做a爱视频免费无遮挡| 亚洲大尺度无码无码专区| 亚洲自拍另类| 亚洲啪啪综合av一区| 欧美a视频在线| 香港经典a毛片免费观看播放| 国产成人精品第一区二区 | 在线人妻无码一区二区| 人妻丰满熟妇岳av无码区hd| 日本午夜天堂| 中文字幕av高清片| 色偷偷人人澡人人添老妇人 | 又爽又黄又无遮挡网站| 国产精品国产伦子伦露看| 国产精品久久久久影院老司| 亚洲妓女综合网995久久| 国产午夜无码专区喷水| 久久久久琪琪去精品色无码| 亚洲全网成人资源在线观看| 久操国产| 精品人妻少妇嫩草AV无码专区| 亚洲国产成人精品女人久久久| 久色资源| 9118禁| 国产精品亚洲一区二区三区在线观看| 欧美俄罗斯40老熟妇| 2014AV天堂网|