<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達MIT出手!華人團隊重磅開源,大模型推理內存暴降10倍

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】一張普通的24G家用顯卡,竟然能讓一個32B的超大模型一口氣讀完6份長文檔、自動寫出周報?英偉達、MIT、浙大華人研究者聯合出新招,讓內存消耗直接暴降10倍,不降智也不爆顯存,徹底擊穿硬件天花板。

      一張RTX 4090,24GB顯存,跑一個32B參數的大模型做agent任務。

      不做任何KV壓縮,顯存直接爆掉,連模型都跑不起來。

      換上TriAttention,模型穩穩跑起來,順利讀完6份文檔,自動生成了一份完整周報。

      這不是社區大神的魔改,而是一篇來自MIT、英偉達、浙大的聯合論文。


      https://arxiv.org/pdf/2604.04921

      核心思路是在pre-RoPE空間里,用Q/K的三角集中度來估計每個KV token到底有多重要,然后只保留真正重要的那些。

      打個比方來說,別的方法壓KV cache像是把所有行李都塞進壓縮袋,不管里面是羽絨服還是磚頭一律壓扁。

      TriAttention是先翻一遍行李箱,把磚頭扔掉,只給羽絨服打包。

      TriAttention demo演示,展示單張RTX 4090上Qwen3-32B完成OpenClaw agent任務的完整過程

      作者之一Yukang Chen在X上發布了這組對比,左邊不壓縮,顯存直接報錯;右邊開了TriAttention,agent一路讀完6份文檔,周報完整輸出。


      2.5倍吞吐

      10.7倍內存縮減

      效果怎么樣?數字說話。

      在AIME25數學推理任務上,TriAttention在匹配Full Attention準確率(40.8%)的前提下,吞吐量提升了2.5倍。

      再看內存:KV cache內存縮減10.7倍。


      在AIME25(Qwen3-8B)上的性能權衡。(A) 在相同準確率(40.8%)下,TriAttention的吞吐量比Full Attention高2.5倍。(B) TriAttention在保持與Full Attention相同準確率的同時,將KV緩存內存減少了10.7倍。

      注意,這里說的是KV cache memory,不是整機顯存,也不是模型參數占用的總內存。

      但就算只是KV cache這一項,對長序列推理場景來說,KV cache往往就是壓垮顯存的最后一根稻草。

      砍掉這一項,就是能跑和不能跑的分界線。

      主實驗是在Qwen3-8B上做的,覆蓋AIME24、AIME25、MATH500等任務。

      在32K token的生成長度條件下,TriAttention幾乎沒有犧牲精度,但把推理效率拉到了一個新臺階。

      單張4090跑通32B大模型

      這篇論文附錄中提到了一個真實部署案例。

      場景是OpenClaw,一個多輪agent工作流。任務是讀6份markdown文檔,生成一份周報。

      模型是Qwen3-32B,用了AWQ INT4量化,跑在一張RTX 4090(24GB)上。

      不壓縮KV cache直接跑這個任務?顯存當場爆掉。

      長系統提示加上多輪文檔讀取,KV cache膨脹到顯存根本兜不住。

      TriAttention接管之后,agent順利讀完所有文檔,生成了完整報告。

      模型用的是Qwen3-32B AWQ INT4量化版,不是原始FP16滿血版;跑的是OpenClaw agent工作流,不是通用長文本benchmark。

      但它剛好證明了「一個完整的、有實際生產價值的agent任務,可以在消費級硬件上跑通」。

      vLLM插件已就位

      MLX實驗性起步

      TriAttention不只停在論文里。

      作者已經在GitHub倉庫中提供了vLLM集成,README明確寫到TriAttention包含一個vLLM插件,并給出了OpenAI兼容API的server mode、Python API以及OpenClaw接入說明。

      相比論文中的實驗結果,這屬于倉庫層面的工程化擴展。

      這意味著,你不需要改模型架構,不需要重新訓練,只需要掛上這個插件,就能在現有的vLLM推理管線上獲得KV壓縮收益。

      在Apple Silicon方向上,官方倉庫里單獨放了一份docs/mlx.md,覆蓋M1到M4全系芯片,基于MLX框架和mlx-lm運行,附帶示例代碼和硬件benchmark。


      TriAttention官方倉庫已提供MLX實驗性支持文檔,覆蓋M1-M4芯片https://github.com/WeianMao/triattention/blob/main/docs/mlx.md

      不過,官方文檔標題中也標注了這還是實驗性支持,這說明他們已經在早期試水MLX了,但離成熟的Mac本地部署還有距離。

      KV壓縮賽道的兩條路線

      KV cache壓縮賽道存在兩條路線。

      一條是量化派。

      Google Research在3月24日發布了TurboQuant,官方博客中的定位是「在零精度損失下實現極致壓縮」的方案,主打把KV cache和向量搜索的bit數壓到極低。


      Google Research官方博客中LongBench基準測試圖,TurboQuant在LongBench基準測試中,相較于多種壓縮方法,在Llama-3.1-8B-Instruct模型上展現出穩健的KV緩存壓縮性能

      社區已經有人在Apple Silicon上用TurboQuant跑通了Gemma 4 31B。

      另一條是選擇性保留派。

      TriAttention就是這條路線的新代表,不壓bit,而是直接判斷哪些token的KV值得留、哪些可以扔。

      兩條路線的終點其實一樣:讓大模型跑在消費級硬件上,顯存不炸,精度不掉。

      但方法論完全不同。

      量化是把每個行李都壓扁,選擇性保留是直接減少行李數量。

      理論上,兩者甚至可以疊加使用。

      目前還沒有嚴格的同模型、同硬件、同任務的head-to-head對比,所以「誰碾壓誰」還說不了。

      但可以確定的是,這兩條路線正在加速向消費級部署推進。

      一年前,「本地跑大模型」還是極客圈的行為藝術,跑個7B都要折騰半天。

      現在,32B模型在單張消費級卡上完成agent任務,Apple Silicon上的MLX生態一周一個新倉庫,vLLM插件讓KV壓縮變成「掛上就用」的一鍵方案。

      KV cache壓縮這條賽道,正在從論文里的消融實驗,變成每個開發者都能觸碰到的工程現實。

      作者簡介

      Weian Mao


      Weian Mao

      Weian Mao現為MIT CSAIL博士后研究員,博士畢業于阿德萊德大學AIML,師從沈春華教授。其當前研究聚焦大語言模型,尤其關注推理效率與長上下文推理中的KV cache壓縮;此前也從事過計算機視覺與蛋白質設計等方向研究。

      Xi Lin


      Xi Lin

      Xi Lin是浙江大學計算機科學與技術專業高年級本科生,研究興趣集中在高效AI的算法—系統協同設計,尤其關注面向硬件友好的稀疏與量化模塊設計,以及高效推理策略。其工作與高性能計算、機器學習系統等方向密切相關。

      Wei Huang


      Wei Huang

      Wei Huang現為香港大學博士生,研究聚焦Efficient AI與大型視覺/語言模型。

      目前,他在NVIDIA Research實習,與Yukang Chen等研究者合作,并在Song Han 指導下開展相關研究,參與了QeRL、LongLive等工作。

      參考資料:

      https://arxiv.org/abs/2604.04921

      https://x.com/yukangchen_/status/2041366586423165152

      https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      至今無解的3大災難:一次在印度,一次在俄國,中國的最“詭異”

      歷史龍元閣
      2026-05-14 09:30:33
      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      怎么拒絕親戚要長期住到家里的請求?網友:看好了,我只教一遍!

      夜深愛雜談
      2026-05-15 07:17:28
      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      貝弗利:詹姆斯很難離開湖人,因為他去哪里布朗尼就要去哪里

      懂球帝
      2026-05-15 00:09:05
      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      殘疾哥哥養大妹妹,妹妹考上博士后就沒回過家,哥哥去看望傻眼了

      磊子講史
      2025-07-14 14:53:33
      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      中國外長缺席金磚會議,西方沒給印度面子,莫迪政府無法挑起大梁

      云上烏托邦
      2026-05-14 20:30:14
      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      這事還沒完?姆巴佩接受采訪再掀波瀾,稱受到排擠自己錯在沒冠軍

      里芃芃體育
      2026-05-15 10:00:29
      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      你知道最積德的3件事嗎?但凡你做過一件,后代子孫皆有大福報

      金沛的國學筆記
      2026-03-22 11:27:12
      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      65.3公里!北京將擁有世界首條“不斷線絢麗花環”!

      家住朝陽
      2026-05-14 19:10:23
      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      朱元璋為什么將藍玉剝皮?看看藍玉怎么對北元王妃:換你你也殺!

      銘記歷史呀
      2026-05-14 15:16:12
      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      “那家伙在空軍1號前居然一動不動”!美媒注意到一名中國儀仗兵

      阿龍聊軍事
      2026-05-14 11:02:15
      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      不出意外的話,中國未來有5%城市房價還會創新高,大概率是這25個

      專業聊房君
      2026-05-15 09:21:20
      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      2007年,一臺灣商人來到沈陽大帥府,對售票員說:我就不買票了吧

      浩渺青史
      2026-05-15 02:58:03
      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      CBA最新消息!廣東隊拒絕買斷王少杰,北控男籃要價逼退朱芳雨!

      緋雨兒
      2026-05-15 08:28:40
      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      破防了!王曼昱贏球后第一個抱馬琳,一向冷靜的她這次失態了!

      小娛樂悠悠
      2026-05-15 09:00:02
      波音跌幅擴大至3.75%

      波音跌幅擴大至3.75%

      每日經濟新聞
      2026-05-14 22:40:52
      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      臺當局惹眾怒,大陸發布統一后安排,島內鄭氏宗親:團結才有力量

      流史歲月
      2026-05-14 20:00:04
      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      槍聲響起!小馬科斯大勢已去,菲軍方緊急切割,中菲關系或迎轉機

      影孖看世界
      2026-05-14 23:06:05
      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      南方三年游擊戰,項英有何作為?陳毅直言:紅軍的命運全寄托于他

      浩渺青史
      2026-05-15 00:40:30
      中美關系,有了新定位

      中美關系,有了新定位

      中國新聞周刊
      2026-05-14 16:01:38
      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      清華系團隊出手!一張 4090 即可「爆改」,1.3B小鋼炮震撼開源

      新智元
      2026-05-13 12:11:23
      2026-05-15 10:39:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15216文章數 66869關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      本地
      旅游
      親子
      家居
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      生態奇觀:云南金平現“蝶瀑”景象

      親子要聞

      我和7個月女娃的晚間規律【周六野Zoey】

      家居要聞

      精神奢享 對話塔尖需求

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av潮喷大喷水系列无码| 国产黄在线观看免费软件下载| 国产一区国产二区在线视频| 美女国产视频| 人妻激情偷一区二区三区| 多p在线观看| 视频一区中文字幕亚洲| 国产成人精品无码片区| 国产美女高潮流白浆视频| 色吊丝| 88av在线播放| 久久av高潮av喷水av无码| 亚洲综合色在线视频WWW| 国产精品清纯白嫩极品美女| 成熟女人特级毛片www免费| 日本www色| 日韩视频无码免费一区=区三区| 国产女人乱人伦精品一区二区| 乱60一70归性欧老妇| 国产成人AVXXXXX在线观看| 国产av午夜精品一区二区三| 日本乱码在线看亚洲乱码| 国产成人啪精品午夜网站| 国产日韩视频在线观看| 色妞av永久一区二区国产av开| 国产精品一线天在线播放| 潘金莲a级片| 久久精品人人爽人人爽| 丁香综合在线| 亚洲黄色一区二区三区| 国产成人欧美综合在线影院| 国产农村激情免费专区| 草久久免费视频| 熟女中文字幕| 国产无套白浆一区二区| 亚洲国产成人AV片在线播放| 日韩人妻中文无码一区二区三区| 少妇性bbb搡bbb爽爽爽欧美| 亚洲一本之道高清乱码| 欧美国产精品一级二级三级| 亚洲区精品区日韩区综合区|