<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌TurboQuant會繞過“內存墻”?這個判斷有點過了|甲子光年

      0
      分享至



      在大模型時代,資源瓶頸不只是硬件問題,更是數學問題。

      作者|王藝

      3月25日美股開盤,存儲芯片板塊集體遭遇“黑色時刻”。

      美光科技收跌4%,西部數據下跌4.4%,SK海力士跌去5.6%,閃迪更是重挫6.5%。一夜之間,HBM(高帶寬內存)概念股蒸發數百億美元市值。

      一些外媒推測,這與谷歌最新發布的一篇論文和一段技術博客有關。

      論文名叫《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》(下文簡稱TurboQuant)。


      具體而言,TurboQuant通過一套全新的向量量化算法,將大語言模型推理過程中的KV緩存(Key-Value Cache)從16bit壓縮到3bit左右,實現了至少6倍的內存壓縮和最高8倍的注意力計算加速——而模型輸出質量幾乎不受影響。

      消息傳開后,Cloudflare CEO Matthew Prince在社交媒體上將其形容為“谷歌的DeepSeek時刻”。一位獨立開發者也在Reddit上曬出了復現結果:基于PyTorch和自定義Triton kernel,在RTX 4090上用2bit精度跑Gemma 34B,輸出與未壓縮版本的模型逐字符一致。


      “這就是谷歌的DeepSeek時刻,它在優化人工智能推理的運行速度、內存使用量、能耗以及多租戶利用率方面提供了更大的空間,Cloudflare 多個團隊都在致力于這些方面的工作。”圖源:X @Mattew Prince


      TurboQuant算法無需硬件改動,可與現有的推理協議棧兼容——在H100處理器上,4bit注意力機制的內存壓縮率提高了5倍以上,速度提升高達8倍。 圖源:Reddit @NoShowJobsHQ

      可以說,論文寫得“零損耗”,社區用代碼投了票。

      但市場的過激反應和社區的狂熱背后,我們要問的是:這篇論文到底做了什么?它真的能撼動AI基礎設施的底層邏輯嗎?

      1.KV Cache瓶頸與“內存墻”

      要理解TurboQuant為何引發如此大的市場震動,必須先理解一個被越來越多人討論、卻仍然沒有被大眾真正看透的結構性矛盾:大模型推理階段的核心瓶頸,不是算力,而是內存。

      當你和一個AI進行長對話時,模型并不會每說一個字都把之前所有上下文重新計算一遍。Transformer架構的做法是將之前已經計算過的Key和Value向量緩存起來,也就是所謂的KV Cache。它的作用類似于人類“邊說邊回顧”時的短期記憶。

      問題在于,這份記憶會隨著對話長度線性膨脹。

      以一個13B參數的模型為例,在NVIDIA A100 40GB顯卡上,模型權重本身大約占65%的顯存,而KV Cache可以輕松吃掉剩余30%以上的空間。當上下文長度從4K擴展到128K甚至百萬級別時,KV緩存所消耗的顯存往往會反超模型參數本身,成為推理階段最大的內存瓶頸。

      更棘手的是,這個瓶頸不僅僅是“存不下”的問題,更是“搬不動”的問題。

      大模型的推理過程,尤其是自回歸生成階段(即逐token生成文本的過程),本質上是內存受限(memory-bound)的工作負載。GPU的Tensor Core算力嚴重過剩,但數據從HBM搬運到SRAM的速度,也就是所謂的“內存帶寬”成為了真正的卡脖子因素。即便從A100升級到H100,FLOPS提升了超過2倍,但HBM帶寬和容量的增速遠遠跟不上。

      這就是業界反復提及的“內存墻(Memory Wall)”。

      過去幾年,行業解決內存問題的方案主要沿著三個方向展開:

      第一是從“長度”上壓縮——滑動窗口注意力(Sliding Window Attention),只保留最近固定長度的記憶,扔掉太遠的上下文。這相當于給緩存的“長”設了上限。Kimi前段時間提出的Attention Residuals(注意力殘差),就是在用這個方法解決大模型注意力的問題。(詳見)


      注意力殘差概述。(a)標準殘差:采用統一加法累加的方式進行的標準殘差連接;(b)全注意力殘差:每個層通過學習到的注意力權重有選擇地整合所有前一層的輸出;(c)塊注意力殘差:將層分組成塊,從而將內存消耗從 O(Ld) 減少到 O(Nd)。圖源:《Attention Residuals》

      第二是從“高度”上壓縮——GQA(Grouped-Query Attention)、MQA(Multi-Query Attention)等架構改進,減少Key/Value頭的數量,降低每一層需要緩存的數據量。


      MQA通過在多個注意力頭之間共享同一組鍵和值,同時為每個注意力頭維護不同的查詢,降低了計算復雜度和內存使用量;GQA是對MQA的一種優化,不是為每個查詢單獨計算鍵值表示,而是為每個組計算共享的鍵值表示。 圖源:VerticalServe Blogs 《Attention Variations — MQA vs GQA vs MHA vs MLA》

      第三是從“精度”上壓縮——量化。把原本用16bit浮點數存儲的KV向量,壓縮到8bit、4bit甚至更低的整數表示。


      量化就像把人工智能模型中使用的非常大的數字縮小成更小的數字,從而節省空間并提高運行速度,譬如不再使用超高精度的數字(浮點數),而是使用更簡單的數字(整數)。圖源:CloudThrill

      量化看似是最直接的方案,但傳統量化方法有一個致命的隱形成本:元數據開銷

      幾乎所有傳統量化方法都需要為每一小塊數據額外存儲一組全精度的“縮放因子”(scale)和“零點偏移量”(zero-point),用于將低精度整數還原回近似的浮點值。在位寬較高(比如8bit)時,這些元數據占比很小,可以忽略。但當壓縮到4bit甚至更低時,這些“手續費”占總存儲的比例急劇攀升——標稱4bit,實際可能是5到6bit,壓縮效率被自己的開銷蠶食了一大截。


      量化前后的模型權重分布,INT8精度下有256條網格線,INT4精度下卻只有16條網格線。圖源:Toutube @Tales Of Tensors 《LLM Quantization Explained: GPTQ, AWQ, QLoRA, GGUF and More》

      更深層的問題是,很多量化方法是離線的——它們需要拿一批校準數據跑一遍,學習出最優的量化參數。但KV Cache是推理時實時生成的,每個用戶的對話內容都不一樣,根本沒有辦法提前做離線校準。

      這就是TurboQuant真正要解決的問題。它要做的是從根本上消滅傳統量化的這些隱形稅,做一個真正適合在線、實時、零預處理場景的“向量壓縮器”。

      2.TurboQuant到底做了什么?

      TurboQuant的設計哲學,用一句話概括就是:結構優化>暴力壓縮。其核心思路可以用一個生活中的類比來理解:

      想象你要把一堆形狀各異的衣服塞進行李箱。傳統方法是直接硬塞,塞不下就用力壓,還得在每個角落墊上填充物(元數據開銷)來保持形狀。而TurboQuant的做法是:先把所有衣服用同一種方式折疊整齊(隨機旋轉),然后按照統一的尺寸標準打包(最優標量量化),最后檢查一下有沒有折痕沒整理好,用一張薄紙墊一下(QJL殘差糾偏)。

      具體來說,TurboQuant分為兩個階段:

      第一階段:隨機旋轉+MSE最優量化

      TurboQuant首先對輸入的高維向量做一次隨機旋轉變換。

      在高維空間中,一個單位向量經過隨機旋轉后,其每個坐標分量的數值都會收斂到一個已知的概率分布——Beta分布(在高維下近似為正態分布)。更關鍵的是,不同坐標之間近似相互獨立。

      這意味著,無論原始數據長什么樣,經過旋轉后,所有向量的所有坐標都服從同一個已知的分布。

      既然分布已知且統一,就可以針對這個分布預先計算出數學上最優的量化方案——通過求解經典的Lloyd-Max量化器(本質是一維連續空間上的k-means問題),找到每個位寬下誤差最小的量化碼本。這些碼本可以提前算好、永久存儲,推理時只需查表,完全不需要針對具體數據做任何調整。

      這就是TurboQuant消滅傳統量化“隱形開銷”的關鍵:不需要存儲任何scale、zero-point等元數據,因為分布本身是通過數學變換被“鎖定”的。每一個bit都被用于存儲真正的信息,沒有一絲浪費。

      第二階段:QJL殘差糾偏

      到這里,第一階段的壓縮已經非常高效了——如果我們只關心"還原出來的向量和原來像不像",它幾乎是最優解。但大模型在實際運算時,并不是把向量還原出來看看就完事了,而是要拿壓縮后的向量去做“內積運算”(可以粗略理解為“比較兩個向量有多相似”),這才是注意力機制的核心操作。而恰恰在這一步,問題出現了。

      為什么內積很重要?因為Transformer的注意力機制的核心運算就是Query向量和Key向量的內積。如果量化后的內積估計有偏差,注意力分數就會系統性地偏移,最終導致模型輸出質量下降。

      論文中給出了一個精確的例子:在1bit量化時,MSE最優量化器會給內積引入2/π≈0.637的乘性偏差——也就是說,所有內積都會被系統性地縮小約36%。這在高位寬時偏差會減小,但在極低位寬下是不可忽視的。

      TurboQuant的解決方案極為巧妙:在總位寬預算b中,先用b-1位做MSE最優量化(把“主體信息”裝進去),然后對殘差(原始向量與量化重建之間的差)施加一個1bit的QJL(Quantized Johnson-Lindenstrauss)變換。QJL是同一團隊此前提出的一種基于隨機投影的1bit量化方法,其核心性質是:對內積估計是無偏的。

      兩步疊加后,整個系統的內積估計就變成了無偏的,同時方差(誤差的隨機波動)也被控制在接近信息論極限的水平。

      在TurboQuant的發布博客上,谷歌官方用幾個數據描述了這個新算法的有效性——“3bit無損”、“8×加速”、“6×壓縮”、“零預處理”。


      TurboQuant 在計算鍵值緩存中的注意力邏輯值方面表現出顯著的性能提升,在各種位寬級別上均優于高度優化的JAX基線。圖源:Google Research Blog《TurboQuant: Redefining AI efficiency with extreme compression》

      TurboQuant之所以在學術界引起巨大震動,不僅因為實驗結果好看,更因為它有嚴格的理論依據。

      論文利用香農信息論中的失真率函數(distortion-rate function)和Yao’s minimax原理,證明了一個下界:對于任何量化算法,bbit量化的MSE不可能低于1/4^b。

      而TurboQuant的MSE上界是(√3π/2)×(1/4^b)≈2.7×(1/4^b)。

      也就是說,TurboQuant的失真率只比“宇宙中任何算法都不可能突破的理論極限”大約2.7倍。在低位寬下這個差距更小——1bit時僅為1.45倍。


      TurboQuant的 MSE 失真率被證明最多不超過信息論下界 2/√3π ≈2.7,在比特寬度b=1時,TurboQuant的失真率僅比最優值低約1.45倍。圖源:《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》

      這類向量壓縮問題本身就證明了很高質量的低比特解法是存在的。一旦市場意識到“KV Cache不是只能靠更大HBM暴力解決,而是存在接近理論極限的壓縮路線”,那么純粹依賴內存稀缺敘事抬估值的那部分溢價,就會更容易被壓縮。

      3.“內存墻”被繞過了嗎?

      TurboQuant論文發布后,市場給出了非常迅速的反應——前段時間因為HBM而大幅上漲的存儲芯片股(詳見《》)在今天應聲下跌。很多人認為AI芯片將不再需要那么大的內存了,HBM的敘事將走弱,AI芯片的“內存墻”也將被繞過。


      存儲芯片三大原廠今日股價 圖源:Yahoo Finance

      但是,「甲子光年」認為,將TurboQuant理解為“HBM需求將被大幅削弱”、自此就認為“內存墻將會被繞過”的判斷有點過了,這是一種過度線性的思考。

      TurboQuant本質上解決的是:在既定顯存容量下,如何提升單位字節的有效信息密度。

      它并不會減少訓練所需的HBM容量——訓練階段仍然需要高精度參數、梯度和優化器狀態;它主要優化的是推理階段的KV Cache開銷。而當模型規模繼續擴大、上下文長度繼續拉長時,總內存需求仍然會上升。

      換句話說,TurboQuant更像是把“內存墻”向外推遠了一段距離,而不是把墻推倒。

      真正被改變的,是邊際需求曲線。

      過去幾年,HBM的投資邏輯建立在一個樸素假設上:模型越大、上下文越長、并發越高=顯存需求線性爆炸。

      如果KV Cache可以在近理論極限的條件下壓縮到3-4bit,那么推理階段對HBM容量的敏感度就會顯著下降。需求曲線從“線性放大”變成“被壓縮后的線性放大”。

      這會帶來兩個變化:

      第一,單卡利用率提升。相同硬件可以服務更多請求,云廠商的推理成本下降,算力供給側的議價能力被削弱。

      第二,容量升級節奏放緩。如果原本需要從80GB升級到120GB才能支持某種超長上下文,現在通過量化就能實現,那么硬件升級的迫切性會降低。

      這并不是說大模型對內存的需求消失了,而是說單位算力對應的營收能力提高了。對于云廠商是利好,對于單純賣“更大容量”的供應鏈企業,則是估值體系的重估。

      此外,「甲子光年」在多位技術專家交流后得到的信息是,大家一致認為,工程優化逐步吞噬硬件溢價將會是AI產業的一個長期趨勢。

      早期大家拼模型規模,中期拼數據質量,現在越來越多的競爭發生在系統層和算法層——FlashAttention、PagedAttention、GQA、MoE、推理調度優化、算子融合……每一次看似微小的改進,都在降低對“暴力堆料”的依賴。

      可以說,TurboQuant如果被大規模工程化落地,那么它代表的是一種范式轉移——從“用更貴的內存解決問題”轉向“用更聰明的數學解決問題”。

      整個AI基礎設施鏈條,它也意味著軟件層的價值占比提升。

      當壓縮算法接近信息論極限時,硬件差異化的空間被部分侵蝕。真正的競爭點可能從“誰的HBM更大”轉向“誰的系統棧整合得更好、調度更智能、算法更先進”。

      這也是為什么這篇論文被一些人稱為“DeepSeek時刻”——它像DeepSeek對模型訓練成本的沖擊一樣,對推理階段的資源結構提出了挑戰。

      TurboQuant未必會讓HBM失去價值,也不會讓GPU需求崩塌。但它釋放了一個強烈信號——在大模型時代,資源瓶頸不只是硬件問題,更是數學問題。當壓縮效率逼近信息論極限時,我們看到的不是“更少的算力”,而是“更高的單位算力產出”。

      對于投資者而言,這意味著必須重新評估產業鏈中“誰在賣稀缺性,誰在賣效率”;對于工程師而言,這意味著一個更具挑戰性的時代:優化空間正在從參數規模,轉向結構設計與信息表達。

      而對于整個AI行業而言,這或許只是一個開始。

      (封面圖來源:Google Research)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      官宣即打臉?內塔怎么都沒料到,通告剛剛發布,就遭盟友公開拆臺

      官宣即打臉?內塔怎么都沒料到,通告剛剛發布,就遭盟友公開拆臺

      Ck的蜜糖
      2026-05-15 01:03:40
      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      動物奇奇怪怪
      2026-05-15 00:54:32
      女子穿禮服退款后續:身份被扒已社死,工作被停職,商家準備起訴

      女子穿禮服退款后續:身份被扒已社死,工作被停職,商家準備起訴

      千言娛樂記
      2026-05-13 12:18:49
      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理觀察局
      2026-05-09 09:10:05
      馬斯克訪華名場面曝光!原地轉圈打卡,庫克、黃仁勛看呆了

      馬斯克訪華名場面曝光!原地轉圈打卡,庫克、黃仁勛看呆了

      雷科技
      2026-05-14 18:32:28
      年年賣球員,如今主教練也被盯上了!粵蜜:趕緊買過來,替掉杜鋒

      年年賣球員,如今主教練也被盯上了!粵蜜:趕緊買過來,替掉杜鋒

      弄月公子
      2026-05-14 23:00:22
      黃仁勛拿下第6個博士學位 畢業演講:AI 可能不會取代你,但善用AI的人可能會

      黃仁勛拿下第6個博士學位 畢業演講:AI 可能不會取代你,但善用AI的人可能會

      每日經濟新聞
      2026-05-12 11:03:00
      178萬噸榴蓮涌入中國!進口量暴漲294%,泰國市場份額跌至不到60%

      178萬噸榴蓮涌入中國!進口量暴漲294%,泰國市場份額跌至不到60%

      阿纂看事
      2026-05-14 15:18:51
      當小三7年終上位,三年后卻全身長瘤而亡!她這一生活得太不值了

      當小三7年終上位,三年后卻全身長瘤而亡!她這一生活得太不值了

      余塩搞笑段子
      2026-05-13 18:36:13
      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      33歲章澤天風格大變!穿艷俗紗裙、副乳突出,比實際年齡成熟10歲

      阿訊說天下
      2026-04-18 14:53:39
      林彪致毛主席罕見書信,為何書法有的蒼勁有力,有的卻像印刷體!

      林彪致毛主席罕見書信,為何書法有的蒼勁有力,有的卻像印刷體!

      小豫講故事
      2026-05-14 06:00:17
      A股:今天,5月14日,突然跳水,原因是這兩點!

      A股:今天,5月14日,突然跳水,原因是這兩點!

      明心
      2026-05-14 11:30:52
      央媒發聲!62歲倪夏蓮銳評陳夢,不提球技卻一針見血

      央媒發聲!62歲倪夏蓮銳評陳夢,不提球技卻一針見血

      李虰手工制作
      2025-11-28 22:54:55
      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

      小小科普員
      2026-03-26 00:27:10
      女人長期和一個婚外男人糾纏,多半會有這3種結局,很現實

      女人長期和一個婚外男人糾纏,多半會有這3種結局,很現實

      大熊歡樂坊
      2026-05-15 00:24:38
      伊朗總統府:不會永久限制互聯網訪問

      伊朗總統府:不會永久限制互聯網訪問

      界面新聞
      2026-05-14 07:00:53
      凱特王妃涅槃重生!獨自訪問意大利,戰勝癌癥重回顏值巔峰

      凱特王妃涅槃重生!獨自訪問意大利,戰勝癌癥重回顏值巔峰

      紅袖說事
      2026-05-14 23:19:27
      從0-2到2-4!U17中國女足止步亞洲杯4強,朝鮮和日本會師爭冠

      從0-2到2-4!U17中國女足止步亞洲杯4強,朝鮮和日本會師爭冠

      林子說事
      2026-05-15 00:13:06
      足壇沒人敢惹的伊布,竟被大11歲的女人管了整整20年?

      足壇沒人敢惹的伊布,竟被大11歲的女人管了整整20年?

      羅氏八卦
      2026-05-12 18:05:06
      第一次感受到維C的“殺傷力”,2塊錢一瓶,就能搞定8個麻煩事

      第一次感受到維C的“殺傷力”,2塊錢一瓶,就能搞定8個麻煩事

      室內設計師有料兒
      2026-05-09 10:26:26
      2026-05-15 01:52:49
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3446文章數 9265關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      家居
      親子
      旅游
      藝術
      房產

      家居要聞

      精神奢享 對話塔尖需求

      親子要聞

      孤獨癥特教老師的工作,遠不止“教說話”!(下)

      旅游要聞

      日照五蓮:云海日出映青山

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲AV无码专区亚洲AV| 久久久一本波多野结衣| 亚洲一区二区三区在线观看播放| 欧美大胆老熟妇乱子伦视频| 三级三级三级a级全黄三电影| 久久国产免费福利永久| 国自产拍欧美久久一本到88色鬼首页| 久久精品夜夜夜夜夜久久| jizz国产| 高h小月被几个老头调教| 国产精品一在线观看| 欧美a在线| 亚洲国产成人高清在线播放 | 婷婷久久香蕉五月综合加勒比| 激情av一区二区| 国产精品三级片一区| 国产精品蜜芽在线观看| 国内黄色精品| 9lporm自拍视频区| 性久久久久久| 亚洲妇女水蜜桃AV网网| 国产美女久久精品香蕉69| 狠狠色噜噜狠狠狠狠97首创麻豆| 91豆花成人社区在线| 尤物yw193无码点击进入| 亚洲乱码一区二区三区在线观看| 国产破外女出血视频| 一区二区激情| 久久永久视频| 国产swag在线观看| 亚洲AV无码久久久久网站蜜桃 | 亚洲情A成黄在线观看动漫尤物| 在线亚洲国模九九| 国产太嫩了在线观看| 偷柏自拍亚洲综合在线在线视频日本三区精品| 毛片免费试看| 国产九九| 国产成人高清精品免费| 人人妻人人澡人人爽曰本| 亚洲一区在线成人av| 国产xxxxx|