<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      LLM近期重大架構(gòu)進(jìn)化一覽:從Gemma 4到DeepSeek V4

      0
      分享至



      機(jī)器之心編輯部

      過去一段時(shí)間,很多人對大模型都有一個(gè)明顯感受:token 總是不夠用

      畢竟用戶想大模型更「聰明」更連貫,上下文窗口只會(huì)越來越大。

      而在模型背后,長上下文是相當(dāng)「奢侈」的。用戶 token 消耗翻倍,其實(shí)是模型更大的 KV cache 和更高的 attention 計(jì)算成本。

      尤其是在推理模型和 Agent 逐漸成為主流后,長上下文已經(jīng)從一個(gè)「宣傳亮點(diǎn)」,逐漸轉(zhuǎn)變?yōu)榇竽P图軜?gòu)設(shè)計(jì)需要正面解決的問題。

      Sebastian 精準(zhǔn)地捕捉到,最近幾個(gè)月發(fā)布的一批 LLM,正好體現(xiàn)了這個(gè)趨勢。

      從 Google 的 Gemma 4,到 Poolside 的 Laguna XS.2、Zyphra 的 ZAYA1-8B,再到 DeepSeek V4,這些模型在 Transformer 內(nèi)部做了各種「省錢設(shè)計(jì)」,試圖圍繞長上下文推理降低計(jì)算和存儲(chǔ)成本

      Sebastian 為此發(fā)布了技術(shù)博客,以下為博客鏈接與全文翻譯。



      近期 LLM 一覽。

      • 博客標(biāo)題:LLM 架構(gòu)的最新發(fā)展:KV 共享、mHC 與壓縮注意力
      • 博客鏈接:https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures

      Gemma 4:

      通過跨層復(fù)用 KV Tensor 縮小 KV Cache

      時(shí)間回到四月初,Google 發(fā)布了全新的開源權(quán)重模型系列 Gemma 4。整個(gè)系列大致可以分為三類:

      • 面向移動(dòng)端與小型本地(嵌入式)設(shè)備(即 IoT)的 Gemma 4 E2B 與 E4B;
      • 面向高效本地推理、采用混合專家架構(gòu)(MoE)的 Gemma 4 26B;
      • 以及采用 Dense 架構(gòu)、追求更高模型質(zhì)量與更便捷后訓(xùn)練流程的 Gemma 4 31B(因?yàn)?MoE 模型通常更難進(jìn)行后訓(xùn)練和調(diào)優(yōu))。



      Gemma 4 架構(gòu)示意圖

      Gemma 4 E2B 與 E4B 的第一個(gè)小型架構(gòu)改動(dòng),是采用了「共享 KV Cache」機(jī)制:后續(xù)層會(huì)復(fù)用前面層已經(jīng)計(jì)算出的 Key-Value 狀態(tài),從而降低長上下文場景下的顯存占用與計(jì)算成本。

      這種方法并不是 Gemma 4 首創(chuàng)。例如 NeurIPS 2024 的論文《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》已經(jīng)提出類似思路。但 Gemma 4 是第一次將其大規(guī)模應(yīng)用于主流開源架構(gòu)中。

      為什么 KV Cache 如此重要?

      正如我最近幾個(gè)月不斷提到的,當(dāng)前 LLM 架構(gòu)設(shè)計(jì)中的一個(gè)核心主題,就是「縮小 KV Cache」。而縮小 KV Cache 的根本目的,是降低模型運(yùn)行所需的顯存占用,從而支持更長的上下文窗口。這一點(diǎn)在推理模型和 Agent 時(shí)代尤其重要。

      舉一個(gè)經(jīng)典的例子(Gemma 4 目前依然在使用):Grouped Query Attention(GQA)本身就已經(jīng)通過讓多個(gè) Query Head 共享同一組 Key-Value(KV)Head,來減少 KV Cache 的大小,如下圖所示。



      Gemma 4 的跨層 KV 共享機(jī)制

      如前所述,Gemma 4 使用了 GQA。不過,除了 GQA 中不同 Query Head 之間的 KV 共享之外,Gemma 4 還進(jìn)一步在不同 Transformer Layer 之間共享 KV Projection,而不是像傳統(tǒng)做法那樣,在每一層 Attention 模塊中分別計(jì)算自己的 KV

      這種 KV 共享機(jī)制也被稱為 Cross-Layer Attention,其結(jié)構(gòu)如下圖所示。



      正如架構(gòu)示意圖中所提到的,Gemma 4 E2B 采用了普通 GQA 與 Sliding Window Attention 按照 4:1 的方式組合使用。(更準(zhǔn)確地說,Gemma 4 E2B 實(shí)際使用的是 MQA,也就是 GQA 中只有一個(gè) KV Head 的特殊情況。)

      在 GQA(或 MQA)機(jī)制下,KV 共享的方式如下:后續(xù)層不再單獨(dú)計(jì)算自己的 Key 和 Value Projection,而是直接復(fù)用最近一個(gè)、同類型且未共享層所生成的 KV Tensor。

      換句話說:Sliding Window Attention 層會(huì)復(fù)用前面某個(gè) Sliding Window 層的 KV, Full Attention 層則會(huì)復(fù)用前面某個(gè) Full Attention 層的 KV。

      當(dāng)然,每一層仍然會(huì)計(jì)算自己的 Query Projection,因此不同層依然可以形成各自不同的 Attention Pattern;但代價(jià)最高、最占顯存的 KV Cache,則會(huì)被多個(gè)層共同復(fù)用。例如:

      • Gemma 4 E2B 一共有 35 層 Transformer Layer,但只有前 15 層會(huì)真正計(jì)算自己的 KV Projection;后面的 20 層則直接復(fù)用之前同類型層的 KV Tensor。
      • 類似地,Gemma 4 E4B 共 42 層,其中 24 層負(fù)責(zé)計(jì)算 KV,最后 18 層采用共享機(jī)制。

      這種設(shè)計(jì)到底能節(jié)省多少資源?

      由于大約有一半的 KV 在不同層之間被共享,因此 KV Cache 的整體大小也大致減少了一半。對于最小的 E2B 模型來說,在 128K 長上下文、bfloat16 精度下,可以節(jié)省約2.7GB顯存;而 E4B 在同樣條件下,則大約能夠節(jié)省6GB



      Gemma 4 E2B 類似配置中,GQA 與跨層 KV 共享帶來的 KV Cache 顯存節(jié)省效果

      當(dāng)然,KV Sharing 的缺點(diǎn)在于,它本質(zhì)上是一種對完整 Attention 計(jì)算的「近似」。更準(zhǔn)確地說,它會(huì)削弱模型容量。

      不過,根據(jù) Cross-Layer Attention 論文中的實(shí)驗(yàn)結(jié)果,在被測試的小規(guī)模模型上,這種影響可以非常有限。

      Gemma 4 E2B / E4B:

      Per-Layer Embeddings(PLE)與「有效參數(shù)量」

      Gemma 4 的 E2B 與 E4B 版本還引入了第二種以效率為導(dǎo)向的設(shè)計(jì):Per-Layer Embeddings(PLE,逐層嵌入)。這一機(jī)制與前面提到的 KV Sharing 是相互獨(dú)立的。

      KV Sharing 的目標(biāo)是縮小 KV Cache,而 PLE 關(guān)注的則是參數(shù)效率(parameter efficiency):它讓小尺寸的 Gemma 4 模型能夠攜帶更多 token-specific information(與 token 相關(guān)的特征信息),但又不會(huì)讓整個(gè) Transformer 主干像同參數(shù)量 Dense 模型那樣昂貴。

      例如,Gemma 4 E2B 與 E4B 中的「E」,代表的就是「effective」(有效參數(shù)量) 。具體來說:

      • Gemma 4 E2B 標(biāo)注為 2.3B effective parameters,但如果把 embedding 參數(shù)也算進(jìn)去,總參數(shù)量實(shí)際上達(dá)到 5.1B;
      • Gemma 4 E4B 的 effective parameters 為 4.5B,而包含 embedding 后則約為 8B。

      換句話說,在這些 「E」系列模型中,真正負(fù)責(zé)主要計(jì)算的 Transformer Stack,其計(jì)算規(guī)模更接近前面的較小數(shù)字;而后面的總參數(shù)量,則包含了額外的 embedding table。

      從概念上來看,PLE 的結(jié)構(gòu)大致如下:



      帶有 PLE residual path 的簡化版 Gemma 4 Block。普通 Transformer Block 會(huì)先完成 Attention 與 Feed-Forward 的 residual update;隨后,生成的 hidden state 會(huì)作為 gating 信號(hào),控制 layer-specific 的 PLE vector,并在 Block 末尾額外加入一次 projected PLE residual update。

      PLE Vector 本身是在 Transformer Block 外部提前構(gòu)建的。簡單來說,它有兩個(gè)輸入來源:token ID 經(jīng)過 per-layer embedding lookup; 普通 token embedding 再通過一個(gè) linear projection,映射到同一個(gè) PLE 空間。

      隨后,這兩部分結(jié)果會(huì)被相加、縮放,并 reshape 成一個(gè) tensor,其中每一層都對應(yīng)一個(gè)獨(dú)立 slice,而每個(gè) Transformer Block 只會(huì)接收屬于自己的那一份。



      簡化版 PLE(Per-Layer Embeddings)構(gòu)建流程

      這里有一個(gè)很重要的細(xì)節(jié):PLE 并不是給每個(gè) Transformer Block 單獨(dú)復(fù)制一整套 embedding layer。相反,per-layer embedding lookup 只會(huì)計(jì)算一次,然后再給每一層分發(fā)一個(gè)較小的 token-specific embedding slice。

      因此,對于每個(gè)輸入 token,Gemma 4 會(huì)提前準(zhǔn)備一個(gè) packed PLE tensor,其中包含每一層 decoder 對應(yīng)的一小段 embedding vector。

      真正進(jìn)入 Transformer Block 后,Attention 與 Feed-Forward 分支仍然按正常方式運(yùn)行。在完成 Feed-Forward residual update 后,當(dāng)前 hidden state(圖中記作 z)會(huì)用于 gate layer-specific PLE vector。被 gate 后的 PLE vector 會(huì)重新投影回 model hidden size、做 normalization,并作為額外 residual update 加回模型中。

      一個(gè)比較直觀的理解方式是 Transformer Block 的主體結(jié)構(gòu)并沒有改變,Gemma 4 只是額外在 Feed-Forward 分支后面,插入了一小段「層特定 token 向量」。這樣做能夠通過 embedding 參數(shù)與小規(guī)模 projection,提升模型的表達(dá)能力,同時(shí)避免把整個(gè) Transformer Stack 都擴(kuò)展到更大的參數(shù)規(guī)模。

      為什么要用 PLE?

      一種更直接的方法,其實(shí)是簡單縮小 Dense 模型,比如減少層數(shù)、縮小 hidden state 或縮小 Feed-Forward Network。

      這樣當(dāng)然能降低顯存與延遲,但也會(huì)直接削弱模型真正負(fù)責(zé)計(jì)算的核心部分。

      而 PLE 的思路則是:讓昂貴的 Transformer Block 保持在較小的 「effective size」,同時(shí)把額外容量存儲(chǔ)在 per-layer embedding table 中。由于 embedding 本質(zhì)上主要是 lookup-style parameter,它們遠(yuǎn)比增加 Attention 或 FFN 權(quán)重更便宜,也更容易緩存。

      當(dāng)然,目前我們還只能相信 Google 的實(shí)驗(yàn)結(jié)果,認(rèn)為這確實(shí)是一個(gè)有效的設(shè)計(jì)。作者也提到,未來如果能看到更多對比實(shí)驗(yàn),例如:PLE 版 Gemma 4 E2B vs 普通 2.3B Dense 模型 vs 普通 5.1B Dense 模型 。

      這樣的對比會(huì)非常有意思。

      此外,從理論上講,PLE 并不只適用于小模型。更大的模型同樣可以加入 per-layer embedding slice。但由于大模型本身已經(jīng)具有足夠容量,因此這些額外 embedding 的收益可能不再明顯。而且在大模型中,我們通常已經(jīng)通過 MoE 等結(jié)構(gòu),在不顯著增加計(jì)算量的前提下提升模型容量。

      Laguna XS.2:

      Layer-wise Attention Budgeting

      Laguna 是歐洲公司 Poolside 推出的首個(gè) open-weight 模型,Poolside 主要專注于面向代碼場景的 LLM 訓(xùn)練。

      不同 Layer 使用不同 Attention Budget。

      下圖中的 Laguna XS.2 架構(gòu)乍一看其實(shí)相當(dāng)標(biāo)準(zhǔn)。不過,有一個(gè)我沒有畫進(jìn)去(或者說沒法硬塞進(jìn)圖里)的細(xì)節(jié),是一個(gè)可以稱為 「Layer-wise attention budgeting」 的概念。



      Poolside 的 Laguna XS.2 架構(gòu)示意圖。

      這里所謂 attention budgeting 的核心思路之一,是不再讓每個(gè) Transformer Layer 都擁有完全相同的 Attention 預(yù)算,而是根據(jù)層的不同,動(dòng)態(tài)分配不同的 Attention 成本

      Laguna XS.2 總共有 40 層,其中 30 層使用 Sliding-Window Attention,10 層使用 Global / Full Attention。

      和常見做法一樣,Sliding-Window Layer 只會(huì)關(guān)注局部窗口(這里是 512 個(gè) token),因此 KV Cache 與 Attention 計(jì)算成本都更低;而 Global Layer 雖然更昂貴,但能夠保留對整個(gè)上下文窗口中所有信息的訪問能力。

      這種 Sliding-Window Attention 與 Global / Full Attention 混合使用的結(jié)構(gòu),并不是 Laguna XS.2 獨(dú)有的,很多其他模型(包括 Gemma 4)也采用了類似設(shè)計(jì)。

      但真正新的地方在于:Laguna XS.2 引入了「逐層不同 Query Head 數(shù)量」的設(shè)計(jì)。

      例如,在 Hugging Face 的 config.json 中,可以看到一個(gè)名為 num_attention_heads_per_layer 的配置項(xiàng),這意味著不同 Layer 可以擁有不同數(shù)量的 Query Head,同時(shí)仍然保持 KV Cache 結(jié)構(gòu)兼容。



      Laguna 中的逐層 Query-Head Budgeting。其中 Full Attention Layer 每個(gè) KV Head 對應(yīng) 6 個(gè) Query Head; Sliding Window Attention Layer 每個(gè) KV Head 對應(yīng) 8 個(gè) Query Head。

      因此,Laguna XS.2 的實(shí)際做法是:給 Sliding-Window Layer 分配更多 Query Head,給 Global Layer 分配更少 Query Head,同時(shí)將 KV Head 數(shù)固定為 8

      這才是真正意義上的 「Layer-wise Head Budgeting」。

      Laguna XS.2 是近期 open model 中最具代表性的逐層 Query-Head Budgeting 實(shí)踐之一。不過,更廣義上的「按層動(dòng)態(tài)分配模型容量」這一思路,其實(shí)至少可以追溯到 Apple 在 2024 年提出的 OpenELM。

      為什么這樣設(shè)計(jì)?

      和 KV Sharing 類似,它的核心目標(biāo)依然是:把 Attention Capacity 花在最值得的地方,而不是讓所有 Layer 平均分配相同預(yù)算

      具體來說,F(xiàn)ull Attention Layer 因?yàn)樾枰L問整個(gè)上下文窗口,本身計(jì)算代價(jià)就更高,因此 Laguna 會(huì)相對減少它們的 Query Head 數(shù)量;而計(jì)算成本更低的 Sliding-Window Layer,則可以擁有更多 Query Head。

      (此外,還有一個(gè)較小的實(shí)現(xiàn)細(xì)節(jié):Laguna 還采用了 per-head attention-output gating,這一點(diǎn)與 Qwen3-Next 等模型有些類似。不過由于我之前已經(jīng)討論過類似機(jī)制,因此這里不再展開。)

      ZAYA1-8B:壓縮卷積注意力(CCA)

      和 Laguna 類似,ZAYA1-8B 也是一位新玩家。它由 Zyphra 開發(fā),而這次發(fā)布中一個(gè)很有意思的細(xì)節(jié)是:該模型并不是基于更常見的 NVIDIA GPU(或 Google TPU)訓(xùn)練,而是使用 AMD GPU 完成訓(xùn)練的。

      不過,真正關(guān)鍵的架構(gòu)設(shè)計(jì),是一種名為Compressed Convolutional Attention(CCA,壓縮卷積注意力)的機(jī)制,并且它與 Grouped-Query Attention(GQA)共同使用。

      與 MLA(Multi-head Latent Attention)這類主要把 latent representation 當(dāng)作緊湊 KV Cache 格式的設(shè)計(jì)不同,CCA 會(huì)直接在壓縮后的 latent space 中完成 Attention 計(jì)算。不過這一點(diǎn)我們后面再詳細(xì)展開。

      (順帶一提:ZAYA1-8B 的 config.json 中實(shí)際上列出了 80 個(gè)交替出現(xiàn)的 layer entry,而不是傳統(tǒng)意義上的 40 個(gè) Transformer Block。這些 layer 在結(jié)構(gòu)上會(huì)在 CCA/GQA Attention 與 MoE Feed-Forward Layer 之間交替出現(xiàn)。不過在架構(gòu)圖里,把它們簡化理解成 40 個(gè)重復(fù)的 「Attention + MoE」 Pair 會(huì)更直觀,兩種表示在概念上是等價(jià)的。)



      采用 Compressed Convolutional Attention 的 ZAYA1(8B)Transformer Block。

      正如上圖所示,ZAYA1-8B 采用了 CCA,并結(jié)合了 4:1 的 GQA 結(jié)構(gòu)。這里最關(guān)鍵的一點(diǎn)在于:它的 Attention Block 是圍繞 CCA 構(gòu)建的,而不是傳統(tǒng)的 Sliding-Window Attention。

      什么是 Compressed Convolutional Attention(CCA)?

      我認(rèn)為,從整體思路上來看,CCA 與 DeepSeek 模型中的 MLA(Multi-head Latent Attention)是相近的,因?yàn)樗鼈兌荚?Attention Block 中引入了壓縮后的 latent representation。不過,兩者使用 latent space 的方式并不相同。

      MLA 的核心目標(biāo),主要是通過 latent representation 來壓縮 KV Cache。在 MLA 中,KV Tensor 會(huì)以壓縮形式存儲(chǔ),隨后再被投影回 Attention Head 空間,用于真正的 Attention 計(jì)算。



      普通 Multi-head Attention(MHA)與 Multi-head Latent Attention(MLA)對比。

      而 CCA 則更進(jìn)一步,它不僅壓縮 K、V,還同時(shí)壓縮 Q,并且直接在壓縮后的 latent space 中完成 Attention 運(yùn)算。也正因?yàn)槿绱?,CCA 不僅能夠減少 KV Cache 的大小,還能夠降低 Prefill 階段與訓(xùn)練階段的 Attention FLOPs。



      MLA 與 CCA 的結(jié)構(gòu)對比。

      正如上圖所示的,在 CCA 中,壓縮后的 latent representation 會(huì)直接進(jìn)入 Attention 機(jī)制,而生成出的 compressed attention vector 隨后再被 up-project 回原始空間。

      為什么叫「卷積注意力」?

      這里需要特別注意:它被稱為 「Compressed Convolutional Attention」,而不僅僅是「Compressed Attention」,是因?yàn)?strong>在 latent K 與 latent Q 上,還額外加入了 convolutional mixing(卷積混合)

      由于結(jié)構(gòu)圖中空間有限,沒有把這一部分畫出來,但它本身其實(shí)并不復(fù)雜。正如 Figure 12 所暗示的,卷積混合是直接作用在壓縮后的 Q Tensor 與 K Tensor 上的。

      原因在于壓縮會(huì)讓 Q、K、V 維度變窄,從而降低計(jì)算量與緩存開銷,但與此同時(shí),也可能削弱 Attention 的表達(dá)能力。

      而卷積則是一種相對廉價(jià)的方法,它能夠在 Q 與 K 被用于 Attention Score 計(jì)算之前,為這些壓縮后的表示補(bǔ)充更多局部上下文信息。

      (這里的卷積只作用于 Q 與 K,而不作用于 V。因?yàn)?Q 與 K 決定的是 Attention Score,而 V 則代表最終被加權(quán)聚合的內(nèi)容。)



      Sequence-Mixing Convolution 的概念示意圖。

      除了前文中展示的 Sequence Mixing 外,CCA 還包含一個(gè) Channel Mixing Component。不過它們在原理上較為類似,因此這里不再單獨(dú)展開。

      CCA 看起來是 Zyphra 在 ZAYA1-8B Technical Report 發(fā)布之前就已經(jīng)提出的一種 Attention 機(jī)制。獨(dú)立論文《Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space》最早發(fā)表于 2025 年 10 月,并正式提出了 CCA;而 ZAYA1-8B 則將這一機(jī)制作為核心架構(gòu)組件之一實(shí)際投入使用。

      CCA 是否真的比 MLA 更好?

      根據(jù) CCA 論文中的實(shí)驗(yàn)結(jié)果,在相同壓縮設(shè)置下,CCA 的表現(xiàn)確實(shí)優(yōu)于 MLA。



      CCA 論文中的實(shí)驗(yàn)結(jié)果標(biāo)注圖。

      總體來說,這部分真正有意思的地方,其實(shí)是新的 Attention 機(jī)制本身。

      當(dāng)然,ZAYA1-8B 同時(shí)也采用了相當(dāng)激進(jìn)(也就是非常稀疏)的 MoE 結(jié)構(gòu):每個(gè) token 只激活一個(gè) routed expert。不過這一點(diǎn)相對已經(jīng)比較常見。

      真正更特殊的是 CCA,它直接在壓縮 latent space 中執(zhí)行 Attention 計(jì)算,并通過對壓縮后的 Q/K 做卷積混合,來緩解壓縮 Attention 本身表達(dá)能力受限的問題。

      簡而言之,ZAYA1-8B 不只是想在 Feed-Forward Layer 上節(jié)省計(jì)算量,它甚至試圖從 Attention Mechanism 本身開始降低計(jì)算成本。

      DeepSeek V4:mHC 與壓縮注意力

      DeepSeek V4 是今年最受關(guān)注的大模型之一。有意思的是,如果按照 active-parameter share(活躍參數(shù)占比)來衡量,DeepSeek V4-Pro 同時(shí)也是參數(shù)最稀疏的 MoE 模型。

      關(guān)于 DeepSeek V4,其實(shí)有很多可以討論的內(nèi)容。不過由于它已經(jīng)在新聞與社區(qū)中被廣泛討論,同時(shí)為了繼續(xù)聚焦「架構(gòu)層面的改動(dòng)」,這里我主要關(guān)注兩個(gè)相較以往架構(gòu)真正新的部分:

      • 用于擴(kuò)展 Residual Path 的 mHC;
      • 用于長上下文 Attention 壓縮與稀疏化的 CSA/HCA。

      從下圖中的 DeepSeek V4 架構(gòu)圖來看,整個(gè)結(jié)構(gòu)似乎非常復(fù)雜。不過,一個(gè)比較有效的閱讀方式是將 Residual Path 上的改動(dòng)(mHC),與 Attention Path 上的改動(dòng)(CSA/HCA 與 Compressed Attention Cache)分開理解。



      DeepSeek V4-Pro 架構(gòu)概覽。

      5.1 mHC:流形約束超連接

      我們先從 DeepSeek V4 中的 mHC 組件開始。

      這一設(shè)計(jì)最早來自 DeepSeek 團(tuán)隊(duì)在去年(2025 年 12 月 31 日)發(fā)布的一篇研究論文《mHC: Manifold-Constrained Hyper-Connections》。不過,當(dāng)時(shí)論文中的實(shí)驗(yàn)只在一個(gè) 27B 規(guī)模的實(shí)驗(yàn)?zāi)P蜕贤瓿?。而如今,我們已?jīng)在他們的旗艦?zāi)P椭锌吹搅诉@一機(jī)制,這也意味著,這一想法很可能已經(jīng)在真實(shí)生產(chǎn)環(huán)境中被驗(yàn)證有效。

      mHC 的核心目標(biāo),是重新設(shè)計(jì) Transformer Block 內(nèi)部的 Residual Connection。這一點(diǎn)其實(shí)非常新鮮,因?yàn)榻陙斫^大多數(shù)架構(gòu)改動(dòng),通常都集中在Attention Mechanism、Normalization Layer 的放置方式與MoE 結(jié)構(gòu)本身。

      mHC 本身建立在更早的 Hyper-Connections 工作之上(見 Zhu 等人 2024 年論文《Hyper-connections》),因此我們需要先簡單理解一下 Hyper-Connections。

      傳統(tǒng) Transformer 中,只有一條單獨(dú)的 Residual Stream。而 Hyper-Connections 會(huì)把它替換成:多條并行 Residual Stream,并通過可學(xué)習(xí)映射(learned mappings)在它們之間交換信息。

      Hyper-Connections 的核心思想,是「擴(kuò)寬 Residual Stream」。

      可以把它理解為模型同時(shí)維護(hù)多條并行 Residual Path,并額外加入一個(gè) Res Mapping 線性變換,在不同 Residual Stream 之間進(jìn)行信息混合

      由于 Attention Layer 或 MoE Layer 本身仍然工作在普通 Hidden Size 上,因此 Hyper-Connections 還會(huì)增加:

      • Pre Mapping:把多條 Residual Stream 合并成單一 Hidden Vector;
      • Post Mapping:再把 Layer 輸出重新分發(fā)回多個(gè) Residual Stream。



      普通 Transformer Block(上)與帶 Hyper-Connections 的 Transformer Block(下)。

      上圖主要展示了 Attention Branch 中的結(jié)構(gòu),但同樣的思想也適用于圍繞 MoE Layer 的第二條 Residual Branch。

      Hyper-Connections 的目的,是在不真正擴(kuò)大 Attention 或 MoE Layer 本身寬度的情況下,讓 Residual Path 擁有更強(qiáng)表達(dá)能力。

      而它帶來的 FLOPs 增長其實(shí)很有限,因?yàn)檫@些額外映射只作用在較小的 residual-stream 維度上(例如 DeepSeek V4 中 n=4),而不是作用在巨大的 hidden dimension 上。

      在最初的 Hyper-Connections 論文中,7B OLMo MoE 模型的 FLOPs per token 從 13.36G 增加到 13.38G,幾乎沒有變化;而性能指標(biāo)則獲得了穩(wěn)定但溫和的提升。

      當(dāng)然,只看 FLOPs 其實(shí)有些過于簡單。因?yàn)閿U(kuò)寬后的 Residual State 依然需要存儲(chǔ)、在顯存中移動(dòng)并參與混合計(jì)算。 因此,真正的額外開銷更多可能來自Memory Traffic 與 Implementation Complexity,而不僅僅是算術(shù)計(jì)算本身。

      不過考慮到 DeepSeek V4 整體都在追求效率,這看起來依然是一個(gè)值得加入的設(shè)計(jì)。



      Hyper-Connections 相較 Baseline 的性能表現(xiàn)。

      傳統(tǒng) Transformer 只有單一 residual stream。而 Hyper-Connections 將其擴(kuò)展成多個(gè)并行 residual stream。

      此外,如圖所示:Hyper-Connections 在大約只使用一半訓(xùn)練 token的情況下,就達(dá)到了 Baseline 的性能水平。

      而從普通 Hyper-Connections(HC)到 Manifold-Constrained Hyper-Connections(mHC)最關(guān)鍵的變化,在于這些 Mapping 不再是「無約束」的。

      在普通 HC 中,Res Mapping 是一個(gè)可學(xué)習(xí)矩陣,用于混合不同 Residual Stream。但當(dāng)多個(gè)這樣的矩陣不斷堆疊時(shí),信號(hào)可能會(huì)不可預(yù)測地被放大或縮小。

      而在 mHC 中,這個(gè) Residual Mapping 會(huì)被約束到「雙隨機(jī)矩陣(doubly stochastic matrix)」流形上。也就是說:所有元素非負(fù); 每一行之和為 1; 每一列之和為 1。

      這樣一來:Residual Mixing 會(huì)更像是一種穩(wěn)定的信息重新分配(stable redistribution),而不是不可控的信號(hào)放大或衰減。

      與此同時(shí) Pre Mapping 與 Post Mapping 也同樣會(huì)被約束為非負(fù)且有界,從而避免在讀取與寫回?cái)U(kuò)寬 Residual State 時(shí)出現(xiàn)信息抵消。

      簡而言之,mHC 保留了 HC 更豐富的 Residual Mixing 能力,同時(shí)加入額外約束,使其在更大、更深的模型中能夠更穩(wěn)定地?cái)U(kuò)展。

      除此之外,多 Residual Stream 的整體思路并沒有改變,如下圖所示。



      采用 HC 與 mHC 的 Transformer Block。

      在 mHC 論文中,DeepSeek 團(tuán)隊(duì)基于 27B 模型實(shí)驗(yàn)表明:在使用融合優(yōu)化(fusion)、重計(jì)算(recomputation)與 pipeline scheduling 后,即使在整個(gè) Transformer 中使用 4 條 Residual Stream(n=4),訓(xùn)練時(shí)間額外開銷也僅增加約 6.7%。

      總結(jié)來說:HC/mHC 的本質(zhì),是通過把單一 Residual Stream 替換為多條相互交互的 Residual Stream,重新定義信息在 Transformer Layer 中的傳播方式。mHC 則進(jìn)一步加入穩(wěn)定性約束,同時(shí)只帶來很小的計(jì)算額外開銷

      此外,它也與后面將介紹的 CSA/HCA Attention 改動(dòng)形成了很好的配合。

      通過 CSA 與 HCA 實(shí)現(xiàn)壓縮 Attention

      DeepSeek V4 的另一項(xiàng)核心架構(gòu)升級,發(fā)生在 Attention 部分。其背后的動(dòng)機(jī)依然非常明確:在超長上下文場景下,Attention 的成本不僅來自 Attention Score 本身的計(jì)算,還來自 KV Cache 會(huì)隨著 Sequence Length 持續(xù)增長。

      DeepSeek V4 針對這一問題,引入了兩種壓縮 Attention 機(jī)制的混合設(shè)計(jì):

      • Compressed Sparse Attention(CSA)
      • Heavily Compressed Attention(HCA)

      首先需要注意的是:DeepSeek V4 中的 CSA/HCA,與 DeepSeek V2/V3 中 MLA 風(fēng)格的壓縮并不是同一種思路。

      MLA 的壓縮對象主要是「每個(gè) token 對應(yīng)的 KV 表示」,而 CSA/HCA 壓縮的則是「Sequence Dimension 本身」。

      也就是說,它們不再為每個(gè)歷史 token 都保留一個(gè)完整(或壓縮)KV Entry,而是把一組 token 匯總成更少的壓縮 KV Entry,因此整個(gè) Cache 本身也變短了。



      MLA、CSA 與 HCA 的概念對比。

      MLA 會(huì)壓縮每個(gè) token 的 KV Representation,但依然保留「一 token 對應(yīng)一個(gè) latent KV」。而 CSA,尤其是 HCA,則進(jìn)一步減少「Sequence Entry 的數(shù)量」

      因此模型會(huì)犧牲部分 token-level 信息,以換取顯著更低的長上下文成本。

      當(dāng)然,這種壓縮也存在質(zhì)量上的 Trade-off:如果壓縮過強(qiáng),模型能力就可能下降。

      也正因如此,DeepSeek V4 并沒有只依賴一種壓縮機(jī)制,而是:交替使用 CSA 與 HCA

      • CSA 使用較輕的壓縮率,并結(jié)合類似 DSA(DeepSeek Sparse Attention)的 Sparse Selector;
      • HCA 則采用更激進(jìn)的壓縮,用于更便宜地覆蓋全局上下文;
      • 兩者都保留了一個(gè) Local Sliding-Window Branch,用于處理最近的未壓縮 token。

      HCA 是其中更激進(jìn)的版本:它會(huì)把每 128 個(gè) token 壓縮成一個(gè) KV Entry,然后在這些高度壓縮后的 KV 上執(zhí)行 Dense Attention。

      換句話說,CSA 保留更多細(xì)節(jié),但采用 Sparse Selection; HCA 保留更少 Entry,但因此能夠負(fù)擔(dān) Dense Attention



      CSA 與 HCA 的對比。

      CSA 與 HCA 在某種程度上是互補(bǔ)的,這也是為什么 DeepSeek V4 會(huì)交替使用它們,而不是只采用其中一種。

      根據(jù) DeepSeek V4 論文,在 1M Token Context 下,相比采用 MLA 與 DSA 的 DeepSeek V3.2:DeepSeek V4-Pro 的單 token 推理 FLOPs 僅為后者的 27%,KV Cache 大小僅為后者的 10%。

      而 DeepSeek V4-Flash 更進(jìn)一步:FLOPs 降至 10%,KV Cache 降至 7%。



      DeepSeek V4 相較 DeepSeek V3.2 的 1M Context 效率數(shù)據(jù)。

      不過,我并不會(huì)簡單地把 CSA/HCA 定義為「比 MLA 更好」。CSA/HCA 本質(zhì)上是一種更激進(jìn)、更偏向長上下文效率的設(shè)計(jì),而且它本身也更加復(fù)雜。

      遺憾的是,論文中并沒有提供完整的 Ablation Study。不過整體來看,論文確實(shí)展示了非常強(qiáng)的最終結(jié)果,例如:DeepSeek V4-Flash-Base 在多數(shù) Base Benchmark 上超過 DeepSeek V3.2-Base; 同時(shí)擁有很強(qiáng)的 1M-token Retrieval 能力。

      但需要注意的是,這些結(jié)果來自整個(gè) DeepSeek V4 完整訓(xùn)練體系,包括:更好的數(shù)據(jù)、基于 Muon 的優(yōu)化、mHC、精度與存儲(chǔ)優(yōu)化以及訓(xùn)練推理系統(tǒng)優(yōu)化;

      而不僅僅是 CSA/HCA 本身。就我個(gè)人而言,目前我更傾向于把 CSA/HCA 看作:

      一種以效率為核心的長上下文設(shè)計(jì)。它似乎能夠在大型旗艦?zāi)P椭泻芎玫乇A裟P唾|(zhì)量,但并不意味著它在所有場景下都絕對優(yōu)于 MLA。

      總結(jié)

      2026 年的新一代開源 LLM,一個(gè)非常明顯的趨勢是:大家都在嘗試降低長上下文成本,但并不是簡單地通過縮小模型總參數(shù)量來實(shí)現(xiàn),而是通過大量結(jié)構(gòu)級優(yōu)化。

      • Gemma 4:跨層 KV 共享 + PLE
      • Laguna:分層 Attention Budget
      • ZAYA1:壓縮 latent attention
      • DeepSeek V4:mHC + CSA/HCA

      Transformer Block 仍然在持續(xù)演化,但這種變化已經(jīng)變得越來越定向化。

      相比 GPT-2 時(shí)代幾十行 PyTorch 就能實(shí)現(xiàn),如今的 Attention Variant,代碼復(fù)雜度可能已經(jīng)增長了 10 倍。

      但這些復(fù)雜化的目的并不是增加成本,而是為了實(shí)現(xiàn)真正的超長上下文推理。

      但另一方面,理解這些組件本身,以及它們之間如何相互作用,也正在變得越來越困難。



      從 GPT-2(2019)到 DeepSeek V4-Pro(2026)的演化過程。

      對此,你怎么看?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

      蔚來李斌:螢火蟲沒必要再推第二款車 已占高端小車70%份額

      快科技
      2026-05-18 12:38:48
      太尷尬了!抄10遍字詞被家長投訴處罰,老師直接叫停作業(yè),引熱議

      太尷尬了!抄10遍字詞被家長投訴處罰,老師直接叫停作業(yè),引熱議

      火山詩話
      2026-05-18 10:53:08
      中國移動(dòng)迎來史上最年輕的總經(jīng)理!

      中國移動(dòng)迎來史上最年輕的總經(jīng)理!

      ICT解讀者
      2026-05-08 19:50:41
      普通家庭一定要明白:教育最大的騙局,就是讓孩子順其自然

      普通家庭一定要明白:教育最大的騙局,就是讓孩子順其自然

      音樂時(shí)光的娛樂
      2026-05-19 17:33:04
      佛山順德公示4月人事任免信息

      佛山順德公示4月人事任免信息

      南方都市報(bào)
      2026-05-19 16:46:07
      97年金融危機(jī)后,越南國防部長反思中越戰(zhàn)爭:天堂很遠(yuǎn),中國很近

      97年金融危機(jī)后,越南國防部長反思中越戰(zhàn)爭:天堂很遠(yuǎn),中國很近

      搜史君
      2026-05-19 20:00:14
      紅二代這樣聚會(huì) 恐怕不會(huì)再有了……

      紅二代這樣聚會(huì) 恐怕不會(huì)再有了……

      中華名人在線
      2026-05-19 10:21:50
      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      “摸奶子”再惹爭議,OPPO的流量反噬開始了

      品牌頭版
      2026-05-13 10:18:15
      普京帶著一群部長和首席執(zhí)行官前往北京

      普京帶著一群部長和首席執(zhí)行官前往北京

      桂系007
      2026-05-19 04:45:08
      奧迪Q9實(shí)車徹底曝光,軸距超3米帶V8,7月29日正式亮相

      奧迪Q9實(shí)車徹底曝光,軸距超3米帶V8,7月29日正式亮相

      老特有話說
      2026-05-19 16:03:44
      中國女足新一期大名單三名門將全換,北京女足兩門將入選

      中國女足新一期大名單三名門將全換,北京女足兩門將入選

      懂球帝
      2026-05-19 13:12:06
      回國后才敢說!中國人習(xí)以為常的事,外國人卻無法理解

      回國后才敢說!中國人習(xí)以為常的事,外國人卻無法理解

      老特有話說
      2026-05-19 16:46:36
      雅馬哈砸錢挖角張雪機(jī)車,為何反被對方引爆3.7億訂單潮?

      雅馬哈砸錢挖角張雪機(jī)車,為何反被對方引爆3.7億訂單潮?

      生活魔術(shù)專家
      2026-05-18 01:37:39
      騎士進(jìn)東決1天后!火煤痛斥1人,不該2次拒絕哈登,斯通承認(rèn)事實(shí)

      騎士進(jìn)東決1天后!火煤痛斥1人,不該2次拒絕哈登,斯通承認(rèn)事實(shí)

      錢說體育
      2026-05-19 11:07:02
      喝酒又火了?醫(yī)生研究發(fā)現(xiàn):高血壓患者在喝酒時(shí),需要多注意3點(diǎn)

      喝酒又火了?醫(yī)生研究發(fā)現(xiàn):高血壓患者在喝酒時(shí),需要多注意3點(diǎn)

      牛鍋巴小釩
      2026-05-19 17:01:41
      恭喜!26歲周琦師弟三亞大婚:他曾助遼寧奪兩冠,妻子高挑美麗

      恭喜!26歲周琦師弟三亞大婚:他曾助遼寧奪兩冠,妻子高挑美麗

      李喜林籃球絕殺
      2026-05-19 15:37:35
      國乒5.18情報(bào):樊振東退出歐冠,向鵬報(bào)名遭拒,鰻魚終于現(xiàn)身

      國乒5.18情報(bào):樊振東退出歐冠,向鵬報(bào)名遭拒,鰻魚終于現(xiàn)身

      章民解說體育
      2026-05-18 18:12:29
      中央督察組通報(bào)后,遼寧省委書記許昆林赴現(xiàn)場督導(dǎo)整改

      中央督察組通報(bào)后,遼寧省委書記許昆林赴現(xiàn)場督導(dǎo)整改

      新京報(bào)
      2026-05-19 18:41:29
      離婚六個(gè)月之內(nèi)禁止再婚

      離婚六個(gè)月之內(nèi)禁止再婚

      新科文
      2026-05-13 15:45:04
      楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

      楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

      橙星文娛
      2026-05-12 15:17:44
      2026-05-19 20:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13036文章數(shù) 142651關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺(tái)灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

      頭條要聞

      菲總統(tǒng)稱不希望卷入任何與臺(tái)灣有關(guān)的戰(zhàn)爭 外交部回應(yīng)

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財(cái)經(jīng)要聞

      從賣流量到賣Token,運(yùn)營商算力生意破局

      汽車要聞

      配置全家桶 全新海獅05這次升級全在點(diǎn)上

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      親子
      房產(chǎn)
      旅游

      教育要聞

      面積差80?這個(gè)技巧讓你秒解陰影面積!

      休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

      親子要聞

      小兒抽動(dòng)癥 并不是絕癥 家長們不要慌

      房產(chǎn)要聞

      7516元/㎡,161套一次全甩!??谧≌畹蛢r(jià)出現(xiàn)了!

      旅游要聞

      文旅新探|納木錯(cuò)“開湖日”:生態(tài)底色折射文旅亮色

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 色二av手机版在线| 精品少妇无码av无码专区| 日韩丝袜欧美人妻制服| 久久av高潮av喷水av无码| 亚洲综合久久久中文字幕| 又色又无遮挡裸体美女网站黄| 久久国产一区二区三区| 亚洲一区二区三区黄色片| 亚洲第一区第二区第三区| 8x国产精品视频| 精品人妻A∨一区| 四虎在线播放亚洲成人| 美女网站视频一区| 男人的天堂在线视频| 日韩AV字幕| 性欧美丰满xxxx性| 国产精品亚洲二区在线看| 一级呦女专区毛片| 色欧美片视频在线观看| 亚洲欧美va天堂人熟伦| 粉嫩大学生无套内射无码卡视频 | 中文字幕午夜福利片午夜福利片97 | 国产在线一卡2卡三卡4卡免费| 亚洲鲁丝片一区二区三区| 在线观看国产一区亚洲bd| 亚洲欧美另类激情综合区| 亚洲色图自拍| 一区二区三区91国产| 亚洲AV激情无码专区在线下载| 欧美偷窥清纯综合图区| 亚洲精品乱码久久久久久麻豆不卡| 久久偷看各类wc女厕嘘嘘偷窃| 国产精品最新视频| 国产天堂亚洲国产碰碰| 精品视频无码| 天天躁日日躁狠狠躁婷婷| 天天天欲色欲色www免费| AV无码国产在线看免费网站| 日本一区二区国产| 成人精品九九| 欧美目本|