網易首頁 > 網易號 > 正文申請入駐

DeepSeek V4最大的遺憾

2026-05-03 11:45:33　來源: 量子位

北京舉報

分享至

henry 發自凹非寺
量子位 | 公眾號 QbitAI

DeepSeekV4的技術報告里有mHC，有CSA，有HCA，有Muon，有FP4……

唯獨沒有Engram。

Engram去哪了？

這個話題一度成為網友們討論的熱點。

Engram在今年1月由DeepSeek和北大聯合開源，主要研究大模型的記憶與效率問題。

自掛上arXiv的那一刻起，圈子里圍繞它的探討就沒有停止過…

不僅僅因為它是V4的前奏，而是有了Engram，「倫敦是英國首都」這種事實，模型不用動用整個深層網絡去重新推一遍，直接查就行。

不僅省顯存，還能釋放深層網絡容量，用于更高階的推理。

正因如此，自1月初論文發表以來，所有人都覺得，Engram就是V4的架構地基，所有人都在盼。

以至于V4發表后，大家第一時間就是command+f去論文里找Engram，可惜并沒有。

以至于不少網友甚至覺得，沒有Engram，V4就是不完整的。

沒有Engram，可能是DeepSeekV4最大的遺憾。

不過，Engram并沒有消失。隨后三篇值得注意的論文接力出現：

CXL內存池化版本：把Engram放進多機共享的CXL內存池，解決大模型多機部署的存儲問題。
無沖突熱層實驗：對Engram的多頭哈希優化進行了實證檢驗，證偽了一些直覺式改進方案。
視覺Tiny Engram：AutoArk團隊把文本Engram搬到視覺模態，擴展了它的應用邊界。

所以，雖然V4沒有Engram，但它的理念、探索和后續應用已經悄然鋪開，為下一代模型打下基礎。

Engram到底是什么

把時間倒回2026年1月12日。

那一天，DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin，北大博士生，曾經署名過V3。最后一位作者，梁文鋒。

先來一句話速通版，Engram是給Transformer加的一個原生知識查表模塊。能查的別算，先查一下。

團隊的核心觀察是，語言建模其實包含兩種性質完全不同的任務，一種是需要深度動態計算的組合推理，另一種是檢索靜態知識。

之前的問題在于，Transformer把這兩件事混在一起做。模型識別一個實體時，得消耗好幾層注意力和前饋網絡逐層拼湊特征。

論文里舉了個例子，「Diana，Princess of Wales」。模型要走6層才能把這個識別完。

前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態，最后一層才反應過來這是戴安娜王妃。

這種「用昂貴的運行時計算重建一個靜態查找表」的活，本來可以讓深層網絡去干更高階的推理。

對此，Engram的思路相當直接，既然經典的N-gram模型就能用O(1)的時間復雜度捕獲這些局部依賴，那干脆把這能力直接嵌進Transformer。

打個比方，就像你做數學題，該用的公式不必每次從頭推一遍，翻表代進去就行。Transformer之前沒這張表，只能每道題都從公理走起。Engram等于把這張表交到模型手里。

具體做法是，在Transformer的第2層和第15層之間各插入一個Engram模塊。

每個位置的輸入會觸發一次哈希查找，把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表里，直接取出對應的向量。

門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏，但「張仲景」三個字湊一起就是固定歷史人物實體了，門控就負責認出這種區別。

Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化，只激活一部分專家。Engram是把存儲稀疏化，只查一部分條目。兩者互補，不沖突。

論文最核心的一段實驗，是固定總參數和每token激活參數，然后讓MoE專家和Engram記憶搶預算，得到一條U形曲線。

純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram，模型loss達到最低點。

按這個曲線指導，團隊把Engram擴到27B驗證。激活參數3.8B，訓練262B tokens，嚴格跟MoE-27B基線對齊。

結果知識密集型任務的提升符合預期(MMLU +3.4，CMMLU +4.0)，但通用推理和代碼數學的提升超出預期(BBH +5.0，ARC-Challenge +3.7，HumanEval +3.0，MATH +2.4)，長上下文場景更夸張，Multi-Query NIAH從84.2%躍升到97.0%。

那么，為什么記憶模塊還能反過來提升推理?

LogitLens和CKA給出了答案，Engram-27B第5層的表征，跟MoE基線第12層的表征最相似。

Engram把模型的早期層從「重建靜態知識」這種苦力活里解放出來，這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶，它還變相把網絡加深了。

工程上。論文把一個1000億參數的Engram表整個甩到host DRAM，在H800上跑推理，8B-Dense的吞吐損失只有2.8%。

靠的是Engram索引的確定性，只取決于輸入token序列，完全可以提前算，CPU異步預取跟GPU計算重疊。

可以說，這個模塊天生就不靠HBM，只可惜如今V4來了，Engram沒來。

沒在v4，但在其他地方

發明者把它放在那里沒動，但路上還是有人。三個月里，至少出現了三個值得說一下的工作。

把Engram塞進CXL內存池

3月10日，北大、阿里云、山東英信、人大、港大聯合發了一篇系統論文，《Pooling Engram Conditional Memory in Large Language Models using CXL》。

他們沒改Engram本身，而是回答了一個更工程的問題，如果Engram真的成了下一代標配，內存放哪。

答案是CXL內存池化。GPU HBM放計算權重，本地DRAM做二級緩存，CXL池做三級。8臺服務器共享4TB內存池，XConn XC50256交換芯片做拓撲，512GB/s帶寬。

整套集成進SGLang，做了預取-計算重疊，跑下來端到端吞吐損失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫，被他們做成了27B和40B兩個規模的真實測試。

結論很清楚，Engram這種確定性尋址、可預取的負載，幾乎是為CXL量身定做的。

一個反直覺的實驗

Engram論文上線第十一天，1月23日，一個叫TaoLin的研究者，單作者，放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。

他想驗證一個看上去顯然的優化，Engram用多頭哈希查表會有沖突，如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突，模型會不會更好。

他設計了Engram-Nine，把記憶分成無沖突的「熱層」和保留多頭哈希的「冷層」。

結果反直覺。在嚴格iso-parameter控制下，無沖突設計沒有穩定提升驗證loss。

route-stratified評估還發現，訓練初期熱路徑(高頻)loss更低，但訓練后期冷路徑反過來超過熱路徑。

一個看上去顯然的優化方向，被一個真做實驗的人證偽了。

把Engram推到視覺(AutoArk/TinyEngram)

GitHub上一個叫AutoArk的團隊搞了Tiny Engram。

基于Qwen-3完整復現文本Engram之后，他們做了一件論文里沒做的事，把Engram搬到Stable Diffusion上。

視覺patch經過分層編碼，底層抓紋理，中層抓部件，高層抓風格，然后整套丟進哈希查表。

跟LoRA比下來，達到同等效果，Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時，LoRA會出現明顯的概念退化，Engram不會。

Engram原本是為文本設計的。AutoArk等于把這扇門撞開了，凡是能離散化、能哈希的模態，Engram都能搬。

三個月里，Engram這條路上，發明者最沉默，跟進者各自走了一步。

一個團隊替它解決多機內存層級，一個獨立研究者證偽了它一個看似顯然的優化方向，一個開源團隊把它推到了視覺。

而deepseek-ai/Engram這個倉庫，最后一次提交還停在1月14日。

One more thing

Engram論文的摘要結尾有一句話：

我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。

看來，這個下一代得是V5了，難不成會是V4.1?

[1]https://arxiv.org/pdf/2601.07372

[2]https://arxiv.org/pdf/2603.10087

[3]https://arxiv.org/pdf/2601.16531

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.