henry 發自 凹非寺
量子位 | 公眾號 QbitAI
DeepSeekV4的技術報告里有mHC,有CSA,有HCA,有Muon,有FP4……
唯獨沒有Engram。
Engram去哪了?
這個話題一度成為網友們討論的熱點。
Engram在今年1月由DeepSeek和北大聯合開源,主要研究大模型的記憶與效率問題。
自掛上arXiv的那一刻起,圈子里圍繞它的探討就沒有停止過…
![]()
不僅僅因為它是V4的前奏,而是有了Engram,「倫敦是英國首都」這種事實,模型不用動用整個深層網絡去重新推一遍,直接查就行。
不僅省顯存,還能釋放深層網絡容量,用于更高階的推理。
正因如此,自1月初論文發表以來,所有人都覺得,Engram就是V4的架構地基,所有人都在盼。
以至于V4發表后,大家第一時間就是command+f去論文里找Engram,可惜并沒有。
![]()
以至于不少網友甚至覺得,沒有Engram,V4就是不完整的。
![]()
沒有Engram,可能是DeepSeekV4最大的遺憾。
不過,Engram并沒有消失。隨后三篇值得注意的論文接力出現:
- CXL內存池化版本:把Engram放進多機共享的CXL內存池,解決大模型多機部署的存儲問題。
- 無沖突熱層實驗:對Engram的多頭哈希優化進行了實證檢驗,證偽了一些直覺式改進方案。
- 視覺Tiny Engram:AutoArk團隊把文本Engram搬到視覺模態,擴展了它的應用邊界。
所以,雖然V4沒有Engram,但它的理念、探索和后續應用已經悄然鋪開,為下一代模型打下基礎。
Engram到底是什么
把時間倒回2026年1月12日。
那一天,DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經署名過V3。最后一位作者,梁文鋒。
![]()
先來一句話速通版,Engram是給Transformer加的一個原生知識查表模塊。能查的別算,先查一下。
團隊的核心觀察是,語言建模其實包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種是檢索靜態知識。
之前的問題在于,Transformer把這兩件事混在一起做。模型識別一個實體時,得消耗好幾層注意力和前饋網絡逐層拼湊特征。
論文里舉了個例子,「Diana,Princess of Wales」。模型要走6層才能把這個識別完。
前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態,最后一層才反應過來這是戴安娜王妃。
這種「用昂貴的運行時計算重建一個靜態查找表」的活,本來可以讓深層網絡去干更高階的推理。
對此,Engram的思路相當直接,既然經典的N-gram模型就能用O(1)的時間復雜度捕獲這些局部依賴,那干脆把這能力直接嵌進Transformer。
打個比方,就像你做數學題,該用的公式不必每次從頭推一遍,翻表代進去就行。Transformer之前沒這張表,只能每道題都從公理走起。Engram等于把這張表交到模型手里。
具體做法是,在Transformer的第2層和第15層之間各插入一個Engram模塊。
每個位置的輸入會觸發一次哈希查找,把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表里,直接取出對應的向量。
門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏,但「張仲景」三個字湊一起就是固定歷史人物實體了,門控就負責認出這種區別。
Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化,只激活一部分專家。Engram是把存儲稀疏化,只查一部分條目。兩者互補,不沖突。
![]()
論文最核心的一段實驗,是固定總參數和每token激活參數,然后讓MoE專家和Engram記憶搶預算,得到一條U形曲線。
![]()
純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram,模型loss達到最低點。
按這個曲線指導,團隊把Engram擴到27B驗證。激活參數3.8B,訓練262B tokens,嚴格跟MoE-27B基線對齊。
結果知識密集型任務的提升符合預期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數學的提升超出預期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長上下文場景更夸張,Multi-Query NIAH從84.2%躍升到97.0%。
![]()
那么,為什么記憶模塊還能反過來提升推理?
LogitLens和CKA給出了答案,Engram-27B第5層的表征,跟MoE基線第12層的表征最相似。
Engram把模型的早期層從「重建靜態知識」這種苦力活里解放出來,這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶,它還變相把網絡加深了。
![]()
工程上。論文把一個1000億參數的Engram表整個甩到host DRAM,在H800上跑推理,8B-Dense的吞吐損失只有2.8%。
靠的是Engram索引的確定性,只取決于輸入token序列,完全可以提前算,CPU異步預取跟GPU計算重疊。
可以說,這個模塊天生就不靠HBM,只可惜如今V4來了,Engram沒來。
沒在v4,但在其他地方
發明者把它放在那里沒動,但路上還是有人。三個月里,至少出現了三個值得說一下的工作。
把Engram塞進CXL內存池
3月10日,北大、阿里云、山東英信、人大、港大聯合發了一篇系統論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。
![]()
他們沒改Engram本身,而是回答了一個更工程的問題,如果Engram真的成了下一代標配,內存放哪。
答案是CXL內存池化。GPU HBM放計算權重,本地DRAM做二級緩存,CXL池做三級。8臺服務器共享4TB內存池,XConn XC50256交換芯片做拓撲,512GB/s帶寬。
整套集成進SGLang,做了預取-計算重疊,跑下來端到端吞吐損失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫,被他們做成了27B和40B兩個規模的真實測試。
結論很清楚,Engram這種確定性尋址、可預取的負載,幾乎是為CXL量身定做的。
一個反直覺的實驗
Engram論文上線第十一天,1月23日,一個叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。
![]()
他想驗證一個看上去顯然的優化,Engram用多頭哈希查表會有沖突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突,模型會不會更好。
他設計了Engram-Nine,把記憶分成無沖突的「熱層」和保留多頭哈希的「冷層」。
結果反直覺。在嚴格iso-parameter控制下,無沖突設計沒有穩定提升驗證loss。
route-stratified評估還發現,訓練初期熱路徑(高頻)loss更低,但訓練后期冷路徑反過來超過熱路徑。
一個看上去顯然的優化方向,被一個真做實驗的人證偽了。
把Engram推到視覺(AutoArk/TinyEngram)
GitHub上一個叫AutoArk的團隊搞了Tiny Engram。
![]()
基于Qwen-3完整復現文本Engram之后,他們做了一件論文里沒做的事,把Engram搬到Stable Diffusion上。
視覺patch經過分層編碼,底層抓紋理,中層抓部件,高層抓風格,然后整套丟進哈希查表。
跟LoRA比下來,達到同等效果,Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時,LoRA會出現明顯的概念退化,Engram不會。
Engram原本是為文本設計的。AutoArk等于把這扇門撞開了,凡是能離散化、能哈希的模態,Engram都能搬。
三個月里,Engram這條路上,發明者最沉默,跟進者各自走了一步。
一個團隊替它解決多機內存層級,一個獨立研究者證偽了它一個看似顯然的優化方向,一個開源團隊把它推到了視覺。
![]()
而deepseek-ai/Engram這個倉庫,最后一次提交還停在1月14日。
One more thing
Engram論文的摘要結尾有一句話:
我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。
![]()
看來,這個下一代得是V5了,難不成會是V4.1?
[1]https://arxiv.org/pdf/2601.07372
[2]https://arxiv.org/pdf/2603.10087
[3]https://arxiv.org/pdf/2601.16531
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.