網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek發(fā)梁文鋒署名論文:給大模型裝上記憶庫，與MoE 互補達成算力效率最優(yōu)

2026-01-13 16:55:35　來源: AI先鋒官

北京舉報

分享至

日前，DeepSeek 和北京大學(xué)一起發(fā)布了 2026 年第一篇重磅論文《基于可擴展查找的條件記憶：大型語言模型稀疏性的新維度》

該論文給大模型領(lǐng)域又帶來了一個全新思路：讓模型該“記”的記，該“算”的算，別用復(fù)雜計算浪費資源做“查表”的事。

現(xiàn)在大模型的痛點是，不管是普通 dense 模型還是熱門的 MoE 模型，都有個通病——沒有專門的“記憶庫”。

比如要識別“戴安娜王妃”這個名字，模型得調(diào)動好幾層網(wǎng)絡(luò)，一步步拼湊特征，前幾層還在糾結(jié)“Wales是英國地區(qū)”“Princess是頭銜”，直到第6層才能確認(rèn)身份。

這就像有人問你公司地址，你不直接查通訊錄，反而從頭開始推理，完全是浪費精力。

DeepSeek 的解決方案很直接：給模型裝一個可快速查詢的“外接記憶庫”，也就是 Engram 模塊。

這個模塊的核心思路來自經(jīng)典的 N-gram 方法。簡單說就是，把常見的詞組、固定表達提前存在一個超大表格里，模型需要時通過哈希查找瞬間提取，速度恒定且不耗算力。

為了避免傳統(tǒng)記憶模型的缺陷，Engram 做了三個關(guān)鍵優(yōu)化：一是壓縮詞表，把 Apple、apple 這類語義相同但形式不同的詞匯合并，減少23%的冗余存儲；二是用多頭哈希解決存儲爆炸問題，不管多少詞組都能映射到固定大小的表格里；三是加了上下文感知門控，避免查找到的內(nèi)容和當(dāng)前語境不匹配，比如能區(qū)分單獨的“張”和固定人名“張仲景”。

論文最關(guān)鍵的發(fā)現(xiàn)是一條“U型曲線”。

在固定參數(shù)和算力預(yù)算下，把所有資源都給 MoE 不是最優(yōu)解，75%-80% 給 MoE 負責(zé)推理，20%-25% 給 Engram 負責(zé)記憶時，模型效果最好。全靠 MoE 會浪費算力重建靜態(tài)知識，全靠記憶又會失去推理能力，兩者互補才是王道。

實驗結(jié)果更是超出預(yù)期。270億參數(shù)的 Engram 模型，不僅在知識類任務(wù)（比如MMLU）上提升明顯，在需要深度思考的推理、代碼、數(shù)學(xué)任務(wù)上進步更顯著——BBH 推理任務(wù)提分5.0，HumanEval 代碼任務(wù)提分3.0，就連長文本理解這類難題也大幅突破。

原因很簡單。記憶模塊幫早期網(wǎng)絡(luò)省了力，讓模型能把更多資源用在復(fù)雜推理上。

更難得的是，這個記憶庫還特別“省硬件”。1000億參數(shù)的記憶表放在CPU上，推理延遲幾乎沒影響，訓(xùn)練時還能跨GPU擴展容量。

這意味著不用升級昂貴的GPU，就能讓模型性能再上一個臺階。

這篇論文的意義遠不止一個模塊的創(chuàng)新，它提出了“條件記憶”這個新方向，這和 MoE 的“條件計算”剛好形成互補。

未來，大模型可能都會具備“記憶+計算”雙系統(tǒng)。記憶模塊負責(zé)快速調(diào)取常識和固定知識，推理模塊專注解決復(fù)雜問題。

或許這就是 DeepSeek V4 架構(gòu)的核心雛形，即可能是一個融合了條件計算（MoE）、條件記憶（Engram）和穩(wěn)定訓(xùn)練（mHC）的下一代稀疏架構(gòu)。

同時，這也為大模型的高效化發(fā)展指明了新的路徑。

以下為論文的主體部分：

《基于可擴展查找的條件記憶：大型語言模型稀疏性的新維度
摘要

混合專家模型（MoE）通過條件計算實現(xiàn)了模型容量的高效擴展，已成為大型語言模型（LLM）稀疏化的主流范式。然而，Transformer架構(gòu)本質(zhì)上缺乏原生的知識檢索機制，迫使模型通過低效的神經(jīng)計算來模擬檢索過程，造成大量計算資源浪費。為解決這一問題，本文提出“條件記憶”作為與條件計算互補的新型稀疏性維度，并設(shè)計Engram模塊作為該維度的具體實現(xiàn)。Engram對經(jīng)典的N-gram嵌入進行現(xiàn)代化改造，通過確定性哈希機制實現(xiàn)常數(shù)級（O(1)）的知識查找效率，可高效存儲語言中穩(wěn)定重復(fù)的局部模式。

為優(yōu)化神經(jīng)計算與靜態(tài)記憶的資源分配，本文構(gòu)建了稀疏性分配問題的理論框架，并通過實證發(fā)現(xiàn)了一條U型縮放定律（U-shaped Scaling Law）：在固定參數(shù)總量與計算量約束下，過度偏向MoE（純計算）或過度偏向Engram（純記憶）均無法達到最優(yōu)性能，兩者的合理配比是實現(xiàn)性能突破的關(guān)鍵。基于此定律，我們將Engram模塊擴展至270億參數(shù)規(guī)模，在嚴(yán)格等參數(shù)、等計算量（FLOPs）的實驗設(shè)置下，其性能顯著優(yōu)于純MoE基準(zhǔn)模型。

實驗結(jié)果顯示，盡管Engram的設(shè)計初衷是提升知識檢索類任務(wù)性能（如MMLU提升3.4分、CMMLU提升4.0分），但在通用推理（BBH提升5.0分、ARC-Challenge提升3.7分）、代碼生成（HumanEval提升3.0分）及數(shù)學(xué)推理（MATH提升2.4分）等復(fù)雜任務(wù)上的提升更為顯著。機制分析表明，Engram通過承擔(dān)靜態(tài)模式的重建負擔(dān)，解放了Transformer主干網(wǎng)絡(luò)的早期層，等效于“加深”網(wǎng)絡(luò)以應(yīng)對復(fù)雜推理需求；同時，將局部依賴建模委托給查找操作后，注意力機制的容量被釋放，可更專注于全局上下文建模，使長上下文檢索性能大幅提升（如Multi-Query NIAH任務(wù)從84.2分提升至97.0分）。

此外，Engram具備硬件感知的效率優(yōu)化特性：其確定性尋址機制支持從主機內(nèi)存進行運行時預(yù)取，額外開銷可忽略不計。訓(xùn)練階段可通過模型并行策略將大規(guī)模嵌入表分片存儲于多個GPU，推理階段則可利用CPU內(nèi)存擴展記憶容量而不影響延遲。本文認(rèn)為，條件記憶將成為下一代稀疏語言模型不可或缺的建模原語。相關(guān)代碼與模型已開源：https://github.com/deepseek-ai/Engram

1 引言

近年來，大型語言模型的性能提升高度依賴于參數(shù)規(guī)模的擴張，但稠密模型的參數(shù)增長受限于硬件算力與內(nèi)存容量的約束。混合專家模型（MoE）通過“條件計算”范式打破了這一限制——每個輸入token僅激活少量專家網(wǎng)絡(luò)，在控制計算量（FLOPs）的同時實現(xiàn)了參數(shù)規(guī)模的指數(shù)級增長，已成為當(dāng)前大模型稀疏化的主流方案。從AI21 Labs的Jurassic-X到Google的Switch Transformer，再到DeepSeek-MoE，一系列研究均驗證了MoE在提升模型容量與性能上的有效性。

然而，MoE本質(zhì)上仍延續(xù)了Transformer的核心架構(gòu)，而Transformer架構(gòu)存在一個被長期忽視的關(guān)鍵缺陷：缺乏原生的知識檢索機制。語言建模任務(wù)可拆解為兩類本質(zhì)不同的子任務(wù)：一類是需要動態(tài)組合與邏輯推理的復(fù)雜任務(wù)（如下文語境關(guān)聯(lián)、長程依賴建模、鏈?zhǔn)酵评恚涣硪活愂强赏ㄟ^靜態(tài)模式匹配完成的簡單任務(wù)（如實體識別、固定短語理解、語法片段匹配）。對于后一類任務(wù)，理想的解決方式是“檢索式查找”，而現(xiàn)有Transformer架構(gòu)只能通過多層注意力與前饋網(wǎng)絡(luò)的迭代計算來“模擬檢索”，這一過程效率低下且浪費計算資源。

例如，為識別“戴安娜，威爾士王妃（Diana, Princess of Wales）”這一命名實體，現(xiàn)有LLM需要調(diào)動6層以上的注意力機制與前饋網(wǎng)絡(luò)，逐步組合“Diana”“Princess”“of Wales”等token的特征，才能完成實體身份的確認(rèn)。而從信息處理的本質(zhì)來看，這類靜態(tài)實體的識別完全可通過一次知識查找操作完成，無需消耗大量神經(jīng)計算資源。這種“用計算模擬檢索”的模式，不僅增加了訓(xùn)練與推理成本，還會擠占主干網(wǎng)絡(luò)的表達空間，影響復(fù)雜推理任務(wù)的性能。

針對上述問題，本文提出一個核心觀點：稀疏化不僅可服務(wù)于“計算”（如MoE的條件計算），還可服務(wù)于“記憶”。基于此，我們引入“條件記憶”作為新的稀疏性維度，與MoE的條件計算形成互補。條件記憶的核心思想是：將語言中穩(wěn)定、重復(fù)的靜態(tài)模式存儲于可擴展的記憶模塊中，通過高效查找為模型提供先驗知識，再由上下文門控機制決定是否采納該知識，實現(xiàn)“記憶-計算”的協(xié)同建模。

為實現(xiàn)條件記憶，本文設(shè)計了Engram模塊——命名源于神經(jīng)科學(xué)中的“記憶痕跡（Engram）”，指代可存儲、可檢索的記憶單元。Engram本質(zhì)上是對經(jīng)典N-gram嵌入的現(xiàn)代化改造，通過分詞器壓縮、多頭哈希、上下文感知門控三大核心優(yōu)化，解決了傳統(tǒng)記憶模型的存儲爆炸、哈希沖突、多義性干擾等關(guān)鍵問題，實現(xiàn)了可擴展、高精度的記憶檢索。

本文的主要貢獻可總結(jié)為四點：（1）提出“條件記憶”新范式，構(gòu)建了稀疏性分配的理論框架，填補了現(xiàn)有稀疏模型在記憶維度的空白；（2）設(shè)計Engram模塊作為條件記憶的實現(xiàn)載體，通過三大優(yōu)化策略實現(xiàn)了高效、可擴展的知識查找；（3）發(fā)現(xiàn)并驗證了MoE與Engram之間的U型縮放定律，為資源分配提供了量化指導(dǎo)；（4）通過大量實驗與機制分析，驗證了條件記憶在提升模型性能、優(yōu)化資源效率上的有效性，尤其在復(fù)雜推理任務(wù)上的意外突破為后續(xù)研究提供了新方向。

2 相關(guān)工作

2.1 混合專家模型與條件計算 MoE的核心思想可追溯至早期的“稀疏激活”研究，其通過將大網(wǎng)絡(luò)拆解為多個小專家網(wǎng)絡(luò)，利用門控機制為每個輸入選擇適配的專家，實現(xiàn)“參數(shù)規(guī)模擴張而計算量可控”的目標(biāo)。Shazeer等人提出的Switch Transformer首次將MoE規(guī)模擴展至萬億參數(shù)級，驗證了其在語言建模任務(wù)上的有效性；隨后，DeepSeek-MoE通過動態(tài)專家選擇策略進一步提升了參數(shù)利用率，在多個基準(zhǔn)任務(wù)上取得SOTA性能。現(xiàn)有MoE研究主要聚焦于專家結(jié)構(gòu)設(shè)計、門控機制優(yōu)化、負載均衡等方向，均屬于“條件計算”的范疇，未涉及記憶維度的稀疏化。

2.2 記憶增強型神經(jīng)網(wǎng)絡(luò) 記憶增強型神經(jīng)網(wǎng)絡(luò)（MANN）旨在通過外部記憶單元擴展模型的知識存儲能力，典型代表包括神經(jīng)圖靈機（NTM）、Differentiable Neural Computer（DNC）等。這類模型通過可微分的讀寫操作與外部記憶交互，但復(fù)雜的讀寫機制導(dǎo)致計算效率低下，難以擴展至大模型規(guī)模。近年來，部分研究嘗試將靜態(tài)嵌入與Transformer結(jié)合，如Retrieval-augmented Generation（RAG）通過檢索外部知識庫為模型提供補充信息，但RAG依賴于離線知識庫構(gòu)建，且檢索過程與模型訓(xùn)練存在脫節(jié)，難以適配動態(tài)語言場景。與現(xiàn)有工作相比，Engram的核心優(yōu)勢在于：確定性的查找機制實現(xiàn)了高效推理，上下文門控機制保證了記憶與語境的適配性，且可與MoE無縫融合實現(xiàn)端到端訓(xùn)練。

2.3 N-gram語言模型 N-gram模型是傳統(tǒng)統(tǒng)計語言模型的核心技術(shù)，通過統(tǒng)計連續(xù)N個token的共現(xiàn)概率進行文本預(yù)測，具備高效的模式匹配能力。但傳統(tǒng)N-gram模型存在兩大缺陷：一是存儲量隨N增大呈指數(shù)級增長，難以處理長序列；二是缺乏上下文適配能力，無法解決多義性問題。隨著深度學(xué)習(xí)的發(fā)展，N-gram模型逐漸被神經(jīng)網(wǎng)絡(luò)模型取代。本文的Engram模塊重拾N-gram的核心優(yōu)勢，通過分詞器壓縮、多頭哈希等優(yōu)化策略解決了其固有缺陷，實現(xiàn)了傳統(tǒng)方法與現(xiàn)代Transformer的有機融合。

3 方法

3.1 問題定義給定輸入token序列X=(x?, x?, ..., x_T)，Transformer模型通過多層編碼得到隱藏狀態(tài)序列H=(h?, h?, ..., h_T)，其中h_t∈?^d為第t個位置在某一層的隱藏狀態(tài)。本文旨在引入條件記憶模塊Engram，通過對局部上下文的檢索獲取靜態(tài)模式信息，與隱藏狀態(tài)融合后輸出增強特征h'_t，即：h'_t = Engram(h_t, X_{t-K:t})，其中X_{t-K:t}為第t個位置的局部上下文窗口（K為窗口大小）。

3.2 Engram模塊設(shè)計 Engram模塊的核心流程分為“檢索”與“融合”兩個階段，整體結(jié)構(gòu)如圖1所示（原文圖1）。檢索階段負責(zé)從記憶庫中提取與局部上下文匹配的靜態(tài)模式嵌入；融合階段通過上下文門控機制將檢索到的記憶嵌入與主干網(wǎng)絡(luò)的隱藏狀態(tài)融合，生成增強特征。

3.2.1 檢索階段：基于哈希N-gram的稀疏檢索檢索階段的核心目標(biāo)是高效獲取局部上下文對應(yīng)的靜態(tài)模式嵌入，主要通過分詞器壓縮、多頭哈希兩大優(yōu)化策略實現(xiàn)。

（1）分詞器壓縮不同形式的同一語義token（如“Apple”與“apple”、“2023”與“二零二三”）會導(dǎo)致記憶庫冗余。為解決這一問題，我們引入詞表投影層P: V→V'，通過NFKC歸一化、小寫化等文本等價性處理，將原始token ID坍縮為規(guī)范標(biāo)識符。實驗表明，該操作可使128k大小的分詞器有效詞表規(guī)模減少23%，顯著降低了記憶庫的存儲壓力。

（2）多頭哈希直接參數(shù)化所有可能的N-gram組合會導(dǎo)致存儲爆炸（如N=3時，128k詞表的組合數(shù)可達1.6e15）。本文采用基于哈希的稀疏檢索方案：為每個N-gram階數(shù)n（本文取n=2,3）分配K個不同的哈希頭，每個哈希頭通過確定性哈希函數(shù)φ?,?將壓縮后的局部上下文映射到嵌入表E?,?的索引。具體而言，對于局部上下文窗口內(nèi)的token序列(x_{t-K+1}, ..., x_t)，先通過分詞器壓縮得到規(guī)范序列(y_{t-K+1}, ..., y_t)，再對每個n∈{2,3}生成所有可能的n-gram子序列，通過K個哈希頭分別檢索得到K個嵌入向量，最后通過平均池化得到該階數(shù)的聚合嵌入e?,t。不同階數(shù)的嵌入通過拼接得到最終的檢索嵌入e_t = [e?,t; e?,t]。

多頭哈希策略可有效降低哈希沖突概率：當(dāng)單個哈希頭出現(xiàn)沖突時，其他哈希頭的檢索結(jié)果可提供互補信息，通過平均池化削弱沖突帶來的噪聲干擾。實驗驗證，當(dāng)K=4時，哈希沖突率可降低至0.3%以下，滿足實際應(yīng)用需求。

3.2.2 融合階段：上下文感知門控機制檢索得到的嵌入e_t是上下文無關(guān)的靜態(tài)先驗信息，可能存在多義性干擾（如“張”既可能是姓氏，也可能是動詞）。為解決這一問題，本文設(shè)計了上下文感知門控機制，利用主干網(wǎng)絡(luò)的隱藏狀態(tài)h_t動態(tài)調(diào)節(jié)記憶嵌入的權(quán)重。

具體而言，將隱藏狀態(tài)h_t作為Query，記憶嵌入e_t分別通過可學(xué)習(xí)矩陣W_K、W_V投影為Key和Value，通過注意力打分計算門控權(quán)重α_t：α_t = σ(RMSNorm(h_t)·W_K·RMSNorm(e_t)^T)，其中σ為sigmoid函數(shù)，RMSNorm為Root Mean Square Normalization，用于保證梯度穩(wěn)定性。最終的增強特征h'_t通過門控加權(quán)得到：h'_t = h_t + α_t · (e_t · W_V)。

門控機制的核心作用是實現(xiàn)“條件記憶激活”：當(dāng)局部上下文存在穩(wěn)定靜態(tài)模式（如命名實體、固定短語）時，α_t趨近于1，記憶嵌入被充分利用；當(dāng)局部上下文為動態(tài)語義組合時，α_t趨近于0，模型主要依賴主干網(wǎng)絡(luò)的計算結(jié)果。可視化實驗表明，Engram的門控機制在多語言場景下均具備良好的選擇性：在英文中，對“Alexander the Great”“the Milky Way”等命名實體和固定短語激活強烈；在中文中，可精準(zhǔn)識別“四大發(fā)明”“張仲景”等習(xí)語與歷史實體。

3.3 稀疏性分配與U型縮放定律 Engram與MoE分別代表稀疏性的兩個維度（條件記憶與條件計算），如何在有限的參數(shù)與算力預(yù)算下優(yōu)化兩者的資源分配，是提升模型性能的關(guān)鍵。本文通過定義三個核心參數(shù)指標(biāo)構(gòu)建稀疏性分配框架：（1）P_tot：總可訓(xùn)練參數(shù)（不含詞表嵌入與語言模型頭）；（2）P_act：每個token的激活參數(shù)（決定訓(xùn)練與推理的計算量）；（3）P_sparse = P_tot - P_act：非激活參數(shù)（即稀疏參數(shù)，MoE的未激活專家與Engram的記憶表均屬于此類）。

在固定P_tot與P_act的約束下，我們通過改變Engram記憶表參數(shù)占比（從0%到100%）進行實證研究，發(fā)現(xiàn)模型性能隨記憶占比呈現(xiàn)明顯的U型曲線：當(dāng)記憶占比為0%（純MoE）或100%（純記憶）時，性能處于低谷；當(dāng)記憶占比為20%-25%、MoE占比為75%-80%時，性能達到最優(yōu)。這一U型縮放定律揭示了靜態(tài)記憶與動態(tài)計算的互補關(guān)系：純MoE會浪費算力重建靜態(tài)知識，純記憶則缺乏動態(tài)推理能力，兩者的合理配比可實現(xiàn)資源利用效率的最大化。

3.4 硬件感知的效率優(yōu)化為解決大規(guī)模記憶表的存儲與訪問效率問題，Engram設(shè)計了硬件友好的實現(xiàn)方案：（1）訓(xùn)練階段，采用模型并行策略將記憶表分片存儲于多個GPU，通過哈希路由保證同一N-gram的檢索請求指向同一GPU，避免跨設(shè)備通信開銷；（2）推理階段，利用確定性尋址的可預(yù)測性，將大規(guī)模記憶表存儲于CPU內(nèi)存，通過運行時預(yù)取機制將所需記憶條目提前加載至GPU緩存，額外延遲可忽略不計（實驗測得延遲增加小于0.5%）。這一設(shè)計使模型可在不升級GPU硬件的前提下，通過擴展CPU內(nèi)存提升記憶容量，顯著降低了部署成本。

4 實驗

4.1 實驗設(shè)置本文以DeepSeek-MoE為基準(zhǔn)模型，構(gòu)建了不同參數(shù)規(guī)模的Engram模型（13B、27B、67B），所有模型均采用相同的訓(xùn)練數(shù)據(jù)（1.4萬億token的多語言語料）、訓(xùn)練步數(shù)（1.2M步）與優(yōu)化器配置（AdamW，學(xué)習(xí)率2e-4）。實驗任務(wù)涵蓋五大類：知識檢索（MMLU、CMMLU）、通用推理（BBH、ARC-Challenge）、代碼生成（HumanEval）、數(shù)學(xué)推理（MATH）、長上下文檢索（Multi-Query NIAH）。評估指標(biāo)采用標(biāo)準(zhǔn)準(zhǔn)確率（Accuracy）或通過率（Pass@1）。

4.2 主要結(jié)果表1（原文表1）展示了27B參數(shù)模型在各任務(wù)上的性能對比：Engram模型在所有任務(wù)上均顯著優(yōu)于純MoE基準(zhǔn)模型，其中BBH任務(wù)提升5.0分，ARC-Challenge提升3.7分，Multi-Query NIAH提升12.8分，表現(xiàn)最為突出。值得注意的是，盡管Engram的設(shè)計初衷是優(yōu)化知識檢索任務(wù)，但在復(fù)雜推理任務(wù)上的提升幅度更大，這驗證了“記憶解放計算”的核心假設(shè)。

參數(shù)規(guī)模縮放實驗表明（原文圖2），隨著參數(shù)總量增加，Engram與純MoE的性能差距逐漸擴大：67B Engram模型在MMLU任務(wù)上達到68.7分，較同規(guī)模MoE提升4.2分；在MATH任務(wù)上達到42.3分，提升2.8分。這一結(jié)果說明，條件記憶的優(yōu)勢在大規(guī)模模型上更為顯著，為超大模型的稀疏化設(shè)計提供了新方向。

稀疏性分配實驗驗證了U型縮放定律的有效性（原文圖3）：27B模型在記憶占比22%、MoE占比78%時，綜合性能達到最優(yōu)（平均得分提升4.5分）；當(dāng)記憶占比低于10%或高于40%時，性能均出現(xiàn)明顯下降。這一結(jié)論為不同任務(wù)場景下的資源分配提供了量化指導(dǎo)（如知識密集型任務(wù)可適當(dāng)提高記憶占比至25%，推理密集型任務(wù)可維持20%左右）。

4.3 消融實驗為驗證各核心組件的作用，本文進行了消融實驗：（1）移除分詞器壓縮：詞表冗余增加23%，MMLU性能下降1.8分；（2）移除多頭哈希：哈希沖突率提升至8.3%，CMMLU性能下降2.1分；（3）移除上下文門控：多義性干擾增加，BBH性能下降3.5分；（4）關(guān)閉CPU內(nèi)存擴展：記憶容量受限，長上下文任務(wù)性能下降9.6分。消融實驗結(jié)果表明，三大核心優(yōu)化策略與硬件感知設(shè)計均對模型性能有重要貢獻，缺一不可。

4.4 效率分析訓(xùn)練效率方面，Engram模型的每步訓(xùn)練時間與純MoE基本持平（27B模型每步訓(xùn)練時間增加0.8%），這得益于模型并行策略的優(yōu)化；推理效率方面，Engram模型在CPU內(nèi)存擴展模式下，吞吐量較純MoE提升12%（相同GPU配置下），因為記憶查找的計算開銷遠低于神經(jīng)計算。這一結(jié)果證明，Engram在提升性能的同時，未犧牲效率，具備實際部署價值。

5 機制分析

為探究Engram提升模型性能的內(nèi)在機制，本文從網(wǎng)絡(luò)激活、注意力分布、層功能分化三個維度進行分析。

網(wǎng)絡(luò)激活分析表明，Engram模型的主干網(wǎng)絡(luò)早期層（1-4層）激活強度較純MoE降低35%，而中晚期層（5-12層）激活強度提升28%。這說明Engram承擔(dān)了早期層的靜態(tài)模式重建任務(wù)，使主干網(wǎng)絡(luò)可將更多資源投入到中晚期的復(fù)雜推理中，等效于“加深”了網(wǎng)絡(luò)的有效推理深度。

注意力分布可視化顯示（原文圖4），Engram模型的注意力權(quán)重更集中于長程依賴關(guān)系（跨句、跨段落的語義關(guān)聯(lián)），而純MoE模型的注意力權(quán)重大量分布于局部token對（如相鄰詞的搭配）。這驗證了“記憶釋放注意力容量”的假設(shè)：Engram通過查找處理局部依賴后，注意力機制可更專注于全局上下文建模，從而提升長文本理解能力。

層功能分化實驗表明，Engram模型的各層功能定位更清晰：早期層主要負責(zé)語義編碼的初始化，中晚期層則專注于邏輯推理與上下文整合；而純MoE模型的各層功能存在大量重疊，導(dǎo)致資源浪費。這一功能分化使模型的計算效率與推理精度同時提升。

6 結(jié)論與未來工作

本文提出“條件記憶”作為大型語言模型稀疏化的新維度，通過Engram模塊實現(xiàn)了高效的知識查找與上下文融合，與MoE的條件計算形成互補。實驗驗證了U型縮放定律的有效性，證明20%-25%的記憶參數(shù)與75%-80%的計算參數(shù)配比可實現(xiàn)最優(yōu)性能。Engram不僅提升了知識檢索任務(wù)的效率，還在復(fù)雜推理、長上下文理解等任務(wù)上取得顯著突破，其硬件感知設(shè)計降低了部署成本。

未來工作可從三個方向展開：（1）動態(tài)調(diào)整記憶窗口大小與N-gram階數(shù)，適配不同類型的輸入文本；（2）引入動態(tài)記憶更新機制，使記憶庫可學(xué)習(xí)新的語言模式，提升模型的泛化能力；（3）將條件記憶范式擴展至多模態(tài)語言模型，實現(xiàn)圖像、語音等模態(tài)的靜態(tài)特征檢索與動態(tài)融合。

論文地址：https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

參考文獻（節(jié)選

[1] Shazeer, N., Mirhoseini, M., Maziarz, K., et al. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. TACL, 2020.

[2] Fedus, W., Zoph, B., Borgeaud, S., et al. Switch transformers are scalable and efficient for language modeling. NeurIPS, 2021.

[3] DeepSeek Team. DeepSeek-MoE: Scaling mixture-of-experts language models with dynamic routing. arXiv preprint arXiv:2401.04088, 2024.

[4] Graves, A., Wayne, G., Danihelka, I. Neural turing machines. NeurIPS, 2014.

[5] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.