<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek發(fā)梁文鋒署名論文:給大模型裝上記憶庫,與MoE 互補達成算力效率最優(yōu)

      0
      分享至

      日前,DeepSeek 和北京大學(xué)一起發(fā)布了 2026 年第一篇重磅論文《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度》

      該論文給大模型領(lǐng)域又帶來了一個全新思路:讓模型該“記”的記,該“算”的算,別用復(fù)雜計算浪費資源做“查表”的事。

      現(xiàn)在大模型的痛點是,不管是普通 dense 模型還是熱門的 MoE 模型,都有個通病——沒有專門的“記憶庫”。

      比如要識別“戴安娜王妃”這個名字,模型得調(diào)動好幾層網(wǎng)絡(luò),一步步拼湊特征,前幾層還在糾結(jié)“Wales是英國地區(qū)”“Princess是頭銜”,直到第6層才能確認(rèn)身份。

      這就像有人問你公司地址,你不直接查通訊錄,反而從頭開始推理,完全是浪費精力。

      DeepSeek 的解決方案很直接:給模型裝一個可快速查詢的“外接記憶庫”,也就是 Engram 模塊。

      這個模塊的核心思路來自經(jīng)典的 N-gram 方法。簡單說就是,把常見的詞組、固定表達提前存在一個超大表格里,模型需要時通過哈希查找瞬間提取,速度恒定且不耗算力。

      為了避免傳統(tǒng)記憶模型的缺陷,Engram 做了三個關(guān)鍵優(yōu)化:一是壓縮詞表,把 Apple、apple 這類語義相同但形式不同的詞匯合并,減少23%的冗余存儲;二是用多頭哈希解決存儲爆炸問題,不管多少詞組都能映射到固定大小的表格里;三是加了上下文感知門控,避免查找到的內(nèi)容和當(dāng)前語境不匹配,比如能區(qū)分單獨的“張”和固定人名“張仲景”。

      論文最關(guān)鍵的發(fā)現(xiàn)是一條“U型曲線”。

      在固定參數(shù)和算力預(yù)算下,把所有資源都給 MoE 不是最優(yōu)解,75%-80% 給 MoE 負責(zé)推理,20%-25% 給 Engram 負責(zé)記憶時,模型效果最好。全靠 MoE 會浪費算力重建靜態(tài)知識,全靠記憶又會失去推理能力,兩者互補才是王道。

      實驗結(jié)果更是超出預(yù)期。270億參數(shù)的 Engram 模型,不僅在知識類任務(wù)(比如MMLU)上提升明顯,在需要深度思考的推理、代碼、數(shù)學(xué)任務(wù)上進步更顯著——BBH 推理任務(wù)提分5.0,HumanEval 代碼任務(wù)提分3.0,就連長文本理解這類難題也大幅突破。

      原因很簡單。記憶模塊幫早期網(wǎng)絡(luò)省了力,讓模型能把更多資源用在復(fù)雜推理上。

      更難得的是,這個記憶庫還特別“省硬件”。1000億參數(shù)的記憶表放在CPU上,推理延遲幾乎沒影響,訓(xùn)練時還能跨GPU擴展容量。

      這意味著不用升級昂貴的GPU,就能讓模型性能再上一個臺階。

      這篇論文的意義遠不止一個模塊的創(chuàng)新,它提出了“條件記憶”這個新方向,這和 MoE 的“條件計算”剛好形成互補。

      未來,大模型可能都會具備“記憶+計算”雙系統(tǒng)。記憶模塊負責(zé)快速調(diào)取常識和固定知識,推理模塊專注解決復(fù)雜問題。

      或許這就是 DeepSeek V4 架構(gòu)的核心雛形,即可能是一個融合了條件計算(MoE)、條件記憶(Engram)和穩(wěn)定訓(xùn)練(mHC)的下一代稀疏架構(gòu)。

      同時,這也為大模型的高效化發(fā)展指明了新的路徑。

      以下為論文的主體部分:

      《基于可擴展查找的條件記憶:大型語言模型稀疏性的新維度
      摘要

      混合專家模型(MoE)通過條件計算實現(xiàn)了模型容量的高效擴展,已成為大型語言模型(LLM)稀疏化的主流范式。然而,Transformer架構(gòu)本質(zhì)上缺乏原生的知識檢索機制,迫使模型通過低效的神經(jīng)計算來模擬檢索過程,造成大量計算資源浪費。為解決這一問題,本文提出“條件記憶”作為與條件計算互補的新型稀疏性維度,并設(shè)計Engram模塊作為該維度的具體實現(xiàn)。Engram對經(jīng)典的N-gram嵌入進行現(xiàn)代化改造,通過確定性哈希機制實現(xiàn)常數(shù)級(O(1))的知識查找效率,可高效存儲語言中穩(wěn)定重復(fù)的局部模式。

      為優(yōu)化神經(jīng)計算與靜態(tài)記憶的資源分配,本文構(gòu)建了稀疏性分配問題的理論框架,并通過實證發(fā)現(xiàn)了一條U型縮放定律(U-shaped Scaling Law):在固定參數(shù)總量與計算量約束下,過度偏向MoE(純計算)或過度偏向Engram(純記憶)均無法達到最優(yōu)性能,兩者的合理配比是實現(xiàn)性能突破的關(guān)鍵。基于此定律,我們將Engram模塊擴展至270億參數(shù)規(guī)模,在嚴(yán)格等參數(shù)、等計算量(FLOPs)的實驗設(shè)置下,其性能顯著優(yōu)于純MoE基準(zhǔn)模型。

      實驗結(jié)果顯示,盡管Engram的設(shè)計初衷是提升知識檢索類任務(wù)性能(如MMLU提升3.4分、CMMLU提升4.0分),但在通用推理(BBH提升5.0分、ARC-Challenge提升3.7分)、代碼生成(HumanEval提升3.0分)及數(shù)學(xué)推理(MATH提升2.4分)等復(fù)雜任務(wù)上的提升更為顯著。機制分析表明,Engram通過承擔(dān)靜態(tài)模式的重建負擔(dān),解放了Transformer主干網(wǎng)絡(luò)的早期層,等效于“加深”網(wǎng)絡(luò)以應(yīng)對復(fù)雜推理需求;同時,將局部依賴建模委托給查找操作后,注意力機制的容量被釋放,可更專注于全局上下文建模,使長上下文檢索性能大幅提升(如Multi-Query NIAH任務(wù)從84.2分提升至97.0分)。

      此外,Engram具備硬件感知的效率優(yōu)化特性:其確定性尋址機制支持從主機內(nèi)存進行運行時預(yù)取,額外開銷可忽略不計。訓(xùn)練階段可通過模型并行策略將大規(guī)模嵌入表分片存儲于多個GPU,推理階段則可利用CPU內(nèi)存擴展記憶容量而不影響延遲。本文認(rèn)為,條件記憶將成為下一代稀疏語言模型不可或缺的建模原語。相關(guān)代碼與模型已開源:https://github.com/deepseek-ai/Engram

      1 引言

      近年來,大型語言模型的性能提升高度依賴于參數(shù)規(guī)模的擴張,但稠密模型的參數(shù)增長受限于硬件算力與內(nèi)存容量的約束。混合專家模型(MoE)通過“條件計算”范式打破了這一限制——每個輸入token僅激活少量專家網(wǎng)絡(luò),在控制計算量(FLOPs)的同時實現(xiàn)了參數(shù)規(guī)模的指數(shù)級增長,已成為當(dāng)前大模型稀疏化的主流方案。從AI21 Labs的Jurassic-X到Google的Switch Transformer,再到DeepSeek-MoE,一系列研究均驗證了MoE在提升模型容量與性能上的有效性。

      然而,MoE本質(zhì)上仍延續(xù)了Transformer的核心架構(gòu),而Transformer架構(gòu)存在一個被長期忽視的關(guān)鍵缺陷:缺乏原生的知識檢索機制。語言建模任務(wù)可拆解為兩類本質(zhì)不同的子任務(wù):一類是需要動態(tài)組合與邏輯推理的復(fù)雜任務(wù)(如下文語境關(guān)聯(lián)、長程依賴建模、鏈?zhǔn)酵评恚涣硪活愂强赏ㄟ^靜態(tài)模式匹配完成的簡單任務(wù)(如實體識別、固定短語理解、語法片段匹配)。對于后一類任務(wù),理想的解決方式是“檢索式查找”,而現(xiàn)有Transformer架構(gòu)只能通過多層注意力與前饋網(wǎng)絡(luò)的迭代計算來“模擬檢索”,這一過程效率低下且浪費計算資源。

      例如,為識別“戴安娜,威爾士王妃(Diana, Princess of Wales)”這一命名實體,現(xiàn)有LLM需要調(diào)動6層以上的注意力機制與前饋網(wǎng)絡(luò),逐步組合“Diana”“Princess”“of Wales”等token的特征,才能完成實體身份的確認(rèn)。而從信息處理的本質(zhì)來看,這類靜態(tài)實體的識別完全可通過一次知識查找操作完成,無需消耗大量神經(jīng)計算資源。這種“用計算模擬檢索”的模式,不僅增加了訓(xùn)練與推理成本,還會擠占主干網(wǎng)絡(luò)的表達空間,影響復(fù)雜推理任務(wù)的性能。

      針對上述問題,本文提出一個核心觀點:稀疏化不僅可服務(wù)于“計算”(如MoE的條件計算),還可服務(wù)于“記憶”。基于此,我們引入“條件記憶”作為新的稀疏性維度,與MoE的條件計算形成互補。條件記憶的核心思想是:將語言中穩(wěn)定、重復(fù)的靜態(tài)模式存儲于可擴展的記憶模塊中,通過高效查找為模型提供先驗知識,再由上下文門控機制決定是否采納該知識,實現(xiàn)“記憶-計算”的協(xié)同建模。

      為實現(xiàn)條件記憶,本文設(shè)計了Engram模塊——命名源于神經(jīng)科學(xué)中的“記憶痕跡(Engram)”,指代可存儲、可檢索的記憶單元。Engram本質(zhì)上是對經(jīng)典N-gram嵌入的現(xiàn)代化改造,通過分詞器壓縮、多頭哈希、上下文感知門控三大核心優(yōu)化,解決了傳統(tǒng)記憶模型的存儲爆炸、哈希沖突、多義性干擾等關(guān)鍵問題,實現(xiàn)了可擴展、高精度的記憶檢索。

      本文的主要貢獻可總結(jié)為四點:(1)提出“條件記憶”新范式,構(gòu)建了稀疏性分配的理論框架,填補了現(xiàn)有稀疏模型在記憶維度的空白;(2)設(shè)計Engram模塊作為條件記憶的實現(xiàn)載體,通過三大優(yōu)化策略實現(xiàn)了高效、可擴展的知識查找;(3)發(fā)現(xiàn)并驗證了MoE與Engram之間的U型縮放定律,為資源分配提供了量化指導(dǎo);(4)通過大量實驗與機制分析,驗證了條件記憶在提升模型性能、優(yōu)化資源效率上的有效性,尤其在復(fù)雜推理任務(wù)上的意外突破為后續(xù)研究提供了新方向。


      2 相關(guān)工作

      2.1 混合專家模型與條件計算 MoE的核心思想可追溯至早期的“稀疏激活”研究,其通過將大網(wǎng)絡(luò)拆解為多個小專家網(wǎng)絡(luò),利用門控機制為每個輸入選擇適配的專家,實現(xiàn)“參數(shù)規(guī)模擴張而計算量可控”的目標(biāo)。Shazeer等人提出的Switch Transformer首次將MoE規(guī)模擴展至萬億參數(shù)級,驗證了其在語言建模任務(wù)上的有效性;隨后,DeepSeek-MoE通過動態(tài)專家選擇策略進一步提升了參數(shù)利用率,在多個基準(zhǔn)任務(wù)上取得SOTA性能。現(xiàn)有MoE研究主要聚焦于專家結(jié)構(gòu)設(shè)計、門控機制優(yōu)化、負載均衡等方向,均屬于“條件計算”的范疇,未涉及記憶維度的稀疏化。

      2.2 記憶增強型神經(jīng)網(wǎng)絡(luò) 記憶增強型神經(jīng)網(wǎng)絡(luò)(MANN)旨在通過外部記憶單元擴展模型的知識存儲能力,典型代表包括神經(jīng)圖靈機(NTM)、Differentiable Neural Computer(DNC)等。這類模型通過可微分的讀寫操作與外部記憶交互,但復(fù)雜的讀寫機制導(dǎo)致計算效率低下,難以擴展至大模型規(guī)模。近年來,部分研究嘗試將靜態(tài)嵌入與Transformer結(jié)合,如Retrieval-augmented Generation(RAG)通過檢索外部知識庫為模型提供補充信息,但RAG依賴于離線知識庫構(gòu)建,且檢索過程與模型訓(xùn)練存在脫節(jié),難以適配動態(tài)語言場景。與現(xiàn)有工作相比,Engram的核心優(yōu)勢在于:確定性的查找機制實現(xiàn)了高效推理,上下文門控機制保證了記憶與語境的適配性,且可與MoE無縫融合實現(xiàn)端到端訓(xùn)練。

      2.3 N-gram語言模型 N-gram模型是傳統(tǒng)統(tǒng)計語言模型的核心技術(shù),通過統(tǒng)計連續(xù)N個token的共現(xiàn)概率進行文本預(yù)測,具備高效的模式匹配能力。但傳統(tǒng)N-gram模型存在兩大缺陷:一是存儲量隨N增大呈指數(shù)級增長,難以處理長序列;二是缺乏上下文適配能力,無法解決多義性問題。隨著深度學(xué)習(xí)的發(fā)展,N-gram模型逐漸被神經(jīng)網(wǎng)絡(luò)模型取代。本文的Engram模塊重拾N-gram的核心優(yōu)勢,通過分詞器壓縮、多頭哈希等優(yōu)化策略解決了其固有缺陷,實現(xiàn)了傳統(tǒng)方法與現(xiàn)代Transformer的有機融合。


      3 方法

      3.1 問題定義 給定輸入token序列X=(x?, x?, ..., x_T),Transformer模型通過多層編碼得到隱藏狀態(tài)序列H=(h?, h?, ..., h_T),其中h_t∈?^d為第t個位置在某一層的隱藏狀態(tài)。本文旨在引入條件記憶模塊Engram,通過對局部上下文的檢索獲取靜態(tài)模式信息,與隱藏狀態(tài)融合后輸出增強特征h'_t,即:h'_t = Engram(h_t, X_{t-K:t}),其中X_{t-K:t}為第t個位置的局部上下文窗口(K為窗口大小)。

      3.2 Engram模塊設(shè)計 Engram模塊的核心流程分為“檢索”與“融合”兩個階段,整體結(jié)構(gòu)如圖1所示(原文圖1)。檢索階段負責(zé)從記憶庫中提取與局部上下文匹配的靜態(tài)模式嵌入;融合階段通過上下文門控機制將檢索到的記憶嵌入與主干網(wǎng)絡(luò)的隱藏狀態(tài)融合,生成增強特征。

      3.2.1 檢索階段:基于哈希N-gram的稀疏檢索 檢索階段的核心目標(biāo)是高效獲取局部上下文對應(yīng)的靜態(tài)模式嵌入,主要通過分詞器壓縮、多頭哈希兩大優(yōu)化策略實現(xiàn)。

      (1)分詞器壓縮 不同形式的同一語義token(如“Apple”與“apple”、“2023”與“二零二三”)會導(dǎo)致記憶庫冗余。為解決這一問題,我們引入詞表投影層P: V→V',通過NFKC歸一化、小寫化等文本等價性處理,將原始token ID坍縮為規(guī)范標(biāo)識符。實驗表明,該操作可使128k大小的分詞器有效詞表規(guī)模減少23%,顯著降低了記憶庫的存儲壓力。

      (2)多頭哈希 直接參數(shù)化所有可能的N-gram組合會導(dǎo)致存儲爆炸(如N=3時,128k詞表的組合數(shù)可達1.6e15)。本文采用基于哈希的稀疏檢索方案:為每個N-gram階數(shù)n(本文取n=2,3)分配K個不同的哈希頭,每個哈希頭通過確定性哈希函數(shù)φ?,?將壓縮后的局部上下文映射到嵌入表E?,?的索引。具體而言,對于局部上下文窗口內(nèi)的token序列(x_{t-K+1}, ..., x_t),先通過分詞器壓縮得到規(guī)范序列(y_{t-K+1}, ..., y_t),再對每個n∈{2,3}生成所有可能的n-gram子序列,通過K個哈希頭分別檢索得到K個嵌入向量,最后通過平均池化得到該階數(shù)的聚合嵌入e?,t。不同階數(shù)的嵌入通過拼接得到最終的檢索嵌入e_t = [e?,t; e?,t]。

      多頭哈希策略可有效降低哈希沖突概率:當(dāng)單個哈希頭出現(xiàn)沖突時,其他哈希頭的檢索結(jié)果可提供互補信息,通過平均池化削弱沖突帶來的噪聲干擾。實驗驗證,當(dāng)K=4時,哈希沖突率可降低至0.3%以下,滿足實際應(yīng)用需求。

      3.2.2 融合階段:上下文感知門控機制 檢索得到的嵌入e_t是上下文無關(guān)的靜態(tài)先驗信息,可能存在多義性干擾(如“張”既可能是姓氏,也可能是動詞)。為解決這一問題,本文設(shè)計了上下文感知門控機制,利用主干網(wǎng)絡(luò)的隱藏狀態(tài)h_t動態(tài)調(diào)節(jié)記憶嵌入的權(quán)重。

      具體而言,將隱藏狀態(tài)h_t作為Query,記憶嵌入e_t分別通過可學(xué)習(xí)矩陣W_K、W_V投影為Key和Value,通過注意力打分計算門控權(quán)重α_t:α_t = σ(RMSNorm(h_t)·W_K·RMSNorm(e_t)^T),其中σ為sigmoid函數(shù),RMSNorm為Root Mean Square Normalization,用于保證梯度穩(wěn)定性。最終的增強特征h'_t通過門控加權(quán)得到:h'_t = h_t + α_t · (e_t · W_V)。

      門控機制的核心作用是實現(xiàn)“條件記憶激活”:當(dāng)局部上下文存在穩(wěn)定靜態(tài)模式(如命名實體、固定短語)時,α_t趨近于1,記憶嵌入被充分利用;當(dāng)局部上下文為動態(tài)語義組合時,α_t趨近于0,模型主要依賴主干網(wǎng)絡(luò)的計算結(jié)果。可視化實驗表明,Engram的門控機制在多語言場景下均具備良好的選擇性:在英文中,對“Alexander the Great”“the Milky Way”等命名實體和固定短語激活強烈;在中文中,可精準(zhǔn)識別“四大發(fā)明”“張仲景”等習(xí)語與歷史實體。

      3.3 稀疏性分配與U型縮放定律 Engram與MoE分別代表稀疏性的兩個維度(條件記憶與條件計算),如何在有限的參數(shù)與算力預(yù)算下優(yōu)化兩者的資源分配,是提升模型性能的關(guān)鍵。本文通過定義三個核心參數(shù)指標(biāo)構(gòu)建稀疏性分配框架:(1)P_tot:總可訓(xùn)練參數(shù)(不含詞表嵌入與語言模型頭);(2)P_act:每個token的激活參數(shù)(決定訓(xùn)練與推理的計算量);(3)P_sparse = P_tot - P_act:非激活參數(shù)(即稀疏參數(shù),MoE的未激活專家與Engram的記憶表均屬于此類)。

      在固定P_tot與P_act的約束下,我們通過改變Engram記憶表參數(shù)占比(從0%到100%)進行實證研究,發(fā)現(xiàn)模型性能隨記憶占比呈現(xiàn)明顯的U型曲線:當(dāng)記憶占比為0%(純MoE)或100%(純記憶)時,性能處于低谷;當(dāng)記憶占比為20%-25%、MoE占比為75%-80%時,性能達到最優(yōu)。這一U型縮放定律揭示了靜態(tài)記憶與動態(tài)計算的互補關(guān)系:純MoE會浪費算力重建靜態(tài)知識,純記憶則缺乏動態(tài)推理能力,兩者的合理配比可實現(xiàn)資源利用效率的最大化。

      3.4 硬件感知的效率優(yōu)化 為解決大規(guī)模記憶表的存儲與訪問效率問題,Engram設(shè)計了硬件友好的實現(xiàn)方案:(1)訓(xùn)練階段,采用模型并行策略將記憶表分片存儲于多個GPU,通過哈希路由保證同一N-gram的檢索請求指向同一GPU,避免跨設(shè)備通信開銷;(2)推理階段,利用確定性尋址的可預(yù)測性,將大規(guī)模記憶表存儲于CPU內(nèi)存,通過運行時預(yù)取機制將所需記憶條目提前加載至GPU緩存,額外延遲可忽略不計(實驗測得延遲增加小于0.5%)。這一設(shè)計使模型可在不升級GPU硬件的前提下,通過擴展CPU內(nèi)存提升記憶容量,顯著降低了部署成本。


      4 實驗

      4.1 實驗設(shè)置 本文以DeepSeek-MoE為基準(zhǔn)模型,構(gòu)建了不同參數(shù)規(guī)模的Engram模型(13B、27B、67B),所有模型均采用相同的訓(xùn)練數(shù)據(jù)(1.4萬億token的多語言語料)、訓(xùn)練步數(shù)(1.2M步)與優(yōu)化器配置(AdamW,學(xué)習(xí)率2e-4)。實驗任務(wù)涵蓋五大類:知識檢索(MMLU、CMMLU)、通用推理(BBH、ARC-Challenge)、代碼生成(HumanEval)、數(shù)學(xué)推理(MATH)、長上下文檢索(Multi-Query NIAH)。評估指標(biāo)采用標(biāo)準(zhǔn)準(zhǔn)確率(Accuracy)或通過率(Pass@1)。

      4.2 主要結(jié)果 表1(原文表1)展示了27B參數(shù)模型在各任務(wù)上的性能對比:Engram模型在所有任務(wù)上均顯著優(yōu)于純MoE基準(zhǔn)模型,其中BBH任務(wù)提升5.0分,ARC-Challenge提升3.7分,Multi-Query NIAH提升12.8分,表現(xiàn)最為突出。值得注意的是,盡管Engram的設(shè)計初衷是優(yōu)化知識檢索任務(wù),但在復(fù)雜推理任務(wù)上的提升幅度更大,這驗證了“記憶解放計算”的核心假設(shè)。

      參數(shù)規(guī)模縮放實驗表明(原文圖2),隨著參數(shù)總量增加,Engram與純MoE的性能差距逐漸擴大:67B Engram模型在MMLU任務(wù)上達到68.7分,較同規(guī)模MoE提升4.2分;在MATH任務(wù)上達到42.3分,提升2.8分。這一結(jié)果說明,條件記憶的優(yōu)勢在大規(guī)模模型上更為顯著,為超大模型的稀疏化設(shè)計提供了新方向。

      稀疏性分配實驗驗證了U型縮放定律的有效性(原文圖3):27B模型在記憶占比22%、MoE占比78%時,綜合性能達到最優(yōu)(平均得分提升4.5分);當(dāng)記憶占比低于10%或高于40%時,性能均出現(xiàn)明顯下降。這一結(jié)論為不同任務(wù)場景下的資源分配提供了量化指導(dǎo)(如知識密集型任務(wù)可適當(dāng)提高記憶占比至25%,推理密集型任務(wù)可維持20%左右)。

      4.3 消融實驗 為驗證各核心組件的作用,本文進行了消融實驗:(1)移除分詞器壓縮:詞表冗余增加23%,MMLU性能下降1.8分;(2)移除多頭哈希:哈希沖突率提升至8.3%,CMMLU性能下降2.1分;(3)移除上下文門控:多義性干擾增加,BBH性能下降3.5分;(4)關(guān)閉CPU內(nèi)存擴展:記憶容量受限,長上下文任務(wù)性能下降9.6分。消融實驗結(jié)果表明,三大核心優(yōu)化策略與硬件感知設(shè)計均對模型性能有重要貢獻,缺一不可。

      4.4 效率分析 訓(xùn)練效率方面,Engram模型的每步訓(xùn)練時間與純MoE基本持平(27B模型每步訓(xùn)練時間增加0.8%),這得益于模型并行策略的優(yōu)化;推理效率方面,Engram模型在CPU內(nèi)存擴展模式下,吞吐量較純MoE提升12%(相同GPU配置下),因為記憶查找的計算開銷遠低于神經(jīng)計算。這一結(jié)果證明,Engram在提升性能的同時,未犧牲效率,具備實際部署價值。

      5 機制分析

      為探究Engram提升模型性能的內(nèi)在機制,本文從網(wǎng)絡(luò)激活、注意力分布、層功能分化三個維度進行分析。

      網(wǎng)絡(luò)激活分析表明,Engram模型的主干網(wǎng)絡(luò)早期層(1-4層)激活強度較純MoE降低35%,而中晚期層(5-12層)激活強度提升28%。這說明Engram承擔(dān)了早期層的靜態(tài)模式重建任務(wù),使主干網(wǎng)絡(luò)可將更多資源投入到中晚期的復(fù)雜推理中,等效于“加深”了網(wǎng)絡(luò)的有效推理深度。

      注意力分布可視化顯示(原文圖4),Engram模型的注意力權(quán)重更集中于長程依賴關(guān)系(跨句、跨段落的語義關(guān)聯(lián)),而純MoE模型的注意力權(quán)重大量分布于局部token對(如相鄰詞的搭配)。這驗證了“記憶釋放注意力容量”的假設(shè):Engram通過查找處理局部依賴后,注意力機制可更專注于全局上下文建模,從而提升長文本理解能力。

      層功能分化實驗表明,Engram模型的各層功能定位更清晰:早期層主要負責(zé)語義編碼的初始化,中晚期層則專注于邏輯推理與上下文整合;而純MoE模型的各層功能存在大量重疊,導(dǎo)致資源浪費。這一功能分化使模型的計算效率與推理精度同時提升。


      6 結(jié)論與未來工作


      本文提出“條件記憶”作為大型語言模型稀疏化的新維度,通過Engram模塊實現(xiàn)了高效的知識查找與上下文融合,與MoE的條件計算形成互補。實驗驗證了U型縮放定律的有效性,證明20%-25%的記憶參數(shù)與75%-80%的計算參數(shù)配比可實現(xiàn)最優(yōu)性能。Engram不僅提升了知識檢索任務(wù)的效率,還在復(fù)雜推理、長上下文理解等任務(wù)上取得顯著突破,其硬件感知設(shè)計降低了部署成本。

      未來工作可從三個方向展開:(1)動態(tài)調(diào)整記憶窗口大小與N-gram階數(shù),適配不同類型的輸入文本;(2)引入動態(tài)記憶更新機制,使記憶庫可學(xué)習(xí)新的語言模式,提升模型的泛化能力;(3)將條件記憶范式擴展至多模態(tài)語言模型,實現(xiàn)圖像、語音等模態(tài)的靜態(tài)特征檢索與動態(tài)融合。

      論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      參考文獻(節(jié)選

      [1] Shazeer, N., Mirhoseini, M., Maziarz, K., et al. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. TACL, 2020.

      [2] Fedus, W., Zoph, B., Borgeaud, S., et al. Switch transformers are scalable and efficient for language modeling. NeurIPS, 2021.

      [3] DeepSeek Team. DeepSeek-MoE: Scaling mixture-of-experts language models with dynamic routing. arXiv preprint arXiv:2401.04088, 2024.

      [4] Graves, A., Wayne, G., Danihelka, I. Neural turing machines. NeurIPS, 2014.

      [5] Lewis, P., Perez, E., Piktus, A., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS, 2020.


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      俄羅斯副總理諾瓦克:俄羅斯將2026年經(jīng)濟增長預(yù)測從1.3%下調(diào)至0.4%

      俄羅斯副總理諾瓦克:俄羅斯將2026年經(jīng)濟增長預(yù)測從1.3%下調(diào)至0.4%

      財聯(lián)社
      2026-05-12 05:06:20
      “還沒成年,脖子就有草莓了!”原來窮人富養(yǎng)女,才是悲劇的禍根

      “還沒成年,脖子就有草莓了!”原來窮人富養(yǎng)女,才是悲劇的禍根

      妍妍教育日記
      2026-05-11 19:20:59
      宇樹發(fā)布GD01載人變形機甲 定價390萬元起

      宇樹發(fā)布GD01載人變形機甲 定價390萬元起

      財聯(lián)社
      2026-05-12 12:27:07
      下降6%!一季度結(jié)婚數(shù)再創(chuàng)新低,同比減少11萬對,離婚數(shù)也少了

      下降6%!一季度結(jié)婚數(shù)再創(chuàng)新低,同比減少11萬對,離婚數(shù)也少了

      網(wǎng)易新聞出品
      2026-05-12 15:45:59
      查扣電動車全面叫停,工信部定調(diào):民生剛需優(yōu)先,百姓要啥造啥

      查扣電動車全面叫停,工信部定調(diào):民生剛需優(yōu)先,百姓要啥造啥

      墜入二次元的海洋
      2026-05-12 06:15:38
      美國突發(fā)利空,三倍做多半導(dǎo)體狂跌18%,存儲、光通信都崩了

      美國突發(fā)利空,三倍做多半導(dǎo)體狂跌18%,存儲、光通信都崩了

      金石隨筆
      2026-05-13 00:27:33
      揚眉吐氣史無前例!第一次把在任美國國務(wù)卿永久攔在中國國門外

      揚眉吐氣史無前例!第一次把在任美國國務(wù)卿永久攔在中國國門外

      雪中風(fēng)車
      2026-05-12 13:10:31
      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復(fù)仇孫穎莎

      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復(fù)仇孫穎莎

      小徐講八卦
      2026-05-12 10:07:29
      以前叫人家強哥,現(xiàn)在請叫植物

      以前叫人家強哥,現(xiàn)在請叫植物

      阿亮評論
      2026-05-12 12:18:33
      特朗普即將訪華,英媒:美已意識到中國比美國想象中更強大

      特朗普即將訪華,英媒:美已意識到中國比美國想象中更強大

      混沌錄
      2026-05-11 18:07:10
      懵了!東契奇突然退出球隊!

      懵了!東契奇突然退出球隊!

      柚子說球
      2026-05-12 20:50:09
      日本女人“半裙”新穿法火出圈,這么穿溫柔減齡又洋氣,誰穿誰美

      日本女人“半裙”新穿法火出圈,這么穿溫柔減齡又洋氣,誰穿誰美

      何有強
      2026-05-12 01:54:10
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財經(jīng)Pro
      2026-05-12 14:04:28
      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      奧拜爾
      2026-05-13 01:56:27
      中國在美伊開戰(zhàn)后石油日進口減少25%,但庫存創(chuàng)新高,還將部分石油出售

      中國在美伊開戰(zhàn)后石油日進口減少25%,但庫存創(chuàng)新高,還將部分石油出售

      爆角追蹤
      2026-05-12 09:20:42
      網(wǎng)友屏蔽“愛國流量”名人企業(yè),司馬南、華為上榜,評論區(qū)太認(rèn)同

      網(wǎng)友屏蔽“愛國流量”名人企業(yè),司馬南、華為上榜,評論區(qū)太認(rèn)同

      譚談社會
      2026-05-12 16:50:17
      特斯拉宣布停產(chǎn),震驚全網(wǎng)!

      特斯拉宣布停產(chǎn),震驚全網(wǎng)!

      財經(jīng)三分鐘pro
      2026-05-12 15:10:58
      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學(xué)

      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學(xué)

      我愛英超
      2026-05-13 02:34:59
      復(fù)旦解剖326名糖尿病逝者,意外發(fā)現(xiàn):得糖尿病的人,大多有5共性

      復(fù)旦解剖326名糖尿病逝者,意外發(fā)現(xiàn):得糖尿病的人,大多有5共性

      芹姐說生活
      2026-05-12 15:38:02
      國乒雙冠后收到壞消息!孫穎莎王楚欽全勝開啟魔鬼賽程 31歲林高遠復(fù)出!

      國乒雙冠后收到壞消息!孫穎莎王楚欽全勝開啟魔鬼賽程 31歲林高遠復(fù)出!

      好乒乓
      2026-05-12 12:16:38
      2026-05-13 03:20:49
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應(yīng)用精選與評測
      506文章數(shù) 74關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      游戲
      健康
      房產(chǎn)
      旅游
      本地

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節(jié)日快樂

      干細胞能讓人“返老還童”嗎

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 多伦县| 日日碰狠狠躁久久躁综合小说| 狠狠婷婷综合缴情亚洲| 国产激情电影综合在线看| 黄色影院91| 日韩成人AV电影| 国产女人叫床高潮视频在线观看| 在线天堂资源www在线污| 中文字幕av高清片| 亚洲成a人片在线看| 亚洲资源在线视频| 青草草在线视频永久免费| 久久精品国产精品亚洲红杏| 国产产无码乱码精品久久鸭| 思思99热| 欧美a在线免费观看| 日韩精品在线观看首页| 国产国拍精品av在线观看按摩| 国产精品久久久久久久久久免费看| 久久先锋男人av资源网站| 窝窝午夜看片国产精品| 亚洲制服丝袜自拍中文字幕| 亚洲精选av一区二区| 欧美老熟妇精品| 欧美交a欧美精品喷水| 国产精品人成在线播放| 欧美538顶级| 亚洲自拍成人| 亚洲国产成人AV片在线播放| 欧美黄片日韩亚洲一三级片一区 | 无码人妻一区二区三区免费视频 | 久久中文电影| 成年在线网站免费观看无广告 | 99精品国产福久久久久久| 亚洲国内精品一区二区| 大帝AV| 久久尤物av天堂日日综合| 美女视频黄频大全视频网站| 麻豆精品一区二区三区蜜臀| 91制片厂天美传媒网站进入| 久久久这里只有精品10|