<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek V4最大的遺憾

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      DeepSeekV4的技術報告里有mHC,有CSA,有HCA,有Muon,有FP4……

      唯獨沒有Engram

      Engram去哪了?

      這個話題一度成為網友們討論的熱點。

      Engram在今年1月由DeepSeek和北大聯合開源,主要研究大模型的記憶與效率問題。

      自掛上arXiv的那一刻起,圈子里圍繞它的探討就沒有停止過…



      不僅僅因為它是V4的前奏,而是有了Engram,「倫敦是英國首都」這種事實,模型不用動用整個深層網絡去重新推一遍,直接查就行。

      不僅省顯存,還能釋放深層網絡容量,用于更高階的推理。

      正因如此,自1月初論文發表以來,所有人都覺得,Engram就是V4的架構地基,所有人都在盼。

      以至于V4發表后,大家第一時間就是command+f去論文里找Engram,可惜并沒有。



      以至于不少網友甚至覺得,沒有Engram,V4就是不完整的。



      沒有Engram,可能是DeepSeekV4最大的遺憾。

      不過,Engram并沒有消失。隨后三篇值得注意的論文接力出現:

      • CXL內存池化版本:把Engram放進多機共享的CXL內存池,解決大模型多機部署的存儲問題。
      • 無沖突熱層實驗:對Engram的多頭哈希優化進行了實證檢驗,證偽了一些直覺式改進方案。
      • 視覺Tiny Engram:AutoArk團隊把文本Engram搬到視覺模態,擴展了它的應用邊界。

      所以,雖然V4沒有Engram,但它的理念、探索和后續應用已經悄然鋪開,為下一代模型打下基礎。

      Engram到底是什么

      把時間倒回2026年1月12日。

      那一天,DeepSeek聯合北大放出了一篇33頁的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經署名過V3。最后一位作者,梁文鋒。



      先來一句話速通版,Engram是給Transformer加的一個原生知識查表模塊。能查的別算,先查一下。

      團隊的核心觀察是,語言建模其實包含兩種性質完全不同的任務,一種是需要深度動態計算的組合推理,另一種是檢索靜態知識。

      之前的問題在于,Transformer把這兩件事混在一起做。模型識別一個實體時,得消耗好幾層注意力和前饋網絡逐層拼湊特征。

      論文里舉了個例子,「Diana,Princess of Wales」。模型要走6層才能把這個識別完。

      前幾層還在糾結「Wales是英國的一個地區」、「Princess of Wales是某種頭銜」這些中間狀態,最后一層才反應過來這是戴安娜王妃。

      這種「用昂貴的運行時計算重建一個靜態查找表」的活,本來可以讓深層網絡去干更高階的推理。

      對此,Engram的思路相當直接,既然經典的N-gram模型就能用O(1)的時間復雜度捕獲這些局部依賴,那干脆把這能力直接嵌進Transformer。

      打個比方,就像你做數學題,該用的公式不必每次從頭推一遍,翻表代進去就行。Transformer之前沒這張表,只能每道題都從公理走起。Engram等于把這張表交到模型手里。

      具體做法是,在Transformer的第2層和第15層之間各插入一個Engram模塊。

      每個位置的輸入會觸發一次哈希查找,把當前token和前面幾個token組成的N-gram映射到一個巨大的嵌入表里,直接取出對應的向量。

      門控機制保證查到的內容跟當前上下文不匹配時自動屏蔽。比如「張」是個常見姓氏,但「張仲景」三個字湊一起就是固定歷史人物實體了,門控就負責認出這種區別。

      Engram的定位是MoE之外的另一條稀疏軸。MoE是把計算稀疏化,只激活一部分專家。Engram是把存儲稀疏化,只查一部分條目。兩者互補,不沖突。



      論文最核心的一段實驗,是固定總參數和每token激活參數,然后讓MoE專家和Engram記憶搶預算,得到一條U形曲線。



      純MoE不是最優解。把大約20%-25%的稀疏參數分給Engram,模型loss達到最低點。

      按這個曲線指導,團隊把Engram擴到27B驗證。激活參數3.8B,訓練262B tokens,嚴格跟MoE-27B基線對齊。

      結果知識密集型任務的提升符合預期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數學的提升超出預期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長上下文場景更夸張,Multi-Query NIAH從84.2%躍升到97.0%。



      那么,為什么記憶模塊還能反過來提升推理?

      LogitLens和CKA給出了答案,Engram-27B第5層的表征,跟MoE基線第12層的表征最相似。

      Engram把模型的早期層從「重建靜態知識」這種苦力活里解放出來,這部分網絡深度被騰出來做更復雜的推理。Engram不是新增了一塊記憶,它還變相把網絡加深了。



      工程上。論文把一個1000億參數的Engram表整個甩到host DRAM,在H800上跑推理,8B-Dense的吞吐損失只有2.8%。

      靠的是Engram索引的確定性,只取決于輸入token序列,完全可以提前算,CPU異步預取跟GPU計算重疊。

      可以說,這個模塊天生就不靠HBM,只可惜如今V4來了,Engram沒來。

      沒在v4,但在其他地方

      發明者把它放在那里沒動,但路上還是有人。三個月里,至少出現了三個值得說一下的工作。

      把Engram塞進CXL內存池

      3月10日,北大、阿里云、山東英信、人大、港大聯合發了一篇系統論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。



      他們沒改Engram本身,而是回答了一個更工程的問題,如果Engram真的成了下一代標配,內存放哪。

      答案是CXL內存池化。GPU HBM放計算權重,本地DRAM做二級緩存,CXL池做三級。8臺服務器共享4TB內存池,XConn XC50256交換芯片做拓撲,512GB/s帶寬。

      整套集成進SGLang,做了預取-計算重疊,跑下來端到端吞吐損失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫,被他們做成了27B和40B兩個規模的真實測試。

      結論很清楚,Engram這種確定性尋址、可預取的負載,幾乎是為CXL量身定做的。

      一個反直覺的實驗

      Engram論文上線第十一天,1月23日,一個叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。



      他想驗證一個看上去顯然的優化,Engram用多頭哈希查表會有沖突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突,模型會不會更好。

      他設計了Engram-Nine,把記憶分成無沖突的「熱層」和保留多頭哈希的「冷層」。

      結果反直覺。在嚴格iso-parameter控制下,無沖突設計沒有穩定提升驗證loss。

      route-stratified評估還發現,訓練初期熱路徑(高頻)loss更低,但訓練后期冷路徑反過來超過熱路徑。

      一個看上去顯然的優化方向,被一個真做實驗的人證偽了。

      把Engram推到視覺(AutoArk/TinyEngram)

      GitHub上一個叫AutoArk的團隊搞了Tiny Engram。



      基于Qwen-3完整復現文本Engram之后,他們做了一件論文里沒做的事,把Engram搬到Stable Diffusion上。

      視覺patch經過分層編碼,底層抓紋理,中層抓部件,高層抓風格,然后整套丟進哈希查表。

      跟LoRA比下來,達到同等效果,Engram需要的額外參數只有LoRA的15%到30%。連續注入多個新概念時,LoRA會出現明顯的概念退化,Engram不會。

      Engram原本是為文本設計的。AutoArk等于把這扇門撞開了,凡是能離散化、能哈希的模態,Engram都能搬。

      三個月里,Engram這條路上,發明者最沉默,跟進者各自走了一步。

      一個團隊替它解決多機內存層級,一個獨立研究者證偽了它一個看似顯然的優化方向,一個開源團隊把它推到了視覺。



      而deepseek-ai/Engram這個倉庫,最后一次提交還停在1月14日。

      One more thing

      Engram論文的摘要結尾有一句話:

      我們認為條件記憶將是下一代稀疏模型不可或缺的建模原語。



      看來,這個下一代得是V5了,難不成會是V4.1?

      [1]https://arxiv.org/pdf/2601.07372

      [2]https://arxiv.org/pdf/2603.10087

      [3]https://arxiv.org/pdf/2601.16531

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩江總督的兩江具體所指哪里?兩廣總督?湖廣總督是否涵蓋廣東

      兩江總督的兩江具體所指哪里?兩廣總督?湖廣總督是否涵蓋廣東

      鶴羽說個事
      2026-05-05 22:50:44
      一名中國人在芭提雅被活活打死 據說,打人的,也是一群中國人...(5月7日)

      一名中國人在芭提雅被活活打死 據說,打人的,也是一群中國人...(5月7日)

      曼谷陳大叔
      2026-05-07 22:18:38
      外交部:中國駐俄羅斯使館代表將應邀出席勝利日閱兵儀式

      外交部:中國駐俄羅斯使館代表將應邀出席勝利日閱兵儀式

      新京報
      2026-05-08 15:57:15
      絕密的鈦金屬拼圖:為何人類再也造不出第二架SR-71“黑鳥”?

      絕密的鈦金屬拼圖:為何人類再也造不出第二架SR-71“黑鳥”?

      航空之家Aviation
      2026-05-06 19:31:24
      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      141:0壓倒性優勢,歐盟成員國通過重大草案,中國外交部:贊賞

      書紀文譚
      2026-05-08 15:05:30
      11000克拉!緬甸抹谷再出土“世界級”巨型紅寶石,全球矚目

      11000克拉!緬甸抹谷再出土“世界級”巨型紅寶石,全球矚目

      緬甸中文網
      2026-05-08 12:17:07
      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      以茶帶書
      2026-05-08 15:40:11
      拉橫幅真管用!中超第二位下課主帥誕生,鄧卓翔再次復出救火

      拉橫幅真管用!中超第二位下課主帥誕生,鄧卓翔再次復出救火

      體壇鑒春秋
      2026-05-08 17:06:34
      福州一智力殘疾女孩在醫院全托管期間“高墜身亡”,家屬質疑死因,當地多方回應

      福州一智力殘疾女孩在醫院全托管期間“高墜身亡”,家屬質疑死因,當地多方回應

      瀟湘晨報
      2026-05-08 15:14:19
      剛剛,胖東來正式回復王海!

      剛剛,胖東來正式回復王海!

      聽心堂
      2026-05-08 09:49:10
      8日世乒賽:周啟豪不上,王楚欽發文,林詩棟迎挑戰,直播有變

      8日世乒賽:周啟豪不上,王楚欽發文,林詩棟迎挑戰,直播有變

      老嗮說體育
      2026-05-08 07:32:59
      俄羅斯宣布“勝利日”莫斯科等地暫時斷網!近一年來俄固定電話需求飆升

      俄羅斯宣布“勝利日”莫斯科等地暫時斷網!近一年來俄固定電話需求飆升

      紅星新聞
      2026-05-08 12:51:17
      《駱駝祥子》:虎妞至死都不知道,女人再愛一個男人,可以下嫁,可以倒貼,但千萬不要做這3件事情。

      《駱駝祥子》:虎妞至死都不知道,女人再愛一個男人,可以下嫁,可以倒貼,但千萬不要做這3件事情。

      每日一首古詩詞
      2026-05-07 12:11:09
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      央視軍事官宣:中國首艘核動力航母正式確認

      央視軍事官宣:中國首艘核動力航母正式確認

      武器鑒賞
      2026-05-08 13:23:34
      更衣室大戰加速穆里尼奧回歸?諸多名宿支持穆帥,已跟高層通過氣

      更衣室大戰加速穆里尼奧回歸?諸多名宿支持穆帥,已跟高層通過氣

      里芃芃體育
      2026-05-08 16:00:14
      美媒稱美軍襲擊伊朗南部多地

      美媒稱美軍襲擊伊朗南部多地

      財聯社
      2026-05-08 04:58:07
      老登們,收收味。

      老登們,收收味。

      美第奇效應
      2026-05-07 18:57:49
      雪上加霜!剛被ST再遭破產申請,連續5跌停,有人已虧82萬

      雪上加霜!剛被ST再遭破產申請,連續5跌停,有人已虧82萬

      財經智多星
      2026-05-08 12:09:15
      黃子佼獲緩刑4年,無需入獄服刑,他偷笑著走出法庭

      黃子佼獲緩刑4年,無需入獄服刑,他偷笑著走出法庭

      素素娛樂
      2026-05-08 09:01:53
      2026-05-08 18:44:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12590文章數 176461關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      健康
      房產
      旅游
      教育
      藝術

      干細胞能讓人“返老還童”嗎

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      旅游要聞

      水潤歷下|湖光山色間,他們“擦亮”一城碧水

      教育要聞

      南京江寧區2026年小學、初中招生入學工作實施細則

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 老熟女人AV| 九九热在线视频只有精品| 一区二区三区日韩| 天天摸天天碰天天添| 国产乱码精品一区三上| 亚洲日产中文字幕无码| 亚洲成人精品在线| 免费人成视频x8x8| 夜夜嗨av色一区二区不卡| 经典国产乱子伦精品视频| 国产欧美精品亚洲桃花岛| 中文字幕无码专区一VA亚洲V专| 亚洲va久久久噜噜噜久久天堂| 制服丝袜在线云霸| 性色欲情网站| 精品久久久久久无码专区不卡| 狠狠色综合久久狠狠色综合| 少妇性荡欲午夜性开放视频剧场| 亚洲欧美综合人成在线| 亚洲成a人无码亚洲成www牛牛| 亭亭五月丁香| 国产成人一区二区三区别| 尤物视频色版在线观看| 亚洲另类成人小说综合网| 精品无码人妻| 国产精品永久免费成人av| 国产免费拔擦拔擦8x高清在线人| 六月婷婷五月丁香| 欧美熟妇xxxxx欧美老妇不卡| 久久麻豆成人精品| 这里只有精品视频| 日本爱爱精品一区二区| 亚洲欧美国产国产一区| 91免费国产高清观看| 轻点好疼好大好爽视频| 中文区av无码中文字幕dⅴd| 亚洲日韩欧美国产高清αv| 国产黄片一区视频在线观看| 伊人久久福利中文字幕| 亚洲已满18点击进入在线看片 | 亚洲激情AV|