<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      MoE路由擁有「記憶」:RMS-MoE用檢索記憶協(xié)同實現(xiàn)更高效專家調度

      0
      分享至



      機器之心發(fā)布

      大模型越來越大,Mixture-of-Experts(MoE)已經(jīng)成為擴展模型參數(shù)規(guī)模、降低單次計算成本的重要架構之一。但在真實的 Web-scale 系統(tǒng)中,MoE 路由機制仍然存在一個容易被忽視的問題:它往往是「無記憶」的。

      對于搜索、問答、對話等高并發(fā)場景,大量輸入并非完全獨立,而是具有顯著的語義重復性和結構相似性。傳統(tǒng) MoE 路由器每次都從當前輸入出發(fā),重新判斷應該激活哪些專家。這意味著,即使模型此前已經(jīng)在相似輸入上找到過有效的專家組合,下一次遇到類似問題時,仍然可能重新探索一遍。

      這種「短視」的路由方式會帶來三個問題:一是重復計算,導致推理延遲和資源浪費;二是路由不穩(wěn)定,輸入稍有擾動就可能觸發(fā)完全不同的專家集合;三是專家之間的協(xié)作關系難以沉淀,模型只是在選擇單個專家,而沒有顯式復用歷史上有效的「專家團隊」。

      針對這一問題,來自馬上消費金融、南京航空航天大學、阿里巴巴等機構的研究團隊提出了RMS-MoE(Retrieval-Memory Synergy Mixture-of-Experts)。該工作將 MoE 路由從一次性的分類決策,重新定義為一個「檢索 — 記憶 — 融合」的過程:模型不再只依賴當前 router 的即時判斷,而是會從歷史記憶中檢索相似輸入曾經(jīng)激活過的高效專家組合,并與當前路由結果動態(tài)融合。



      • 論文標題:Rethinking MoE with Retrieval-Memory Synergy: Towards Efficient Expert Coordination
      • 會議:The ACM Web Conference 2026(WWW 2026)
      • 作者:Wanjie Tao, Qun Dai, Yantong Lv, Quan Lu, Ning Jiang, Zulong Chen
      • 機構:馬上消費金融、南京航空航天大學、阿里巴巴
      • 論文鏈接:https://dl.acm.org/doi/epdf/10.1145/3774904.3792922

      MoE 路由為什么需要「記憶」?

      MoE 的優(yōu)勢在于稀疏激活。給定一個輸入,router 會從多個專家中選擇少數(shù)幾個參與計算,從而在保持模型容量的同時降低每次前向計算成本。

      然而,當前主流 MoE 路由方式大多仍然遵循一種 stateless paradigm:每個輸入獨立處理,歷史上相似輸入的專家選擇經(jīng)驗并不會被系統(tǒng)性利用。

      這在離線 benchmark 中可能不明顯,但在真實 Web 場景中會變得非常關鍵。例如,在搜索、開放域問答、智能客服和多輪對話中,用戶請求往往存在大量語義重疊。同類問題、同類任務、同類表達會反復出現(xiàn)。如果系統(tǒng)每次都重新計算專家分配,就會造成明顯的計算冗余。更重要的是,對于語義相近的輸入,如果專家激活集合頻繁波動,模型行為也會變得不穩(wěn)定。

      RMS-MoE 的出發(fā)點是:既然用戶輸入具有重復性,專家協(xié)作模式也應該可以被記住和復用。與傳統(tǒng) RAG 從外部知識庫檢索文本內容不同,RMS-MoE 檢索的不是知識片段,而是模型內部的專家協(xié)作模式。換句話說,它做的是一種 architectural memory:讓模型記住自己過去是如何調度專家的

      RMS-MoE:

      從「即時路由」到「檢索增強路由」

      RMS-MoE 的整體框架由三個核心模塊構成:Co-Activation Memory(CAM)、Adaptive Fusion Module(AFM)和 Reinforcement-Guided Memory Update。CAM 用于存儲和檢索歷史上有效的專家組合;AFM 用于動態(tài)融合記憶先驗和當前 router 的實時判斷;強化反饋式更新則用任務反饋持續(xù)維護記憶質量。

      從流程上看,當一個新輸入進入模型后,RMS-MoE 首先通過 Input Encoder 得到輸入表示,同時標準 router 會生成一個實時專家激活結果。與此同時,CAM 會根據(jù)當前輸入表示,從記憶庫中檢索最相似的歷史樣本,并取出這些樣本對應的專家激活模式。隨后,模型會根據(jù)檢索相似度和歷史效用信息,聚合得到一個 memory prior,也就是「歷史上相似輸入更可能適合哪些專家團隊」。最后,AFM 會學習一個動態(tài)融合權重,將 memory prior 與實時 router 輸出結合,得到最終專家激活結果。

      這種設計帶來的好處是:對于熟悉、重復、語義相近的輸入,模型可以更多依賴歷史上驗證有效的專家組合;對于新穎或低相似度輸入,模型仍然可以回退到實時 router,保持靈活性。



      RMS-MoE 方法框架圖

      Co-Activation Memory:

      記住的不是知識,而是「專家團隊」

      RMS-MoE 的關鍵模塊是Co-Activation Memory。CAM 可以理解為一個動態(tài) key-value memory。每條記憶包含兩部分:key 是輸入 embedding,value 是對應的專家激活模式以及相關元信息,例如歷史 reward、最近使用情況等。

      當新輸入到來時,模型會用當前輸入 embedding 去 CAM 中檢索 top-K 個相似條目。每個條目不僅代表一個相似輸入,還攜帶了該輸入曾經(jīng)激活過的專家組合。隨后,RMS-MoE 會結合相似度和歷史效用,對這些專家組合進行加權聚合,得到一個專家選擇先驗。

      這里的核心思想是:專家之間的共同激活關系本身就是一種可復用的結構知識。傳統(tǒng) MoE router 往往獨立評估每個專家是否應該被激活,而 RMS-MoE 更關注「哪些專家曾經(jīng)一起有效工作」。這使得模型不只是選擇專家,而是在復用專家團隊的協(xié)作經(jīng)驗。

      Adaptive Fusion:

      既相信記憶,也保留實時判斷

      僅有記憶是不夠的。如果模型過度依賴歷史經(jīng)驗,就可能在遇到新任務、新表達或低頻場景時產生錯誤遷移。因此,RMS-MoE 引入了Adaptive Fusion Module,用一個可學習的動態(tài)門控系數(shù) β 來控制記憶先驗和實時路由之間的平衡。

      當當前輸入與 CAM 中的歷史樣本高度相似時,β 會更大,模型更傾向于使用記憶檢索得到的專家組合;當相似度較低時,β 會降低,模型則更多依賴當前 router 的即時判斷。這使得 RMS-MoE 不會變成一個簡單的緩存系統(tǒng),而是一個能夠根據(jù)輸入熟悉程度自適應決策的路由框架。

      簡單來說,RMS-MoE 的路由邏輯可以概括為:熟悉的問題,優(yōu)先復用歷史上表現(xiàn)好的專家團隊;陌生的問題,回退到當前 router,保持探索能力;模糊的問題,在記憶和實時判斷之間動態(tài)折中。

      強化反饋式更新:讓記憶持續(xù)進化

      為了避免 CAM 退化成靜態(tài)緩存,RMS-MoE 還設計了reinforcement-guided memory update。在訓練過程中,模型會根據(jù)任務反饋更新記憶條目的效用分數(shù)。論文中將負訓練損失作為 reward 信號,并使用指數(shù)滑動平均更新歷史 reward。

      同時,CAM 還會記錄條目的新近程度,并在容量受限時基于 utility-recency score 進行淘汰。也就是說,一個專家組合如果在歷史上多次帶來較好任務表現(xiàn),它就會更容易被保留和再次檢索;如果一個組合長期無效或過時,則會逐漸被削弱甚至移除。

      此外,CAM 更新被設計為異步機制。模型不會在每次前向傳播中同步修改索引,而是將更新操作緩沖后批量執(zhí)行。這種設計避免了檢索索引對梯度計算的干擾,也降低了在線更新帶來的系統(tǒng)開銷。

      實驗:

      在 WebQA 和 MultiWOZ 上同時提升準確率、延遲和穩(wěn)定性

      論文主要在 WebQA 上進行評估。WebQA 包含 120 萬個問答樣本,并具有約 30% 的查詢冗余,非常適合測試記憶增強路由在高重復 Web 場景中的效果。同時,研究團隊還在 MultiWOZ 上驗證了方法在多輪任務型對話中的泛化能力。

      實驗對比了多種強 MoE 基線,包括 Switch Transformer、Expert-Choice MoE、Hash-MoE、Soft-MoE 和 DeepSeekMoE。所有模型使用相同的 MoE 基礎架構:32 個專家,hidden dimension 為 1024,每個 token 激活 top-4 專家。RMS-MoE 額外設置 CAM 容量為 10^5,檢索 top-5 個記憶條目。實驗在 8 張 NVIDIA A100 GPU 上運行,并報告 10 次運行的均值和標準差。

      在 WebQA 上,RMS-MoE 取得了最優(yōu)結果。相較于 DeepSeekMoE,RMS-MoE 的 F1 提升 2.7 個點,歸一化延遲從 0.72× 降至 0.53×,約降低 26%。相較于 Switch Transformer,RMS-MoE 的端到端延遲幾乎減半。在 MultiWOZ 上,RMS-MoE 也保持了類似趨勢,實現(xiàn)了 2.5 個 BLEU 分數(shù)提升和 34% 的延遲降低。這說明該方法并不局限于單一問答任務,也能夠遷移到多輪對話場景。



      WebQA 主實驗結果(Latency 歸一化至 Switch Transformer)

      消融實驗:CAM 是性能提升的關鍵

      為了分析各模塊貢獻,論文進一步進行了消融實驗。結果顯示,移除 CAM 后,模型 F1 從 82.5 降至 77.3,穩(wěn)定性從 0.94 降至 0.85,性能退化最明顯。這說明歷史專家協(xié)作模式的檢索與復用是 RMS-MoE 的核心收益來源。

      移除 Adaptive Fusion 后,F(xiàn)1 降至 78.2,說明簡單使用記憶并不足夠,模型必須根據(jù)輸入情況動態(tài)決定「相信記憶」還是「相信當前 router」。移除 reinforcement-guided update 后,F(xiàn)1 降至 79.8,穩(wěn)定性也出現(xiàn)下降,說明記憶質量的持續(xù)維護同樣重要。

      敏感性分析進一步表明,RMS-MoE 對關鍵超參數(shù)較為穩(wěn)健。CAM 容量在 10^5 附近達到較好效果,top-K 檢索數(shù)量在 K=5 時形成較優(yōu)的準確率 — 延遲平衡,而融合門控 β 最終穩(wěn)定收斂到約 0.6,說明模型會在相當一部分決策中主動利用記憶先驗。



      WebQA 消融實驗結果

      為什么這項工作重要?

      RMS-MoE 的意義不只是提出了一個新的 MoE 變體,更重要的是,它重新思考了 MoE 路由的本質。過去,MoE 路由通常被看作一個即時決策問題:給定當前 token,選擇若干專家。RMS-MoE 則把它擴展為一個具有歷史經(jīng)驗的動態(tài)過程:當前輸入不僅由當前 router 決定,也可以參考過去相似輸入中已經(jīng)驗證有效的專家協(xié)作模式。

      這帶來了三個層面的變化。第一,路由從「無狀態(tài)」變成「有記憶」。模型能夠復用歷史上成功的專家組合,減少重復探索。第二,專家選擇從「單專家打分」走向「專家團隊復用」。RMS-MoE 顯式建模共同激活模式,讓專家協(xié)作關系成為可檢索、可強化、可淘汰的結構。第三,檢索增強不再只發(fā)生在內容層。傳統(tǒng) RAG 檢索的是外部知識或文本片段,而 RMS-MoE 檢索的是模型內部架構行為。

      對于 Web-scale 推理系統(tǒng)而言,這一點尤其關鍵。搜索、問答、對話、推薦和智能客服等場景都存在高頻、重復、相似的用戶請求。如何在保證模型效果的同時降低推理成本、提升響應穩(wěn)定性,是大模型落地過程中非?,F(xiàn)實的問題。RMS-MoE 提供了一種輕量但有效的思路:讓模型記住自己過去做過的有效計算,并在相似場景中復用這些經(jīng)驗。

      結語

      隨著大模型規(guī)模持續(xù)擴大,MoE 已經(jīng)成為提升模型容量與推理效率的重要路線。但真正高效的 MoE,不應只是「稀疏激活更多專家」,還應當能夠學習和復用專家之間的協(xié)作規(guī)律。

      RMS-MoE 將檢索、記憶與專家路由結合起來,為 MoE 架構引入了一種新的 architectural memory。實驗結果表明,這種設計能夠在 Web-scale QA 和多輪對話任務中同時改善準確率、推理延遲和路由穩(wěn)定性

      未來,隨著大模型在搜索、對話、智能客服和復雜任務系統(tǒng)中的進一步部署,如何讓模型的內部計算路徑更加穩(wěn)定、可復用、可解釋,將成為提升大模型系統(tǒng)效率的重要方向。RMS-MoE 的工作表明:大模型不僅需要記住外部知識,也需要記住自己「如何思考」和「如何調度計算資源」。

      作者介紹

      陶萬杰:馬上消費金融人工智能研究院算法副總監(jiān),北京郵電大學碩士,長期從事金融垂直領域大模型、智能客服、知識工程與高可信 AI 服務系統(tǒng)研究。當前重點關注檢索增強、混合專家模型、多智能體協(xié)同與金融場景下可控、可解釋、可規(guī)?;拇竽P蛻茫铝τ跇嫿嫦蛘鎸崢I(yè)務場景的高效、穩(wěn)定、可信智能服務系統(tǒng)。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      談妥了?曝十家中國企業(yè)獲批采購英偉達H200,名單毫不意外

      談妥了?曝十家中國企業(yè)獲批采購英偉達H200,名單毫不意外

      泡泡網(wǎng)
      2026-05-14 17:19:06
      4-3創(chuàng)造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      4-3創(chuàng)造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      老侃侃球
      2026-05-14 16:28:08
      女子稱58同城求職遇“不接受潛規(guī)則就不錄用” 平臺:3個工作日內核查處理

      女子稱58同城求職遇“不接受潛規(guī)則就不錄用” 平臺:3個工作日內核查處理

      紅星新聞
      2026-05-14 22:16:14
      13年后雷軍合影馬斯克,全網(wǎng)沸騰

      13年后雷軍合影馬斯克,全網(wǎng)沸騰

      新浪財經(jīng)
      2026-05-15 00:49:53
      人民大會堂最特別的房間,只用三個數(shù)字,懂的人都懂分量有多重

      人民大會堂最特別的房間,只用三個數(shù)字,懂的人都懂分量有多重

      賤議你讀史
      2026-04-30 03:40:03
      成本超2億,票房僅41萬,收手吧黃渤,別讓百億影帝成一個笑話

      成本超2億,票房僅41萬,收手吧黃渤,別讓百億影帝成一個笑話

      靠譜電影君
      2026-05-14 18:02:24
      看完特朗普訪華新聞,11歲的兒子問我:為什么馬斯克和黃仁勛,在同一架飛機上?

      看完特朗普訪華新聞,11歲的兒子問我:為什么馬斯克和黃仁勛,在同一架飛機上?

      萌芽研究所BUD
      2026-05-14 21:10:33
      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      這段外賣小哥與交警的“神仙對話”,為何點贊破百萬?| 鋒面評論

      上觀新聞
      2026-05-14 11:01:05
      何炅工作室回應:沒通知我們啊

      何炅工作室回應:沒通知我們啊

      南方都市報
      2026-05-14 17:49:25
      會談結束!中美談足135分鐘,中方一錘定音,臺灣問題有了定論

      會談結束!中美談足135分鐘,中方一錘定音,臺灣問題有了定論

      阿物評論哥
      2026-05-14 16:58:40
      人大代表:建議將機關企事業(yè)單位工齡滿30年的帶薪年假延長到20天

      人大代表:建議將機關企事業(yè)單位工齡滿30年的帶薪年假延長到20天

      細說職場
      2026-05-14 15:42:32
      名單曝光!10家中企采購英偉達H200!

      名單曝光!10家中企采購英偉達H200!

      半導體圈
      2026-05-14 18:18:23
      馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

      馬斯克晚宴上同框庫克,卻望向了美女服務員,“表情靈動”引熱議

      譯言
      2026-05-14 21:18:22
      男子買榴蓮,11480錯輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      男子買榴蓮,11480錯輸成114804,多掏10萬元!商家稱早已退款,錢卻退到銷售賬上!律師解讀→

      大風新聞
      2026-05-14 17:44:04
      臺當局惹眾怒,大陸發(fā)布統(tǒng)一后安排,島內鄭氏宗親:團結才有力量

      臺當局惹眾怒,大陸發(fā)布統(tǒng)一后安排,島內鄭氏宗親:團結才有力量

      流史歲月
      2026-05-14 20:00:04
      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      “摸奶子”擦邊神反轉,OPPO公關部有高人指點

      首席品牌觀察
      2026-05-14 16:52:18
      何九華官宣當爸!直言生女沒得選全程不提孩子媽,和王鷗真離了?

      何九華官宣當爸!直言生女沒得選全程不提孩子媽,和王鷗真離了?

      萌神木木
      2026-05-14 11:18:28
      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      云南電工挫敗黑社會團伙,1人對抗120名混混,造成對方9死48傷

      莫地方
      2026-05-15 01:30:04
      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      3分鐘傾家蕩產?年入千億“精神鴉片”,正精準掏空中國人的錢包

      趣文說娛
      2026-05-12 19:53:22
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯(lián)手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯(lián)手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      2026-05-15 07:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12996文章數(shù) 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發(fā)布

      態(tài)度原創(chuàng)

      家居
      藝術
      旅游
      親子
      游戲

      家居要聞

      精神奢享 對話塔尖需求

      藝術要聞

      花園里,花叢中

      旅游要聞

      非洲旅游業(yè)邁向增長新階段(國際視點)

      親子要聞

      孤獨癥特教老師的工作,遠不止“教說話”!(下)

      R星最新動態(tài)震撼來襲!玩家集體崩潰 舅舅黨都哭了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 67194成是人免费无码| 国产精品国产精品国产专区不卡| 国产乱码精品一区| 自拍 另类 综合 欧美小说| 日韩欧美在线免费观看视频| 亚洲mv国产mv在线mv综合天堂| 国产凸凹视频一区二区| 日日噜久久人妻一区二区| 国产又粗又大又爽91嫩草| 97精品尹人久久大香线蕉| 日本午夜精品理论片a级app发布| 午夜福利视频网站| 欧美三级视频在线播放| 国产色悠悠视频在线观看| 中文字幕无码A片| 久久波多野结衣| 97人妻碰碰视频免费上线| 欧美极品videos粗暴| 高潮喷吹一区二区在线观看| 亚洲国产精品嫩草影院| 又粗又大内射免费视频小说| 国产精品视频久| 欧美黑人又粗又大又爽免费| 日韩欧美久久久| 国产av乳头久久一区| 国内精品伊人久久久久影院麻豆 | 亚洲中文字幕成人无码| 国产肏屄视频| 无码aⅴ免费中文字幕久久| 美女又色又爽视频免费| 日韩人妻精品中文字幕| 国产精品久久久久久熟妇吹潮软件| 久久草网站| 日韩人妻丝袜美腿中文| 日本一本正道综合久久dvd | 久久中文字幕亚洲| 乱60一70归性欧老妇| 欲色欲色天天天www| 国产精品av中文字幕| 人妻少妇精品中文字幕| 欧美中文字幕一区二区三区|