<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      JustGRPO:擴散語言模型的極簡主義回歸

      0
      分享至



      擴散語言模型(Diffusion LLMs, dLLMs)因支持「任意順序生成」和并行解碼而備受矚目。直覺上,打破傳統自回歸(AR)「從左到右」的束縛,理應賦予模型更廣闊的解空間,從而在數學、代碼等復雜任務上解鎖更強的推理潛力。

      然而,本研究揭示了一個反直覺的現實:當前的任意順序生成,反而通過「規避不確定性」收窄了模型的推理邊界。

      基于此,本文提出了一種回歸極簡的方法——JustGRPO。實驗表明,在 RL 階段讓模型自回歸生成,并直接用標準的 GRPO 進行訓練,即可超越當前各類針對 dLLM 設計的 RL 算法表現。更重要的是,這種訓練方式在提升推理表現的同時,并未犧牲dLLM 引以為傲的并行解碼能力。



      • 論文標題:The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
      • 論文鏈接:https://huggingface.co/papers/2601.15165
      • 項目主頁:https://nzl-thu.github.io/the-flexibility-trap
      • 論文代碼:https://github.com/LeapLabTHU/JustGRPO

      「靈活性陷阱」:

      為什么選擇多反而考不好?

      為了探究「靈活性是否等同于推理潛力」,本文引入了 Pass@k 作為核心衡量指標。該指標量化了在 k 次采樣中至少生成一個正確答案的概率,能夠有效反映模型解空間的覆蓋廣度以及 RL 訓練可激發的推理潛力上限(Yue et al., 2025)。

      對比實驗涵蓋了兩種主要的解碼模式:

      • 任意順序(Arbitrary Order):允許模型根據置信度動態選擇生成順序,這是擴散語言模型的標準解碼方式。
      • AR 順序(AR Order):約束模型遵循傳統 LLM 從左到右的生成順序。

      實驗結果揭示了一個值得深思的趨勢:雖然任意順序在 k=1 時表現尚可,但隨著采樣次數 k 的增加,AR 順序的 Pass@k 曲線不僅攀升速率更快,且最終達到的上限顯著更高。這表明,在涉及復雜推理時,AR 順序實際上可幫助模型覆蓋更廣闊的正確解空間。



      圖:限制 dLLM 使用標準的 AR 順序,反而比靈活的任意順序擁有更高的推理上限。

      熵坍塌現象

      為何看似受限的 AR 順序反而更具潛力?這與兩種順序如何處理不確定性有關。

      在自回歸模式下,模型被迫直面第一個未知 Token;而在任意順序模式下,模型則有跳過(bypass)當前不確定 Token、優先填充后續更確定的內容的「特權」。統計顯示,被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞(下圖左):



      圖左:任意順序下,模型傾向于跳過不確定token而先填后續token,且這些被跳過的token往往是一些邏輯銜接詞;圖右:這些邏輯銜接詞解碼時的entropy顯著低于自回歸順序(虛線代表average token entropy)。以上結果為LLaDA-Instruct在MATH-500數據集的結果。

      已有工作(Wang et al., 2025)表明,這些邏輯銜接詞往往起到通往不同推理路徑的功能,且將這些詞保持高熵狀態對模型探索豐富的解空間至關重要。而在任意順序下,這些銜接詞被解碼時的熵(Entropy)顯著低于自回歸順序(上圖右)。

      我們將這種現象稱為「熵降級」(Entropy Degradation)。形象地說,模型利用了任意順序的靈活性進行了一種「局部貪婪優化」:它跳過了艱難的推理決策點,試圖通過先生成后續上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效,但卻犧牲了對多樣化推理路徑的有效探索。



      圖:任意順序生成傾向于繞過高熵的邏輯連接詞,導致解空間過早坍縮。

      返璞歸真:

      JustGRPO

      既然「任意順序」反而可能限制推理路徑的探索,本文提出了一種回歸極簡的方法——JustGRPO。不同于現有 RL 算法,JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性,而是選擇了一條更為徹底的路徑:

      在 RL 訓練階段,直接摒棄對任意順序的執念,強制擴散語言模型采用自回歸(AR)順序生成。這樣不僅保持了更廣闊的推理路徑,同時也讓我們得以直接復用成熟的 GRPO 算法進行優化。這種「生成軌跡的確定性」也自然使得強化學習時的信用分配(Credit Assignment)更加清晰,有助于模型更有效地學習魯棒的聯合分布。

      值得一提的是:「訓練時的約束」≠「推理時的退化」

      自回歸的約束僅存在于訓練階段。它的目的是為了讓模型更有效地進行 RL 階段的探索與信用分配,模型本身的雙向注意力機制并未被破壞。一旦訓練完成,我們依然可以在推理階段無損地應用并行解碼,在享受 AR 訓練帶來的更優推理表現的同時,保留擴散模型引以為傲的生成速度。

      實驗結果:

      簡單,但極其有效

      性能大幅提升

      在數學推理和代碼生成這兩類通用的推理任務上,JustGRPO 均有優秀的表現:

      • 數學推理:在 GSM8K 和 MATH-500 上,模型展現了極高的推理上限,準確率最高分別可達 89.8% 和 45.2%,相比之前的最佳方法(SPG)顯著提升。

      • 代碼生成:在 HumanEval 與 MBPP 數據集上,準確率分別達到 49.4% 和 52.4%。



      表:JustGRPO在多個基準測試中超越了現有的 dLLM 強化學習方法,基座模型:LLaDA-Instruct。注:LLaDA-1.5使用了大規模私有數據集訓練、LLaDOU在訓練中引入了額外模塊,因此未列入對比。

      并行能力不僅沒丟,還更強了

      一個可能的擔憂是:用 AR 方式訓練是否會讓 dLLM 退化,失去其并行優勢?實驗結果恰恰相反。使用現成的 training-free 并行采樣器(Ben-Hamu et al., 2025),JustGRPO 訓練后的模型在并行解碼下表現更佳。例如在 MBPP 數據集上,當每步并行解碼 5 個 Token 時,JustGRPO 相比基座模型(LLaDA-Instruct)的準確率優勢從單步的 10.6% 擴大到了25.5%。

      這表明訓練后的模型學到了更魯棒的聯合分布,使其更能適應并行采樣過程中的近似誤差。



      圖:JustGRPO 訓練后的模型在并行解碼時表現出更好的速度-精度權衡。

      結語:

      少即是多

      這篇工作挑戰了該領域的一個普遍假設,即「必須在 RL 中保留任意順序靈活性」。事實證明,通過限制訓練時的生成順序,迫使模型直面邏輯分叉點的高不確定性,反而能更有效地激發 dLLMs 的推理潛能。

      JustGRPO以一種極簡的方式,實現了推理能力的大幅提升,同時未犧牲擴散模型標志性的推理速度。也希望借此工作啟發社區重新審視「任意順序生成」在通用推理任務中的真實價值。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2-11到21-18!陳雨菲決勝局翻盤:70分鐘鏖戰,2-1反轉,險1輪游

      2-11到21-18!陳雨菲決勝局翻盤:70分鐘鏖戰,2-1反轉,險1輪游

      劉姚堯的文字城堡
      2026-05-13 16:13:44
      12年交車不足20輛!賈躍亭宣布FF轉型:不造車了,改做具身智能機器人

      12年交車不足20輛!賈躍亭宣布FF轉型:不造車了,改做具身智能機器人

      TechWeb
      2026-05-13 10:07:03
      4只皮皮蝦事件后續:出租車司機被開除,顧客堅持認為司機收了錢

      4只皮皮蝦事件后續:出租車司機被開除,顧客堅持認為司機收了錢

      映射生活的身影
      2026-05-13 16:55:14
      奪冠代價!阿森納沖刺雙冠或送切爾西5800萬,哈弗茨成關鍵

      奪冠代價!阿森納沖刺雙冠或送切爾西5800萬,哈弗茨成關鍵

      星耀國際足壇
      2026-05-13 14:03:59
      “十年燒烤無人問,一墻書法天下知!”女孩在父親店寫《將進酒》

      “十年燒烤無人問,一墻書法天下知!”女孩在父親店寫《將進酒》

      一絲不茍的法律人
      2026-05-12 21:58:34
      博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

      博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

      妍妍教育日記
      2026-05-13 09:55:04
      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      一個有靈魂的作者
      2026-05-12 21:21:19
      開票僅1天宣布取消!許冠杰廣州演唱會公告稱因“不可抗力”

      開票僅1天宣布取消!許冠杰廣州演唱會公告稱因“不可抗力”

      南方都市報
      2026-05-13 16:02:09
      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      花小廚
      2026-05-12 12:27:48
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      坐標上海!被裁失業后的生活,引炸評論區,大家同為天涯淪落人…

      坐標上海!被裁失業后的生活,引炸評論區,大家同為天涯淪落人…

      慧翔百科
      2026-05-13 11:30:11
      女子穿禮服退款后續:身份被扒已社死,工作被停職,商家準備起訴

      女子穿禮服退款后續:身份被扒已社死,工作被停職,商家準備起訴

      千言娛樂記
      2026-05-13 12:18:49
      被姚明抱著上奧運的抗震小英雄,曾發誓考上清華,18年后成了這樣

      被姚明抱著上奧運的抗震小英雄,曾發誓考上清華,18年后成了這樣

      云舟史策
      2026-05-13 07:17:23
      為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

      為什么去過朝鮮回來就沉默的人,不是隱瞞,是真的說不出

      老特有話說
      2026-05-12 15:41:08
      “摸奶子”惹爭議!OPPO的流量反噬開始了

      “摸奶子”惹爭議!OPPO的流量反噬開始了

      廣告創意
      2026-05-13 08:25:55
      頭皮發麻!廣東飛蟻大爆發 住30幾樓都逃不掉

      頭皮發麻!廣東飛蟻大爆發 住30幾樓都逃不掉

      看看新聞Knews
      2026-05-13 12:04:06
      烏軍展開鏡像反擊,美將俄列為全球最腐敗國家,美宣布從歐洲撤軍

      烏軍展開鏡像反擊,美將俄列為全球最腐敗國家,美宣布從歐洲撤軍

      史政先鋒
      2026-05-13 18:59:40
      美國總統特朗普抵達北京開始訪華

      美國總統特朗普抵達北京開始訪華

      新京報
      2026-05-13 19:52:17
      超預期!美國,重磅發布

      超預期!美國,重磅發布

      證券時報
      2026-05-12 21:52:07
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      忠于法紀
      2026-05-12 17:29:09
      2026-05-13 21:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12986文章數 142648關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      頭條要聞

      美國總統時隔9年再次訪華 特朗普抵達北京

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      游戲
      房產
      時尚
      手機
      教育

      LCK第二賽段:DK連下兩城擊潰DNS!菜隊還是一如既往的菜

      房產要聞

      卷瘋了!最低殺到7字頭!手握30萬,海口樓市橫著走!

      快來解鎖富家千金風穿搭,穿舒適又時髦,一鍵拿捏優雅氣質

      手機要聞

      紅魔11S Pro+搶先看 可視化雙主動散熱本月見

      教育要聞

      活動報名丨管理學博士預備課暨招生說明會@上海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 超碰2025| 夜色阁亚洲一区二区三区| 波多野结衣一区二区三区av高清 | 青青草欧美| 亚洲福利视频一区二区| 亚洲日韩精品制服丝袜AV| 色琪琪丁香婷婷综合久久| 50岁熟妇的呻吟声对白| 天天狠天天添日日拍| 欧美亚洲另类制服卡通动漫| 婷婷综合色| 久久久久国产精品免费免费搜索| 无码专区aaaaaa免费视频| 日韩av综合中文字幕| 91视频入口| 97视频在线观看免费视频| 中文字幕日本一区二区在线观看| 亚洲一级免费毛片| 久久女女蕾丝边互相摩擦网站 | 国产精品鲁鲁鲁| 在线中文一区字幕对白| 亚洲手机在线播放| 影音先锋人妻资源| 国产精品尤物乱码一区二区| 男女在线免费视频网站| 欧美福利在线观看| 国产麻传媒精品国产av| 九九热在线精品视频九九| 在线|国产精品女主播阳台| 日本中文字幕不卡在线一区二区| 在线a√天堂中文www| 国产免费一级高清淫日本片| 丰满少妇高潮惨叫久久久| 午夜亚洲aⅴ无码高潮片苍井空| 大陆精大陆国产国语精品| 久久美女精品| 久久久久久久人妻无码中文字幕爆| 日韩人妻无码专区一本二| 久久久久国产一级毛片高清板| 午夜国产| 久久精品女人天堂av|