<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      打破推理同質化!阿里達摩院新作讓RLVR從重復采樣走向有效探索

      0
      分享至



      I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架,通過改進 rollout 策略引導模型生成更多樣化的推理軌跡,將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”,在多個數學基準上同時提升準確率與語義多樣性,最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main,來自阿里達摩院 - 智能決策團隊。

      近年來,隨著 DeepSeek-R1 等推理模型出現,基于可驗證獎勵的強化學習(RLVR)已成為提升數學、代碼能力的重要訓練范式。其核心思想在于:對同一道題采樣多條推理路徑,并根據獎勵信號,強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿,再從中學習哪些思路更值得保留。

      一種直觀想法是 :如果采樣軌跡(rollout)足夠多,模型就總能探索出更多解法,獲得更有效的更新信號?然而,在實際訓練中,盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境(exploration-exploitation trade-off):模型既要利用可驗證獎勵,強化當前更容易得到正確答案的推理模式;又要保持探索能力,跳出已有模板,嘗試新的解題方向。

      當前的 rollout 采樣機制天然偏向 “利用”:模型很快收斂到少數高概率推理模板,生成的軌跡雖然措辭不同,底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號,使額外采樣也難以帶來有效更新。



      表 1: 高熵 Token 類別示例

      熵,作為衡量模型在生成下一步時不確定性的指標,天然指向探索的關鍵節點。通過系統實驗,我們發現:策略熵往往與邏輯轉折、自我糾錯等行為高度相關(如表 1 所示),是引導模型探索的有效信號。



      圖 1:RLVR 中不同探索范式的對比(a)Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵,但容易讓模型生成冗長、重復或與解題無關的內容,形成 “高熵但低信息量” 的無效探索。(b)token-level 的概率擾動方法則只在局部高熵 token 上調整概率,往往只能帶來連接詞、同義詞或表層表達的變化,也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。

      然而,在實踐中我們發現,在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動,無法持續影響后續推理軌跡的整體走向。如圖 1 所示,基于熵的強化學習方法存在以下關鍵問題:

      1. 獎勵作弊(Reward Hacking):模型為了騙取熵相關的獎勵項,故意生成無意義的發散,生成冗長、重復或與解題無關的內容。
      2. 歸納偏置(Inductive Bias):僅僅在詞層面做文章,無法打破模型的預訓練歸納偏置。

      為了解決這些問題,我們提出 I2B-LPO:在高熵節點向模型注入潛變量分支,以確保在模型在關鍵節點生成更具區分度的推理軌跡,并引入一種反饋機制,濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索,進一步突破大模型的推理性能瓶頸。



      • 論文標題:I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
      • 論文鏈接:https://arxiv.org/pdf/2601.05870
      • 開源鏈接:https://github.com/denghuilin-cyber/IIB-LPO

      01 工作概述

      本文提出一種面向 RLVR 后訓練的探索增強框架,鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言,I2B-LPO 通過改進 rollout 策略,使模型在有限采樣預算下獲得更有效的探索信號,顯著提升了數學推理任務中的準確率與語義多樣性。

      理論與現象分析:

      1. 高熵節點是真正的推理分叉點: 我們按 token-level entropy 對推理過程進行分組實驗,發現模型處于高熵區間時,不同解碼策略的性能差異明顯放大;而在低熵區間,這種差異并不顯著。這說明高熵位置往往對應關鍵決策點,更適合作為推理軌跡的分支位置。

      2. 推理長度不等同于有效推理: 在標準 GRPO 訓練中,我們觀察到:模型準確率較早進入平臺期,但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容,而不是產生更有效的推理。因此,有效探索不僅要生成更多路徑,也要識別真正有信息量的路徑。

      核心創新:

      I2B-LPO: 我們提出了一種面向 RLVR 后訓練的探索增強框架,結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制,在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。

      驗證與結果:

      我們基于 GRPO 框架,在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示,I2B-LPO 同時提升了推理準確率與語義多樣性,在保證探索多樣性的同時避免了過度冗長。

      02 具體方法



      圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程,使模型既能探索不同解題方向,又能避免無效發散。

      I2B-LPO 并不替換原有 GRPO 訓練框架,而是改進其中的 rollout 生成與策略更新過程:先讓推理軌跡在關鍵位置分叉,再篩選出真正高質量的探索路徑參與更新。

      1.熵驅動潛變量分支: 對每條初始 rollout,I2B-LPO 會定位策略熵較高的 “猶豫節點”,并基于當前推理前綴采樣潛變量,通過偽自注意力機制(PSA)注入模型內部,持續影響后續生成,從而得到多條結構上更具差異的推理軌跡。

      2.信息瓶頸自獎勵: 對生成的分支軌跡,I2B-LPO 使用信息瓶頸指標進行排序和篩選,保留簡潔、高信息量、對答案真正有幫助的路徑,過濾冗長、重復或邏輯漂移的無效探索,并將高質量軌跡用于 GRPO 策略更新。

      具體流程可以概括為:初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新

      1.熵驅動潛變量分支

      對于一條初始推理軌跡 r=(o1,…,oT),I2B-LPO 首先計算每個生成位置的策略熵:



      其中,Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高,說明模型在當前位置越 “猶豫”,也更可能存在不同推理方向。

      因此,我們選擇高熵位置作為推理分叉點:



      其中,τ 表示熵的高分位閾值。隨后,I2B-LPO 基于當前推理前綴 ct? 采樣潛變量:



      這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成,而不是只改變某個 token 的概率,I2B-LPO 設計了偽自注意力機制(Pseudo Self-Attention, PSA)。

      具體來說,PSA 首先用潛變量調制 RMSNorm 的縮放參數:



      其中,γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導,同時避免后期過度干擾。接著,PSA 將潛變量映射為額外的 Key 和 Value,并拼接到原始注意力中:



      最終注意力計算變為:



      直觀來說,PSA 相當于給模型加入一個 “隱含思路提示”:它持續影響后續推理軌跡,使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。

      2.信息瓶頸自獎勵

      生成多條候選軌跡后,I2B-LPO 不會直接全部用于訓練,而是利用信息瓶頸指標進行篩選。核心思想是:好的推理路徑應該既簡潔,又對最終答案有幫助。

      我們用如下分數衡量一條軌跡的質量:



      其中,I (r;a) 表示推理軌跡對最終答案的信息貢獻,I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高,說明該軌跡越簡潔、有效、直擊答案。

      最終,I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡:



      并將其用于 GRPO 策略更新:



      03 實驗結果

      為了驗證我們的模型在數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:

      訓練數據:

      訓練數據主要來自 DAPO 和 MATH。為提升訓練效率,我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本,最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。

      Benchmarks:

      • AIME2025 / AIME2024: 美國高中數學邀請賽基準,解題步驟復雜。
      • MATH-500: 覆蓋代數、幾何、數論、概率多個主題,考驗通用數學推理能力。
      • OlympiadBench: 奧林匹克競賽級別的高難度數學基準,強調長鏈條推導和跨知識點綜合能力。
      • GSM8K: 初中水平數學應用題基準,評估基礎算術推理和自然語言問題求解。



      表 2: 不同方法的推理準確率對比



      表 3: 不同方法的推理多樣性指標對比

      表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示,I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能,不僅答得更準,也能生成更多樣的推理路徑。



      圖 3: 不同方法下的熵分布與訓練動態對比。(a)展示不同方法下 token 概率與熵的分布關系;(b)展示訓練過程中平均熵的變化趨勢。相比 其他方法,I2B-LPO 能在訓練后期維持更穩定的熵水平。

      圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示,(a)散點圖中標準 GRPO 的 token 更容易集中到低熵區域,說明模型逐漸變得 “確定”,探索空間被壓縮;Entropy Regularization 雖然提高了熵,但容易出現異常高熵點,帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。(b)曲線進一步表明,I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平,避免模型過早陷入單一推理模板,從而保留有效探索能力。

      圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭,藍色表示在低難度題目中更活躍的注意力頭。

      為驗證潛變量分支是否帶來結構化推理引導 還是 隨機噪聲注入,我們可視化了注意力激活模式。如圖 4 所示,輸入層注入機制容易被深層稀釋,softmax 層注入機制則會造成分散激活;而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭,形成更有結構的推理激活模式。

      我們進一步分析了自獎勵機制篩除的低質量軌跡,發現低 IB 分數的軌跡主要有三類典型問題:

      • 空泛冗長: 看似在認真分析,實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
      • 重復循環: 反復重述題目或中間步驟,生成長度變長,但沒有新增推理信息。
      • 邏輯漂移: 表達很簡潔,但關鍵公式或推導方向出錯,對答案沒有幫助。

      相比之下,高 IB 分數的軌跡往往更短、更直接,并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”,而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。



      圖 5. 高 IB 分數與低 IB 分數推理軌跡對比

      總結

      本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析,我們發現,標準隨機 rollout 容易讓模型收斂到少數高概率推理模板,導致多條推理軌跡表面不同、底層同質,進而削弱軌跡間的獎勵差異和有效學習信號。

      基于這一發現,我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索:

      • 高熵節點分支: 在模型真正不確定的關鍵位置生成多樣化推理軌跡。
      • 信息瓶頸自獎勵: 篩選簡潔、高信息量、直擊答案的高質量路徑,過濾冗長和無效推理。

      實驗結果表明,I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性,在有限采樣預算下實現更高效、更可靠的 RLVR 探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最新研究表明,維生素B12可能是健康老齡化的關鍵,真相來了!

      最新研究表明,維生素B12可能是健康老齡化的關鍵,真相來了!

      岐黃傳人孫大夫
      2026-05-12 20:10:03
      廣東男籃最新消息:北控張口就要徐杰?這離譜報價把廣東看懵!張14離隊,焦泊喬表態

      廣東男籃最新消息:北控張口就要徐杰?這離譜報價把廣東看懵!張14離隊,焦泊喬表態

      夢憶之淺
      2026-05-15 00:11:33
      孩子跑動撞熱油鍋燙傷,海底撈店長稱一直勸別跑,家長:員工端油鍋應注意;海底撈相關人士:愿意讓法律評判

      孩子跑動撞熱油鍋燙傷,海底撈店長稱一直勸別跑,家長:員工端油鍋應注意;海底撈相關人士:愿意讓法律評判

      界面新聞
      2026-05-14 19:40:03
      77歲曹查理獨居東莞租房:拍三級片賺了幾千萬,如今一套房都沒留

      77歲曹查理獨居東莞租房:拍三級片賺了幾千萬,如今一套房都沒留

      飄飄然的娛樂匯
      2026-05-14 21:50:07
      美股AI光互聯龍頭盤前狂飆25%

      美股AI光互聯龍頭盤前狂飆25%

      財聞
      2026-05-14 20:11:26
      凱文·加內特怒懟保羅·皮爾斯,指責其與美國球員存在分歧

      凱文·加內特怒懟保羅·皮爾斯,指責其與美國球員存在分歧

      好火子
      2026-05-15 05:02:57
      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發現被騙

      大愛三湘
      2026-05-08 11:09:27
      既然基本盤不能被嘲笑,嘲笑基本盤的就應該打個問號:你何許人也

      既然基本盤不能被嘲笑,嘲笑基本盤的就應該打個問號:你何許人也

      長星寄明月
      2026-05-14 12:01:57
      又一“水果騙局”被曝光!背后全是科技與狠活,網友:智商稅

      又一“水果騙局”被曝光!背后全是科技與狠活,網友:智商稅

      品牌觀察官
      2026-05-14 17:17:47
      歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

      歷經2小時15分,中美會談結束,川普罕見送上大禮,中方直接定了性

      小陸搞笑日常
      2026-05-15 01:18:30
      拉什福德夢碎?曼聯醞釀驚天互換,6000 萬超級巨星或空降夢劇場

      拉什福德夢碎?曼聯醞釀驚天互換,6000 萬超級巨星或空降夢劇場

      奶蓋熊本熊
      2026-05-15 00:46:29
      不想戀愛,但又有性需求,怎么辦?

      不想戀愛,但又有性需求,怎么辦?

      性學研究僧
      2026-05-14 19:50:47
      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      英國那些事兒
      2026-05-14 23:32:24
      章澤天穿香奈兒紅裙出現在戛納電影節,裙子是剛買的,墨鏡太大了

      章澤天穿香奈兒紅裙出現在戛納電影節,裙子是剛買的,墨鏡太大了

      好賢觀史記
      2026-05-14 15:20:12
      盧比奧會談時總抬頭看人民大會堂頂部,原因其實很簡單

      盧比奧會談時總抬頭看人民大會堂頂部,原因其實很簡單

      叮當當科技
      2026-05-14 18:29:09
      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力,精力充沛過夏

      花小廚
      2026-05-12 12:27:48
      中美王牌對王牌,沒有任何籌碼的歐盟,才發現自己被特朗普騙了

      中美王牌對王牌,沒有任何籌碼的歐盟,才發現自己被特朗普騙了

      晚霧空青
      2026-05-14 17:46:11
      代謝高了,人自然就瘦了!6 個方法加強代謝,每天多燃燒400千卡

      代謝高了,人自然就瘦了!6 個方法加強代謝,每天多燃燒400千卡

      增肌減脂
      2026-05-14 13:05:18
      車田正美70歲再開新坑,《天界篇》終于不鴿了

      車田正美70歲再開新坑,《天界篇》終于不鴿了

      晚星歸航2
      2026-05-14 16:06:36
      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      43歲未婚官宣二胎,網友傻眼了:姐你糊涂啊……

      FUFASHION
      2026-05-14 21:06:25
      2026-05-15 05:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12996文章數 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      家居
      房產
      健康
      教育
      時尚

      家居要聞

      精神奢享 對話塔尖需求

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      專家揭秘干細胞回輸的安全風險

      教育要聞

      老師的績效也隨工資發了,領導好像不太能拿捏老師們了!

      白色上衣+彩色下裝:今年夏天最火搭配,時髦又減齡!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品_国产精品_k频道| 日本久久综合| 在线天堂www在线| 亚洲AV无码中文AV日韩A| 天天影视色香欲综合久久| 久久久久久久妓女精品免费影院| 国产精品成人无码久久久久久| 午夜福利偷拍国语对白| 美女无遮挡免费视频网站| 亚洲欧美成人一区二区三区| 国产国语毛片在线看国产| AV无码一区二区三区国产| 亚洲精品一区二区久| 中文字幕第4页| 日韩欧美不卡| 国产成人亚洲无码淙合青草| 精品亚洲欧美无人区乱码| 日韩久久精品| 东京热无码av| 国产三级a三级三级| 一级毛片在线免费视频| 娇妻系列交换27部多p在线观看| 狠狠躁日日躁人人爽| 国产又爽又黄的视频| 4hu四虎永久在线观看| 精品国产一区二区三区四区五区| 凸凹人妻人人澡人人添| 亚洲成人av日韩在线| 人妻无码vs中文字幕久久av爆| 欧美内射rape视频| 欧美丝袜你懂的| 中文字幕精品亚洲二区| 日韩a一级理论电影| 福利视频一二区| 天天爽夜夜爽人人爽从早干到睌| 老女老肥熟国产在线视频| 在线亚洲视频网站www色| 国产精品国产三级欧美二区 | 高清国产va日韩亚洲免费午夜电影| 国产亚洲精品自在久久不卡 | 欧美成人精品三级在线观看|