![]()
I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架,通過改進 rollout 策略引導模型生成更多樣化的推理軌跡,將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”,在多個數學基準上同時提升準確率與語義多樣性,最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main,來自阿里達摩院 - 智能決策團隊。
近年來,隨著 DeepSeek-R1 等推理模型出現,基于可驗證獎勵的強化學習(RLVR)已成為提升數學、代碼能力的重要訓練范式。其核心思想在于:對同一道題采樣多條推理路徑,并根據獎勵信號,強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿,再從中學習哪些思路更值得保留。
一種直觀想法是 :如果采樣軌跡(rollout)足夠多,模型就總能探索出更多解法,獲得更有效的更新信號?然而,在實際訓練中,盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境(exploration-exploitation trade-off):模型既要利用可驗證獎勵,強化當前更容易得到正確答案的推理模式;又要保持探索能力,跳出已有模板,嘗試新的解題方向。
當前的 rollout 采樣機制天然偏向 “利用”:模型很快收斂到少數高概率推理模板,生成的軌跡雖然措辭不同,底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號,使額外采樣也難以帶來有效更新。
![]()
表 1: 高熵 Token 類別示例
熵,作為衡量模型在生成下一步時不確定性的指標,天然指向探索的關鍵節點。通過系統實驗,我們發現:策略熵往往與邏輯轉折、自我糾錯等行為高度相關(如表 1 所示),是引導模型探索的有效信號。
![]()
圖 1:RLVR 中不同探索范式的對比(a)Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵,但容易讓模型生成冗長、重復或與解題無關的內容,形成 “高熵但低信息量” 的無效探索。(b)token-level 的概率擾動方法則只在局部高熵 token 上調整概率,往往只能帶來連接詞、同義詞或表層表達的變化,也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。
然而,在實踐中我們發現,在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動,無法持續影響后續推理軌跡的整體走向。如圖 1 所示,基于熵的強化學習方法存在以下關鍵問題:
- 獎勵作弊(Reward Hacking):模型為了騙取熵相關的獎勵項,故意生成無意義的發散,生成冗長、重復或與解題無關的內容。
- 歸納偏置(Inductive Bias):僅僅在詞層面做文章,無法打破模型的預訓練歸納偏置。
為了解決這些問題,我們提出 I2B-LPO:在高熵節點向模型注入潛變量分支,以確保在模型在關鍵節點生成更具區分度的推理軌跡,并引入一種反饋機制,濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索,進一步突破大模型的推理性能瓶頸。
![]()
- 論文標題:I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
- 論文鏈接:https://arxiv.org/pdf/2601.05870
- 開源鏈接:https://github.com/denghuilin-cyber/IIB-LPO
01 工作概述
本文提出一種面向 RLVR 后訓練的探索增強框架,鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言,I2B-LPO 通過改進 rollout 策略,使模型在有限采樣預算下獲得更有效的探索信號,顯著提升了數學推理任務中的準確率與語義多樣性。
理論與現象分析:
1. 高熵節點是真正的推理分叉點: 我們按 token-level entropy 對推理過程進行分組實驗,發現模型處于高熵區間時,不同解碼策略的性能差異明顯放大;而在低熵區間,這種差異并不顯著。這說明高熵位置往往對應關鍵決策點,更適合作為推理軌跡的分支位置。
2. 推理長度不等同于有效推理: 在標準 GRPO 訓練中,我們觀察到:模型準確率較早進入平臺期,但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容,而不是產生更有效的推理。因此,有效探索不僅要生成更多路徑,也要識別真正有信息量的路徑。
核心創新:
I2B-LPO: 我們提出了一種面向 RLVR 后訓練的探索增強框架,結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制,在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。
驗證與結果:
我們基于 GRPO 框架,在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示,I2B-LPO 同時提升了推理準確率與語義多樣性,在保證探索多樣性的同時避免了過度冗長。
02 具體方法
![]()
圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程,使模型既能探索不同解題方向,又能避免無效發散。
I2B-LPO 并不替換原有 GRPO 訓練框架,而是改進其中的 rollout 生成與策略更新過程:先讓推理軌跡在關鍵位置分叉,再篩選出真正高質量的探索路徑參與更新。
1.熵驅動潛變量分支: 對每條初始 rollout,I2B-LPO 會定位策略熵較高的 “猶豫節點”,并基于當前推理前綴采樣潛變量,通過偽自注意力機制(PSA)注入模型內部,持續影響后續生成,從而得到多條結構上更具差異的推理軌跡。
2.信息瓶頸自獎勵: 對生成的分支軌跡,I2B-LPO 使用信息瓶頸指標進行排序和篩選,保留簡潔、高信息量、對答案真正有幫助的路徑,過濾冗長、重復或邏輯漂移的無效探索,并將高質量軌跡用于 GRPO 策略更新。
具體流程可以概括為:初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新
1.熵驅動潛變量分支
對于一條初始推理軌跡 r=(o1,…,oT),I2B-LPO 首先計算每個生成位置的策略熵:
![]()
其中,Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高,說明模型在當前位置越 “猶豫”,也更可能存在不同推理方向。
因此,我們選擇高熵位置作為推理分叉點:
![]()
其中,τ 表示熵的高分位閾值。隨后,I2B-LPO 基于當前推理前綴 ct? 采樣潛變量:
![]()
這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成,而不是只改變某個 token 的概率,I2B-LPO 設計了偽自注意力機制(Pseudo Self-Attention, PSA)。
具體來說,PSA 首先用潛變量調制 RMSNorm 的縮放參數:
![]()
其中,γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導,同時避免后期過度干擾。接著,PSA 將潛變量映射為額外的 Key 和 Value,并拼接到原始注意力中:
![]()
最終注意力計算變為:
![]()
直觀來說,PSA 相當于給模型加入一個 “隱含思路提示”:它持續影響后續推理軌跡,使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。
2.信息瓶頸自獎勵
生成多條候選軌跡后,I2B-LPO 不會直接全部用于訓練,而是利用信息瓶頸指標進行篩選。核心思想是:好的推理路徑應該既簡潔,又對最終答案有幫助。
我們用如下分數衡量一條軌跡的質量:
![]()
其中,I (r;a) 表示推理軌跡對最終答案的信息貢獻,I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高,說明該軌跡越簡潔、有效、直擊答案。
最終,I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡:
![]()
并將其用于 GRPO 策略更新:
![]()
03 實驗結果
為了驗證我們的模型在數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:
訓練數據:
訓練數據主要來自 DAPO 和 MATH。為提升訓練效率,我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本,最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。
Benchmarks:
- AIME2025 / AIME2024: 美國高中數學邀請賽基準,解題步驟復雜。
- MATH-500: 覆蓋代數、幾何、數論、概率多個主題,考驗通用數學推理能力。
- OlympiadBench: 奧林匹克競賽級別的高難度數學基準,強調長鏈條推導和跨知識點綜合能力。
- GSM8K: 初中水平數學應用題基準,評估基礎算術推理和自然語言問題求解。
![]()
表 2: 不同方法的推理準確率對比
![]()
表 3: 不同方法的推理多樣性指標對比
表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示,I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能,不僅答得更準,也能生成更多樣的推理路徑。
![]()
圖 3: 不同方法下的熵分布與訓練動態對比。(a)展示不同方法下 token 概率與熵的分布關系;(b)展示訓練過程中平均熵的變化趨勢。相比 其他方法,I2B-LPO 能在訓練后期維持更穩定的熵水平。
圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示,(a)散點圖中標準 GRPO 的 token 更容易集中到低熵區域,說明模型逐漸變得 “確定”,探索空間被壓縮;Entropy Regularization 雖然提高了熵,但容易出現異常高熵點,帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。(b)曲線進一步表明,I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平,避免模型過早陷入單一推理模板,從而保留有效探索能力。
圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭,藍色表示在低難度題目中更活躍的注意力頭。
為驗證潛變量分支是否帶來結構化推理引導 還是 隨機噪聲注入,我們可視化了注意力激活模式。如圖 4 所示,輸入層注入機制容易被深層稀釋,softmax 層注入機制則會造成分散激活;而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭,形成更有結構的推理激活模式。
我們進一步分析了自獎勵機制篩除的低質量軌跡,發現低 IB 分數的軌跡主要有三類典型問題:
- 空泛冗長: 看似在認真分析,實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
- 重復循環: 反復重述題目或中間步驟,生成長度變長,但沒有新增推理信息。
- 邏輯漂移: 表達很簡潔,但關鍵公式或推導方向出錯,對答案沒有幫助。
相比之下,高 IB 分數的軌跡往往更短、更直接,并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”,而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。
![]()
圖 5. 高 IB 分數與低 IB 分數推理軌跡對比
總結
本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析,我們發現,標準隨機 rollout 容易讓模型收斂到少數高概率推理模板,導致多條推理軌跡表面不同、底層同質,進而削弱軌跡間的獎勵差異和有效學習信號。
基于這一發現,我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索:
- 高熵節點分支: 在模型真正不確定的關鍵位置生成多樣化推理軌跡。
- 信息瓶頸自獎勵: 篩選簡潔、高信息量、直擊答案的高質量路徑,過濾冗長和無效推理。
實驗結果表明,I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性,在有限采樣預算下實現更高效、更可靠的 RLVR 探索。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.