網易首頁 > 網易號 > 正文申請入駐

打破推理同質化！阿里達摩院新作讓RLVR從重復采樣走向有效探索

2026-05-14 13:44:05　來源: 機器之心Pro

河北舉報

分享至

I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架，通過改進 rollout 策略引導模型生成更多樣化的推理軌跡，將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”，在多個數學基準上同時提升準確率與語義多樣性，最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main，來自阿里達摩院 - 智能決策團隊。

近年來，隨著 DeepSeek-R1 等推理模型出現，基于可驗證獎勵的強化學習（RLVR）已成為提升數學、代碼能力的重要訓練范式。其核心思想在于：對同一道題采樣多條推理路徑，并根據獎勵信號，強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿，再從中學習哪些思路更值得保留。

一種直觀想法是：如果采樣軌跡（rollout）足夠多，模型就總能探索出更多解法，獲得更有效的更新信號？然而，在實際訓練中，盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境（exploration-exploitation trade-off）：模型既要利用可驗證獎勵，強化當前更容易得到正確答案的推理模式；又要保持探索能力，跳出已有模板，嘗試新的解題方向。

當前的 rollout 采樣機制天然偏向 “利用”：模型很快收斂到少數高概率推理模板，生成的軌跡雖然措辭不同，底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號，使額外采樣也難以帶來有效更新。

表 1: 高熵 Token 類別示例

熵，作為衡量模型在生成下一步時不確定性的指標，天然指向探索的關鍵節點。通過系統實驗，我們發現：策略熵往往與邏輯轉折、自我糾錯等行為高度相關（如表 1 所示），是引導模型探索的有效信號。

圖 1：RLVR 中不同探索范式的對比（a）Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵，但容易讓模型生成冗長、重復或與解題無關的內容，形成 “高熵但低信息量” 的無效探索。（b）token-level 的概率擾動方法則只在局部高熵 token 上調整概率，往往只能帶來連接詞、同義詞或表層表達的變化，也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。

然而，在實踐中我們發現，在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動，無法持續影響后續推理軌跡的整體走向。如圖 1 所示，基于熵的強化學習方法存在以下關鍵問題：

獎勵作弊（Reward Hacking）：模型為了騙取熵相關的獎勵項，故意生成無意義的發散，生成冗長、重復或與解題無關的內容。
歸納偏置（Inductive Bias）：僅僅在詞層面做文章，無法打破模型的預訓練歸納偏置。

為了解決這些問題，我們提出 I2B-LPO：在高熵節點向模型注入潛變量分支，以確保在模型在關鍵節點生成更具區分度的推理軌跡，并引入一種反饋機制，濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索，進一步突破大模型的推理性能瓶頸。

論文標題：I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
論文鏈接：https://arxiv.org/pdf/2601.05870
開源鏈接：https://github.com/denghuilin-cyber/IIB-LPO

01 工作概述

本文提出一種面向 RLVR 后訓練的探索增強框架，鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言，I2B-LPO 通過改進 rollout 策略，使模型在有限采樣預算下獲得更有效的探索信號，顯著提升了數學推理任務中的準確率與語義多樣性。

理論與現象分析：

1. 高熵節點是真正的推理分叉點：我們按 token-level entropy 對推理過程進行分組實驗，發現模型處于高熵區間時，不同解碼策略的性能差異明顯放大；而在低熵區間，這種差異并不顯著。這說明高熵位置往往對應關鍵決策點，更適合作為推理軌跡的分支位置。

2. 推理長度不等同于有效推理：在標準 GRPO 訓練中，我們觀察到：模型準確率較早進入平臺期，但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容，而不是產生更有效的推理。因此，有效探索不僅要生成更多路徑，也要識別真正有信息量的路徑。

核心創新：

I2B-LPO：我們提出了一種面向 RLVR 后訓練的探索增強框架，結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制，在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。

驗證與結果：

我們基于 GRPO 框架，在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示，I2B-LPO 同時提升了推理準確率與語義多樣性，在保證探索多樣性的同時避免了過度冗長。

02 具體方法

圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程，使模型既能探索不同解題方向，又能避免無效發散。

I2B-LPO 并不替換原有 GRPO 訓練框架，而是改進其中的 rollout 生成與策略更新過程：先讓推理軌跡在關鍵位置分叉，再篩選出真正高質量的探索路徑參與更新。

1.熵驅動潛變量分支：對每條初始 rollout，I2B-LPO 會定位策略熵較高的 “猶豫節點”，并基于當前推理前綴采樣潛變量，通過偽自注意力機制（PSA）注入模型內部，持續影響后續生成，從而得到多條結構上更具差異的推理軌跡。

2.信息瓶頸自獎勵：對生成的分支軌跡，I2B-LPO 使用信息瓶頸指標進行排序和篩選，保留簡潔、高信息量、對答案真正有幫助的路徑，過濾冗長、重復或邏輯漂移的無效探索，并將高質量軌跡用于 GRPO 策略更新。

具體流程可以概括為：初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新

1.熵驅動潛變量分支

對于一條初始推理軌跡 r=(o1,…,oT)，I2B-LPO 首先計算每個生成位置的策略熵：

其中，Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高，說明模型在當前位置越 “猶豫”，也更可能存在不同推理方向。

因此，我們選擇高熵位置作為推理分叉點：

其中，τ 表示熵的高分位閾值。隨后，I2B-LPO 基于當前推理前綴 ct? 采樣潛變量：

這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成，而不是只改變某個 token 的概率，I2B-LPO 設計了偽自注意力機制（Pseudo Self-Attention, PSA）。

具體來說，PSA 首先用潛變量調制 RMSNorm 的縮放參數：

其中，γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導，同時避免后期過度干擾。接著，PSA 將潛變量映射為額外的 Key 和 Value，并拼接到原始注意力中：

最終注意力計算變為：

直觀來說，PSA 相當于給模型加入一個 “隱含思路提示”：它持續影響后續推理軌跡，使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。

2.信息瓶頸自獎勵

生成多條候選軌跡后，I2B-LPO 不會直接全部用于訓練，而是利用信息瓶頸指標進行篩選。核心思想是：好的推理路徑應該既簡潔，又對最終答案有幫助。

我們用如下分數衡量一條軌跡的質量：

其中，I (r;a) 表示推理軌跡對最終答案的信息貢獻，I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高，說明該軌跡越簡潔、有效、直擊答案。

最終，I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡：

并將其用于 GRPO 策略更新：

03 實驗結果

為了驗證我們的模型在數學推理任務中的表現，我們進行了廣泛的實驗，并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹：

訓練數據：

訓練數據主要來自 DAPO 和 MATH。為提升訓練效率，我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本，最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。

Benchmarks：

AIME2025 / AIME2024：美國高中數學邀請賽基準，解題步驟復雜。
MATH-500：覆蓋代數、幾何、數論、概率多個主題，考驗通用數學推理能力。
OlympiadBench：奧林匹克競賽級別的高難度數學基準，強調長鏈條推導和跨知識點綜合能力。
GSM8K：初中水平數學應用題基準，評估基礎算術推理和自然語言問題求解。

表 2: 不同方法的推理準確率對比

表 3: 不同方法的推理多樣性指標對比

表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示，I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能，不僅答得更準，也能生成更多樣的推理路徑。

圖 3: 不同方法下的熵分布與訓練動態對比。（a）展示不同方法下 token 概率與熵的分布關系；（b）展示訓練過程中平均熵的變化趨勢。相比其他方法，I2B-LPO 能在訓練后期維持更穩定的熵水平。

圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示，（a）散點圖中標準 GRPO 的 token 更容易集中到低熵區域，說明模型逐漸變得 “確定”，探索空間被壓縮；Entropy Regularization 雖然提高了熵，但容易出現異常高熵點，帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。（b）曲線進一步表明，I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平，避免模型過早陷入單一推理模板，從而保留有效探索能力。

圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭，藍色表示在低難度題目中更活躍的注意力頭。

為驗證潛變量分支是否帶來結構化推理引導還是隨機噪聲注入，我們可視化了注意力激活模式。如圖 4 所示，輸入層注入機制容易被深層稀釋，softmax 層注入機制則會造成分散激活；而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭，形成更有結構的推理激活模式。

我們進一步分析了自獎勵機制篩除的低質量軌跡，發現低 IB 分數的軌跡主要有三類典型問題：

空泛冗長：看似在認真分析，實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
重復循環：反復重述題目或中間步驟，生成長度變長，但沒有新增推理信息。
邏輯漂移：表達很簡潔，但關鍵公式或推導方向出錯，對答案沒有幫助。

相比之下，高 IB 分數的軌跡往往更短、更直接，并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”，而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。

圖 5. 高 IB 分數與低 IB 分數推理軌跡對比

總結

本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析，我們發現，標準隨機 rollout 容易讓模型收斂到少數高概率推理模板，導致多條推理軌跡表面不同、底層同質，進而削弱軌跡間的獎勵差異和有效學習信號。

基于這一發現，我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索：

高熵節點分支：在模型真正不確定的關鍵位置生成多樣化推理軌跡。
信息瓶頸自獎勵：篩選簡潔、高信息量、直擊答案的高質量路徑，過濾冗長和無效推理。

實驗結果表明，I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性，在有限采樣預算下實現更高效、更可靠的 RLVR 探索。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.