網易首頁 > 網易號 > 正文申請入駐

GRPO遭遇瓶頸？G2RPO-A讓自適應指導為小模型推理能力「開外掛」

2026-05-06 17:24:22　來源: 機器之心Pro

天津舉報

分享至

大模型時代的「煉金術師」們，或許都曾面臨一個共同的困擾：當我們試圖將 DeepSeek-R1、OpenAI-o1 那種驚艷的推理能力遷移到小規模語言模型（SLMs）時，效果卻總是差強人意。現有的強化學習方法如 GRPO 在 7B+ 的大模型上效果顯著，但一旦應用到 1.7B 甚至更小參數的模型上，性能提升就微乎其微。

針對小模型在強化學習中的推理困境，香港中文大學（深圳）T-Lab 唐曉瑩教授攜課題組博士畢業生郭永新、鄧文博提出了全新算法 G2RPO-A（Guided Group Relative Policy Optimization with Adaptive Guidance）。已被 ACL 2026 主會議（Main Conference）接收。

該方法通過在 roll-out 過程中注入高質量思維軌跡，并根據訓練狀態動態調整指導強度，有效緩解小模型面臨的獎勵稀疏問題。在 Llama、Qwen、DeepSeek 等多個主流模型家族上的實驗表明，G2RPO-A 在數學推理和代碼生成任務上顯著優于 vanilla GRPO，其中 Qwen3-1.7B 在 MATH500 上從 50.96 提升到 67.21，HumanEval 上從 46.08 提升到 75.93。

論文地址：G2RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
論文鏈接：https://arxiv.org/abs/2508.13023
代碼倉庫：https://github.com/T-Lab-CUHKSZ/G2RPO-A
作者：Yongxin Guo?,?,*, Wenbo Deng?,*, Zhenglin Cheng?, Xiaoying Tang?
單位：? 香港中文大學（深圳） ? 淘天集團（郭永新為香港中文大學（深圳）T-Lab畢業博士生） ? 西湖大學

「我們用 GRPO 訓練了 Qwen3-1.7B，結果高獎勵候選始終太少，模型很難穩定學到有效的推理策略……」

一個靈魂拷問隨之而來：難道小模型注定與高級推理能力無緣嗎？

圖 1：Naive Guidance 的困境。使用 Qwen2.5-Math-7B 在 s1K-1.1 數據集上訓練，簡單的固定長度指導在早期訓練階段有短暫提升，但很快與 vanilla GRPO 無異。

一、小模型的「推理瓶頸」到底卡在哪？

當前，盡管 GRPO 等強化學習算法在大模型上取得了巨大成功，但在小規模語言模型（SLMs）上卻面臨嚴峻挑戰。研究團隊通過深入分析發現，問題的核心在于「稀疏獎勵」困境：

由于 SLMs 自身能力有限，面對復雜推理任務時，它們很難生成高質量的思考鏈，導致大部分 roll-out 都無法獲得正向獎勵。如下圖所示，Qwen3-1.7B 在代碼任務上的獎勵分布極其稀疏：

圖 2：Qwen3-1.7B 在代碼任務上的獎勵熱力圖對比。引入 guidance 后，模型更容易采樣到高獎勵候選，獎勵信號顯著變得更密集。

研究團隊形象地將其比作「新手司機開手動擋」：無論引擎（模型）如何努力，缺乏正確的引導（指導）依然難以完成復雜的駕駛（推理）操作。

二、G2RPO-A 核心算法架構

為了緩解小模型在 RLVR 中的先天劣勢，G2RPO-A 并不是簡單地把標準答案喂給模型，而是在 roll-out 的部分軌跡中注入高質量 thinking trajectory，并根據訓練狀態動態調整 guidance 強度。

圖 3：G2RPO-A 的整體框架。每一步訓練都會將 roll-out 分成 guided 和 unguided 兩組，再根據當前獎勵與歷史獎勵的比值動態調整后續 guidance length。

G2RPO-A 的核心創新包含兩個關鍵組件：

指導機制（Guidance Mechanism）：在模型生成 roll-out 的過程中，注入部分高質量的思維軌跡作為引導，使 SLM 朝向生成更高質量候選答案的方向發展。

三、關鍵發現：

為什么簡單指導行不通？

研究團隊首先驗證了 naive guidance 的效果，發現簡單的固定長度指導效果有限。更關鍵的是，在基于 Math-220K 子集的訓練動態分析里，這種「看起來更容易拿到獎勵」的做法并沒有真正帶來更健康的優化信號：

圖 4：Naive Guided GRPO 的陷阱。論文在基于 Math-220K 子集的訓練動態中發現，naive guidance 雖然能短暫抬高 reward，但其 advantage 標準差極低，嚴重阻礙了 SLM 的訓練效率。

換句話說，naive guidance 的問題不在于「完全沒幫助」，而在于它只是讓模型更容易采到一些高獎勵候選，卻沒有同步保住足夠有區分度的 advantage 信號；結果就是獎勵看似變好，訓練效率卻沒有真正提升。

四、主實驗結果：

數學和代碼上到底漲了多少？

論文做了大量配置實驗，首先，最值得展示的其實是主實驗結果：在統一訓練設置下，直接和 Base、vanilla GRPO、SFT 對比，看看 G2RPO-A 是否真的能把小模型帶起來。

配置分析本身給出的核心結論可以先記一句：代碼任務通常需要更高 guidance ratio，小模型也通常比大模型更依賴 guidance。這也是作者最后轉向「自適應」而不是「固定超參」的直接動機。

先看數學推理主實驗。下表來自論文主表，展示了不同 Qwen3 基座在多個數學 benchmark 上的結果：

表 1：論文主實驗中的數學 benchmark 結果，單位為準確率（%）。

如果只看最有代表性的幾組結果，提升是很直觀的：Qwen3-1.7B-Base 在 MATH500 上從 50.96 提升到，在 GPQA 上從 27.45 提升到；Qwen3-8B-Base 在 MATH500 上也從 71.32 提升到。論文還補充了更強數學設置下的 AIME 結果，其中 Qwen3-1.7B 在 AIME24/AIME25 上分別達到，高于對應的 GRPO 結果 56.67 和 50.00。

再看代碼主實驗。這里的趨勢也很有意思：G2RPO-A 并不是「每一個單項都絕對碾壓」，但整體上在多數 benchmark 上拿到了最優，尤其對小模型的拉升非常明顯。

表 2：論文主實驗中的代碼 benchmark 結果，單位為準確率（%）。

具體來說，Qwen3-0.6B 在 HumanEval 上從 32.32 提升到，LiveCodeBench 上從 17.07 提升到；Qwen3-1.7B 在 HumanEval 上從 46.08 提升到。需要如實說明的是，Qwen3-1.7B 在 LiveCodeBench 上是 SFT 略高，但論文額外給出的 Code-Avg 對比中，G2RPO-A 仍以高于 GRPO 的 60.40 和 Clip-Higher 的 60.19。

五、自適應策略的核心思想

G2RPO-A 的關鍵不在于「永遠加更多 guidance」，而在于根據最近幾個訓練 step 的獎勵變化自動調 guidance length。論文里的更新規則更接近下面這個形式：

指導長度自適應更新規則：

其中，m=min(T,k)，?? 為第 k 步的 guidance length，r? 為當前獎勵，T 為歷史窗口。獎勵走高則縮短 guidance，獎勵走弱則拉長 guidance。

直觀理解：若最近獎勵持續上升，則逐步縮短 guidance，讓模型自主完成更多推理；若獎勵下降，則適當拉長 guidance，降低訓練難度。

直覺上，如果最近獎勵持續上升，就逐步縮短 guidance，讓模型自己完成更多推理；如果最近獎勵下降，就適當拉長 guidance，先把訓練難度降下來。這比人為預設一個固定 schedule 更貼近論文真正想表達的「adaptive」。

總結與展望

這項工作的價值，不只是提出了一個新 trick，而是把「小模型為什么在 RLVR 里吃不到有效獎勵」這件事分析得更清楚：問題不只是模型小，更在于獎勵稀疏、advantage 方差信號不足，而且指導強度還會隨訓練過程變化。

作者也坦言，當前方法仍有兩個明顯邊界：一是驗證主要集中在數學和代碼任務，跨模態等場景還有待檢驗；二是 guidance ratio α 仍依賴經驗搜索，離真正完全自適應還有一步。

論文和項目倉庫都已經公開，這項工作為小規模語言模型在 RLVR 場景中的訓練設計提供了一個很有價值的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.