![]()
大模型時代的「煉金術師」們,或許都曾面臨一個共同的困擾:當我們試圖將 DeepSeek-R1、OpenAI-o1 那種驚艷的推理能力遷移到小規模語言模型(SLMs)時,效果卻總是差強人意。現有的強化學習方法如 GRPO 在 7B+ 的大模型上效果顯著,但一旦應用到 1.7B 甚至更小參數的模型上,性能提升就微乎其微。
針對小模型在強化學習中的推理困境,香港中文大學(深圳)T-Lab 唐曉瑩教授攜課題組博士畢業生郭永新、鄧文博提出了全新算法 G2RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主會議(Main Conference)接收。
該方法通過在 roll-out 過程中注入高質量思維軌跡,并根據訓練狀態動態調整指導強度,有效緩解小模型面臨的獎勵稀疏問題。在 Llama、Qwen、DeepSeek 等多個主流模型家族上的實驗表明,G2RPO-A 在數學推理和代碼生成任務上顯著優于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上從 50.96 提升到 67.21,HumanEval 上從 46.08 提升到 75.93。
![]()
- 論文地址:G2RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
- 論文鏈接:https://arxiv.org/abs/2508.13023
- 代碼倉庫:https://github.com/T-Lab-CUHKSZ/G2RPO-A
- 作者:Yongxin Guo?,?,*, Wenbo Deng?,*, Zhenglin Cheng?, Xiaoying Tang?
- 單位:? 香港中文大學(深圳) ? 淘天集團(郭永新為香港中文大學(深圳)T-Lab畢業博士生) ? 西湖大學
「我們用 GRPO 訓練了 Qwen3-1.7B,結果高獎勵候選始終太少,模型很難穩定學到有效的推理策略……」
一個靈魂拷問隨之而來:難道小模型注定與高級推理能力無緣嗎?
![]()
圖 1:Naive Guidance 的困境。使用 Qwen2.5-Math-7B 在 s1K-1.1 數據集上訓練,簡單的固定長度指導在早期訓練階段有短暫提升,但很快與 vanilla GRPO 無異。
一、小模型的「推理瓶頸」到底卡在哪?
當前,盡管 GRPO 等強化學習算法在大模型上取得了巨大成功,但在小規模語言模型(SLMs)上卻面臨嚴峻挑戰。研究團隊通過深入分析發現,問題的核心在于「稀疏獎勵」困境:
由于 SLMs 自身能力有限,面對復雜推理任務時,它們很難生成高質量的思考鏈,導致大部分 roll-out 都無法獲得正向獎勵。如下圖所示,Qwen3-1.7B 在代碼任務上的獎勵分布極其稀疏:
![]()
圖 2:Qwen3-1.7B 在代碼任務上的獎勵熱力圖對比。引入 guidance 后,模型更容易采樣到高獎勵候選,獎勵信號顯著變得更密集。
研究團隊形象地將其比作「新手司機開手動擋」:無論引擎(模型)如何努力,缺乏正確的引導(指導)依然難以完成復雜的駕駛(推理)操作。
二、G2RPO-A 核心算法架構
為了緩解小模型在 RLVR 中的先天劣勢,G2RPO-A 并不是簡單地把標準答案喂給模型,而是在 roll-out 的部分軌跡中注入高質量 thinking trajectory,并根據訓練狀態動態調整 guidance 強度。
![]()
圖 3:G2RPO-A 的整體框架。每一步訓練都會將 roll-out 分成 guided 和 unguided 兩組,再根據當前獎勵與歷史獎勵的比值動態調整后續 guidance length。
G2RPO-A 的核心創新包含兩個關鍵組件:
- 指導機制(Guidance Mechanism):在模型生成 roll-out 的過程中,注入部分高質量的思維軌跡作為引導,使 SLM 朝向生成更高質量候選答案的方向發展。
![]()
三、關鍵發現:
為什么簡單指導行不通?
研究團隊首先驗證了 naive guidance 的效果,發現簡單的固定長度指導效果有限。更關鍵的是,在基于 Math-220K 子集的訓練動態分析里,這種「看起來更容易拿到獎勵」的做法并沒有真正帶來更健康的優化信號:
![]()
圖 4:Naive Guided GRPO 的陷阱。論文在基于 Math-220K 子集的訓練動態中發現,naive guidance 雖然能短暫抬高 reward,但其 advantage 標準差極低,嚴重阻礙了 SLM 的訓練效率。
換句話說,naive guidance 的問題不在于「完全沒幫助」,而在于它只是讓模型更容易采到一些高獎勵候選,卻沒有同步保住足夠有區分度的 advantage 信號;結果就是獎勵看似變好,訓練效率卻沒有真正提升。
四、主實驗結果:
數學和代碼上到底漲了多少?
論文做了大量配置實驗,首先,最值得展示的其實是主實驗結果:在統一訓練設置下,直接和 Base、vanilla GRPO、SFT 對比,看看 G2RPO-A 是否真的能把小模型帶起來。
配置分析本身給出的核心結論可以先記一句:代碼任務通常需要更高 guidance ratio,小模型也通常比大模型更依賴 guidance。這也是作者最后轉向「自適應」而不是「固定超參」的直接動機。
先看數學推理主實驗。下表來自論文主表,展示了不同 Qwen3 基座在多個數學 benchmark 上的結果:
![]()
表 1:論文主實驗中的數學 benchmark 結果,單位為準確率(%)。
如果只看最有代表性的幾組結果,提升是很直觀的:Qwen3-1.7B-Base 在 MATH500 上從 50.96 提升到,在 GPQA 上從 27.45 提升到;Qwen3-8B-Base 在 MATH500 上也從 71.32 提升到。論文還補充了更強數學設置下的 AIME 結果,其中 Qwen3-1.7B 在 AIME24/AIME25 上分別達到,高于對應的 GRPO 結果 56.67 和 50.00。
再看代碼主實驗。這里的趨勢也很有意思:G2RPO-A 并不是「每一個單項都絕對碾壓」,但整體上在多數 benchmark 上拿到了最優,尤其對小模型的拉升非常明顯。
![]()
表 2:論文主實驗中的代碼 benchmark 結果,單位為準確率(%)。
具體來說,Qwen3-0.6B 在 HumanEval 上從 32.32 提升到,LiveCodeBench 上從 17.07 提升到;Qwen3-1.7B 在 HumanEval 上從 46.08 提升到。需要如實說明的是,Qwen3-1.7B 在 LiveCodeBench 上是 SFT 略高,但論文額外給出的 Code-Avg 對比中,G2RPO-A 仍以高于 GRPO 的 60.40 和 Clip-Higher 的 60.19。
五、自適應策略的核心思想
G2RPO-A 的關鍵不在于「永遠加更多 guidance」,而在于根據最近幾個訓練 step 的獎勵變化自動調 guidance length。論文里的更新規則更接近下面這個形式:
指導長度自適應更新規則:
![]()
其中,m=min(T,k),?? 為第 k 步的 guidance length,r? 為當前獎勵,T 為歷史窗口。獎勵走高則縮短 guidance,獎勵走弱則拉長 guidance。
直觀理解:若最近獎勵持續上升,則逐步縮短 guidance,讓模型自主完成更多推理;若獎勵下降,則適當拉長 guidance,降低訓練難度。
直覺上,如果最近獎勵持續上升,就逐步縮短 guidance,讓模型自己完成更多推理;如果最近獎勵下降,就適當拉長 guidance,先把訓練難度降下來。這比人為預設一個固定 schedule 更貼近論文真正想表達的「adaptive」。
總結與展望
這項工作的價值,不只是提出了一個新 trick,而是把「小模型為什么在 RLVR 里吃不到有效獎勵」這件事分析得更清楚:問題不只是模型小,更在于獎勵稀疏、advantage 方差信號不足,而且指導強度還會隨訓練過程變化。
作者也坦言,當前方法仍有兩個明顯邊界:一是驗證主要集中在數學和代碼任務,跨模態等場景還有待檢驗;二是 guidance ratio α 仍依賴經驗搜索,離真正完全自適應還有一步。
論文和項目倉庫都已經公開,這項工作為小規模語言模型在 RLVR 場景中的訓練設計提供了一個很有價值的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.