<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      GRPO遭遇瓶頸?G2RPO-A讓自適應指導為小模型推理能力「開外掛」

      0
      分享至



      大模型時代的「煉金術師」們,或許都曾面臨一個共同的困擾:當我們試圖將 DeepSeek-R1、OpenAI-o1 那種驚艷的推理能力遷移到小規模語言模型(SLMs)時,效果卻總是差強人意。現有的強化學習方法如 GRPO 在 7B+ 的大模型上效果顯著,但一旦應用到 1.7B 甚至更小參數的模型上,性能提升就微乎其微。

      針對小模型在強化學習中的推理困境,香港中文大學(深圳)T-Lab 唐曉瑩教授攜課題組博士畢業生郭永新、鄧文博提出了全新算法 G2RPO-A(Guided Group Relative Policy Optimization with Adaptive Guidance)。已被 ACL 2026 主會議(Main Conference)接收。

      該方法通過在 roll-out 過程中注入高質量思維軌跡,并根據訓練狀態動態調整指導強度,有效緩解小模型面臨的獎勵稀疏問題。在 Llama、Qwen、DeepSeek 等多個主流模型家族上的實驗表明,G2RPO-A 在數學推理和代碼生成任務上顯著優于 vanilla GRPO,其中 Qwen3-1.7B 在 MATH500 上從 50.96 提升到 67.21,HumanEval 上從 46.08 提升到 75.93。



      • 論文地址:G2RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance
      • 論文鏈接:https://arxiv.org/abs/2508.13023
      • 代碼倉庫:https://github.com/T-Lab-CUHKSZ/G2RPO-A
      • 作者:Yongxin Guo?,?,*, Wenbo Deng?,*, Zhenglin Cheng?, Xiaoying Tang?
      • 單位:? 香港中文大學(深圳) ? 淘天集團(郭永新為香港中文大學(深圳)T-Lab畢業博士生) ? 西湖大學
      「我們用 GRPO 訓練了 Qwen3-1.7B,結果高獎勵候選始終太少,模型很難穩定學到有效的推理策略……」

      一個靈魂拷問隨之而來:難道小模型注定與高級推理能力無緣嗎?



      圖 1:Naive Guidance 的困境。使用 Qwen2.5-Math-7B 在 s1K-1.1 數據集上訓練,簡單的固定長度指導在早期訓練階段有短暫提升,但很快與 vanilla GRPO 無異。

      一、小模型的「推理瓶頸」到底卡在哪?

      當前,盡管 GRPO 等強化學習算法在大模型上取得了巨大成功,但在小規模語言模型(SLMs)上卻面臨嚴峻挑戰。研究團隊通過深入分析發現,問題的核心在于「稀疏獎勵」困境:

      由于 SLMs 自身能力有限,面對復雜推理任務時,它們很難生成高質量的思考鏈,導致大部分 roll-out 都無法獲得正向獎勵。如下圖所示,Qwen3-1.7B 在代碼任務上的獎勵分布極其稀疏:



      圖 2:Qwen3-1.7B 在代碼任務上的獎勵熱力圖對比。引入 guidance 后,模型更容易采樣到高獎勵候選,獎勵信號顯著變得更密集。

      研究團隊形象地將其比作「新手司機開手動擋」:無論引擎(模型)如何努力,缺乏正確的引導(指導)依然難以完成復雜的駕駛(推理)操作。

      二、G2RPO-A 核心算法架構

      為了緩解小模型在 RLVR 中的先天劣勢,G2RPO-A 并不是簡單地把標準答案喂給模型,而是在 roll-out 的部分軌跡中注入高質量 thinking trajectory,并根據訓練狀態動態調整 guidance 強度。



      圖 3:G2RPO-A 的整體框架。每一步訓練都會將 roll-out 分成 guided 和 unguided 兩組,再根據當前獎勵與歷史獎勵的比值動態調整后續 guidance length。

      G2RPO-A 的核心創新包含兩個關鍵組件:

      • 指導機制(Guidance Mechanism):在模型生成 roll-out 的過程中,注入部分高質量的思維軌跡作為引導,使 SLM 朝向生成更高質量候選答案的方向發展。



      三、關鍵發現:

      為什么簡單指導行不通?

      研究團隊首先驗證了 naive guidance 的效果,發現簡單的固定長度指導效果有限。更關鍵的是,在基于 Math-220K 子集的訓練動態分析里,這種「看起來更容易拿到獎勵」的做法并沒有真正帶來更健康的優化信號:



      圖 4:Naive Guided GRPO 的陷阱。論文在基于 Math-220K 子集的訓練動態中發現,naive guidance 雖然能短暫抬高 reward,但其 advantage 標準差極低,嚴重阻礙了 SLM 的訓練效率。

      換句話說,naive guidance 的問題不在于「完全沒幫助」,而在于它只是讓模型更容易采到一些高獎勵候選,卻沒有同步保住足夠有區分度的 advantage 信號;結果就是獎勵看似變好,訓練效率卻沒有真正提升。

      四、主實驗結果:

      數學和代碼上到底漲了多少?

      論文做了大量配置實驗,首先,最值得展示的其實是主實驗結果:在統一訓練設置下,直接和 Base、vanilla GRPO、SFT 對比,看看 G2RPO-A 是否真的能把小模型帶起來。

      配置分析本身給出的核心結論可以先記一句:代碼任務通常需要更高 guidance ratio,小模型也通常比大模型更依賴 guidance。這也是作者最后轉向「自適應」而不是「固定超參」的直接動機。

      先看數學推理主實驗。下表來自論文主表,展示了不同 Qwen3 基座在多個數學 benchmark 上的結果:



      表 1:論文主實驗中的數學 benchmark 結果,單位為準確率(%)。

      如果只看最有代表性的幾組結果,提升是很直觀的:Qwen3-1.7B-Base 在 MATH500 上從 50.96 提升到,在 GPQA 上從 27.45 提升到;Qwen3-8B-Base 在 MATH500 上也從 71.32 提升到。論文還補充了更強數學設置下的 AIME 結果,其中 Qwen3-1.7B 在 AIME24/AIME25 上分別達到,高于對應的 GRPO 結果 56.67 和 50.00。

      再看代碼主實驗。這里的趨勢也很有意思:G2RPO-A 并不是「每一個單項都絕對碾壓」,但整體上在多數 benchmark 上拿到了最優,尤其對小模型的拉升非常明顯。



      表 2:論文主實驗中的代碼 benchmark 結果,單位為準確率(%)。

      具體來說,Qwen3-0.6B 在 HumanEval 上從 32.32 提升到,LiveCodeBench 上從 17.07 提升到;Qwen3-1.7B 在 HumanEval 上從 46.08 提升到。需要如實說明的是,Qwen3-1.7B 在 LiveCodeBench 上是 SFT 略高,但論文額外給出的 Code-Avg 對比中,G2RPO-A 仍以高于 GRPO 的 60.40 和 Clip-Higher 的 60.19。

      五、自適應策略的核心思想

      G2RPO-A 的關鍵不在于「永遠加更多 guidance」,而在于根據最近幾個訓練 step 的獎勵變化自動調 guidance length。論文里的更新規則更接近下面這個形式:

      指導長度自適應更新規則:



      其中,m=min(T,k),?? 為第 k 步的 guidance length,r? 為當前獎勵,T 為歷史窗口。獎勵走高則縮短 guidance,獎勵走弱則拉長 guidance。

      直觀理解:若最近獎勵持續上升,則逐步縮短 guidance,讓模型自主完成更多推理;若獎勵下降,則適當拉長 guidance,降低訓練難度。

      直覺上,如果最近獎勵持續上升,就逐步縮短 guidance,讓模型自己完成更多推理;如果最近獎勵下降,就適當拉長 guidance,先把訓練難度降下來。這比人為預設一個固定 schedule 更貼近論文真正想表達的「adaptive」。

      總結與展望

      這項工作的價值,不只是提出了一個新 trick,而是把「小模型為什么在 RLVR 里吃不到有效獎勵」這件事分析得更清楚:問題不只是模型小,更在于獎勵稀疏、advantage 方差信號不足,而且指導強度還會隨訓練過程變化。

      作者也坦言,當前方法仍有兩個明顯邊界:一是驗證主要集中在數學和代碼任務,跨模態等場景還有待檢驗;二是 guidance ratio α 仍依賴經驗搜索,離真正完全自適應還有一步。

      論文和項目倉庫都已經公開,這項工作為小規模語言模型在 RLVR 場景中的訓練設計提供了一個很有價值的方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      老謝談史
      2026-05-13 19:50:56
      141:0全票通過!歐盟突然對華重磅表態,中方直接正面回應

      141:0全票通過!歐盟突然對華重磅表態,中方直接正面回應

      花寒弦絮
      2026-05-13 01:38:41
      女學霸發明“咯噔字體”,老師低分警告:別用個性挑戰考試底線

      女學霸發明“咯噔字體”,老師低分警告:別用個性挑戰考試底線

      蝴蝶花雨話教育
      2026-05-07 00:05:04
      事業單位新出路:管理崗“賭一把”,專技崗“憑本事”?普通家庭孩子千萬別選錯!

      事業單位新出路:管理崗“賭一把”,專技崗“憑本事”?普通家庭孩子千萬別選錯!

      朗威談星座
      2026-05-13 12:11:28
      48022桌需退款,共110萬元!知名連鎖餐飲突然道歉并退錢,涉上海等全國24家門店,都存在這個問題

      48022桌需退款,共110萬元!知名連鎖餐飲突然道歉并退錢,涉上海等全國24家門店,都存在這個問題

      上海約飯局
      2026-05-14 11:32:12
      中央巡視組已亮劍!這5類問題是重點 , 老百姓福音來了!

      中央巡視組已亮劍!這5類問題是重點 , 老百姓福音來了!

      細說職場
      2026-05-13 13:42:26
      母親節袁泉回中戲看老師,明星班大腕全缺席,來的都是眼生的同學

      母親節袁泉回中戲看老師,明星班大腕全缺席,來的都是眼生的同學

      無處遁形
      2026-05-13 02:55:45
      日本乒協沒想到,世乒賽慘敗中國隊后,最先扛不住的,是張本智和

      日本乒協沒想到,世乒賽慘敗中國隊后,最先扛不住的,是張本智和

      攬星河的筆記
      2026-05-13 20:40:58
      馬自達3 2027款改款:燈變了,但肉眼難辨

      馬自達3 2027款改款:燈變了,但肉眼難辨

      體壇觀察猿
      2026-05-14 08:38:55
      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      被曝涉黃,觸目驚心!網友怒了: 看得脊背發涼

      每日經濟新聞
      2026-05-13 21:30:06
      德國巨頭懵了,壟斷全球幾十年的“菜刀之王”,被廣東小城掀翻

      德國巨頭懵了,壟斷全球幾十年的“菜刀之王”,被廣東小城掀翻

      毒sir財經
      2026-05-13 21:33:38
      重慶何主任:穿高跟開車撞飛8人,多重身份被扒,丈夫是電力領導

      重慶何主任:穿高跟開車撞飛8人,多重身份被扒,丈夫是電力領導

      小鋭有話說
      2026-05-13 15:51:53
      8個一字跌停后,還有467萬手封單,近37萬股東徹底被悶殺

      8個一字跌停后,還有467萬手封單,近37萬股東徹底被悶殺

      財經智多星
      2026-05-13 15:24:23
      騎士再勝活塞,賽后還有4個好消息,有望連勝四場晉級東部決賽

      騎士再勝活塞,賽后還有4個好消息,有望連勝四場晉級東部決賽

      許礆很機智
      2026-05-14 11:57:48
      5月忙出雙倍收入的3個生肖,越努力越幸運,賺得盆滿缽滿

      5月忙出雙倍收入的3個生肖,越努力越幸運,賺得盆滿缽滿

      毅談生肖
      2026-05-14 10:47:15
      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      男子16歲時便出軌嫂子,婚后瞞著妻子繼續出軌,還與嫂子生下一子

      老貓觀點
      2026-05-07 07:12:10
      期待!3名超齡國腳將加入U23國足:全力沖擊亞運會獎牌

      期待!3名超齡國腳將加入U23國足:全力沖擊亞運會獎牌

      邱澤云
      2026-05-13 21:50:53
      特朗普訪華第二天,魯比奧還是要請中國幫忙!伊朗問題幫助通融?

      特朗普訪華第二天,魯比奧還是要請中國幫忙!伊朗問題幫助通融?

      董董歷史燴
      2026-05-14 10:28:43
      乾隆賜劉墉跳河自盡,劉墉接旨后卻回家洗了個澡,事后才知真高明

      乾隆賜劉墉跳河自盡,劉墉接旨后卻回家洗了個澡,事后才知真高明

      芳芳歷史燴
      2026-04-21 19:06:57
      職稱要倒查十年了

      職稱要倒查十年了

      新浪財經
      2026-05-10 14:14:04
      2026-05-14 12:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12988文章數 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克:只有我和黃仁勛坐上了"空軍一號"

      頭條要聞

      媒體:特朗普開始訪華 中方有一句話是說給全世界聽的

      頭條要聞

      媒體:特朗普開始訪華 中方有一句話是說給全世界聽的

      體育要聞

      哈登30+8+6創8紀錄 第8次贏天王山

      娛樂要聞

      肖戰提名金海燕獎,這一步走得太穩

      財經要聞

      片仔癀依舊困在“片仔癀”

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      健康
      教育
      藝術
      數碼
      軍事航空

      干細胞能讓人“返老還童”嗎

      教育要聞

      想讓躺平的孩子少花錢,只需做到一件事!

      藝術要聞

      充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

      數碼要聞

      索尼被內存漲價逼到墻角!PS6要從32GB猛砍至24GB:位寬也砍半

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久久国产精品免费牛牛| 国产偷窥熟女精品视频| 福利无遮挡喷水高潮| 精品人妻av区波多野结衣 | 久青草六在线观看视频| 亚洲无码视频在线| 日本久久久免费高清| 成人久久免费网站| 自拍偷拍综合| av无码精品一区二区三区宅噜噜| 亚州日本乱码一区二区三区| 在线观看网址入口2020国产| 七妺福利精品导航大全| 亚洲国产在一区二区三区| 蜜臀av 国内精品久久久| 欧美顶级裸体met自慰| 大战丰满无码人妻50p| 精品奶水区一区二区三区在线观看 | 亚洲精品韩国一区二区| 国产最新av在线播放不卡| 国产熟女网站| 成人网站中文字幕| 亚洲欧美日韩一级特黄在线| 亚洲熟妇色XXXXX欧美老妇Y | 青青AV| 亚洲人成综合网站7777香蕉| 丁香色婷婷国产精品视频| 无码日韩人妻精品久久蜜桃| 狠狠爱五月丁香亚洲综合| 夜夜添无码试看一区二区三区| 亚洲一区人妻| 中文字幕无码日韩中文字幕| 色综合久久久久8天国| 久久人妻天天av| 亚洲中文字幕av| 蜜桃av麻豆av果冻传媒| 成年午夜视频免费观看视频| 国产jjizz女人多水喷水| 精品自拍偷拍一区二区三区 | 伊人国产无码高清视频| 中文国产成人久久精品小说|