<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      生成式Critic重新定義LLM強化學習信用分配

      0
      分享至



      本文第一作者單子康是北京大學二年級在讀博士生,研究方向為大語言模型與強化學習,曾于 ICML 2025 以共同一作發表 Spotlight 論文,本工作為微軟亞洲研究院實習期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員,現任微軟亞洲研究院機器學習組負責人。

      強化學習(RL)已經成為大語言模型(LLM)后訓練階段最重要的技術之一。早期伴隨著 ChatGPT 的出圈,價值對齊 RL 受到廣泛關注;DeepSeek-R1 以大規模可驗證 RL 激發了模型的推理能力,引領了推理 RL 的熱潮;如今的智能體(Agent)訓練更是離不開 RL。

      可以說,大模型時代的能力演進,很大程度上是 RL 范式不斷深化應用的過程。

      然而,RL 有一個經典難題始終懸而未決:信用分配(credit assignment)。模型生成了一段長長的回答,最終收到一個獎勵信號。但這段回答里,哪些步驟真正做出了貢獻?哪些是冗余的,甚至引入了錯誤?信用分配不精準,訓練信號就只能保持稀疏,模型的學習效率也就因此受限。



      經典 RL 算法 PPO(Proximal Policy Optimization)的解法是訓練一個價值模型(Critic),估計序列中每個 token 的價值(Value),借此將信用精確分配到每一步。然而在 LLM 的實踐中,隨著生成序列越來越長、任務越來越復雜,Critic 的訓練逐漸變得不穩定,效果也難以保證。

      于是,研究者轉向更簡單的無 Value 方法例如 GRPO,利用獎勵來構造每個軌跡的優勢,廣播到每一步上,相當于將優化過程簡化為一個多臂老虎機問題。盡管訓練流程簡潔了許多,這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務越來越復雜,這一代價也變得越來越難以接受。

      這不禁讓人重新審視一個根本問題:價值模型真的不堪一用嗎?還是我們一直沒能正確地實現它?

      微軟亞洲研究院聯合北京大學的研究者,給出了答案。



      • 論文標題:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2604.10701

      判別式 Critic 的根本局限

      傳統 Critic 是「判別式」的:輸入一個狀態,輸出一個標量作為價值估計。這一設計看似自然,卻暗藏著一個深層的架構矛盾。

      研究者將兩個已知的結論結合,得出了一個頗具啟發性的推論。其一,LLM 生成過程所對應的馬爾可夫鏈的價值函數的精確建模,在計算復雜度上屬于 P-complete。其二,Transformer 單次前向傳播的表達能力上界已被證明為 TC?,一個遠弱于 P-complete 的復雜度類。

      將這兩個結論結合來看,判別式 Critic 在 LLM 任務上的持續失敗或許并非偶然:價值建模本質上依賴大量順序推理,難以通過簡單的并行前向傳播實現。判別式 Critic 是在用一個表達能力受限的架構,去擬合一個理論上更復雜的函數。更關鍵的是,這一錯配無法通過規模化來彌補:更多的參數、更多的數據或更多的計算,對于表達能力層面的鴻溝并無根本幫助。



      研究者通過實驗印證了這一推斷。固定一個目標價值函數,讓判別式 Critic 去擬合,其誤差與簡單的平均獎勵基線相比并無顯著優勢。更重要的是,將模型規模從 0.6B 擴展到 14B,擬合誤差幾乎沒有改善。與此同時,判別式 Critic 在不同隨機種子下表現出極大的波動,說明其表現高度依賴初始化,而非穩健地收斂。

      不可擴展加上不穩定,共同指向同一個結論:判別式 Critic 的問題并非調參不當,而是架構層面的固有不足。

      生成式 Critic:讓價值估計變得可推理

      既然判別式架構存在本質局限,一個自然的問題是:換成生成式會怎樣?

      生成式 Critic 的核心思路是:不直接輸出一個標量,而是先使用思維鏈推理,再給出價值的估計。這一思路與生成式獎勵模型有相通之處,后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看,顯式的推理鏈可以有效提升模型的表達能力,從而繞過 TC?的表達能力上界約束,為價值建模開辟新的空間。

      但價值建模比獎勵建模面臨更深層的挑戰:價值是與當前策略深度綁定的。同一個中間狀態,對于能力較弱的策略而言可能價值很高,而對于能力更強的策略則已不值一提。獎勵模型無需感知策略,但價值模型必須「知道自己在評估誰」。這一挑戰在一個具體對比中體現得格外清晰:生成式獎勵模型的訓練通常以蒸餾強大的通用模型為起點,但對于價值建模而言,并不存在天然的「價值先知」可供蒸餾。

      研究者發現,即便是能力極強的通用大模型例如 GPT-5,直接被用作價值模型時,其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知,無從判斷同一狀態對當前策略意味著什么。

      為此,研究者引入了上下文條件注入(In-Context Conditioning)機制:在每次 Critic 推理時,將當前策略的模型規模與實時更新的滑動平均成功率一并注入上下文,使 Critic 能夠感知并基于當前策略的能力水平開展分析。消融實驗表明,這一簡單機制能夠有效降低價值估計誤差。



      在訓練流程上,由于缺乏可供直接蒸餾的高質量標注,研究者設計了包含 SFT 和 RL 的兩階段價值預訓練方案。SFT 階段作為熱身,幫助模型建立以估計價值為目標的基本推理模式;RL 階段則通過真實獎勵信號對初始偏差進行矯正,將推理能力真正落地到準確的價值估計上。經過這兩階段預訓練的生成式 Critic,可以作為可靠組件進入與策略的聯合 RL 訓練。

      實驗與分析

      研究者將使用生成式 critic 的 PPO 命名為 GenAC,在數學推理任務上展開了實驗,并通過 6 個評測標準進行深度評測。為了比較價值函數的影響,研究者比較了使用判別式 Critic 的 VC-PPO,以及兩種主流的無 Value 方法 GRPO 和 RLOO。



      GenAC 以 51.90% 的平均準確率領先所有基準方法。從訓練動態來看,價值建模本身就能帶來顯著優勢:VC-PPO 與 GenAC 在訓練早期均表現出更高的樣本效率,模型能力迅速提升,而無 Value 方法由于細粒度信用分配的缺失,早期學習相對緩慢。然而,VC-PPO 的領先優勢隨著訓練推進而逐漸收窄,最終收斂表現與無 Value 方法相差無幾;GenAC 則截然不同,不僅始終保持領先,與其他方法的差距還在訓練后期持續擴大。

      是否進行價值建模影響的是早期的學習速率,而 Critic 的質量則決定訓練能走多遠。



      那么,生成式與判別式 Critic 之間的差異,究竟通過什么機制傳導到最終的 RL 效果上?研究者從擬合誤差之外的角度進一步展開分析。



      首先是相對排名實驗:針對相同狀態的一組候選片段,Critic 需要識別出哪個候選的價值最高。隨著候選數量增加,生成式 Critic 的排名準確率輕微下降,而判別式 Critic 則明顯退化。這意味著在區分相近候選的細微優劣時,生成式 Critic 能給出更可靠的相判斷,而優勢估計的精度正是依賴于此。

      其次是分布外泛化實驗:要求 Critic 對分布外數據源的價值函數進行估計。生成式 Critic 的誤差相比判別式基線大幅下降,且分布偏移越大,兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力,當策略通過探索進入新狀態時,它依然能夠給出可靠的信用分配,在關鍵的探索數據上保持有效的學習。

      最后是定性分析:Critic 需要通過價值估計反映思維鏈中出現的錯誤。在這個例子中,判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區別,而生成式 Critic 明確指出了錯誤,并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力,正是精準信用分配在單步層面的直接體現。



      結語

      價值模型的失敗,從來不是價值建模這一思路本身有問題,而是判別式架構的先天局限,使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩健的兩階段訓練,重新展示了細粒度信用分配在 LLM 強化學習中的可行性。隨著推理模型與 Agent 任務的持續推進,信用分配的質量只會變得越來越關鍵。這件事值得被認真對待,而 GenAC 展示了一條可行的路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      想不到的廣東:全國最富的省份,7成城市卻在平均線以下

      想不到的廣東:全國最富的省份,7成城市卻在平均線以下

      風向觀察
      2026-05-10 19:34:45
      7萬億砸向“六張網”!舊基建落幕,新一輪造富機會在哪里?

      7萬億砸向“六張網”!舊基建落幕,新一輪造富機會在哪里?

      柏年說政經
      2026-05-10 18:00:03
      NBA樂透抽簽:墊底奇才抽中狀元 步行者成最大輸家

      NBA樂透抽簽:墊底奇才抽中狀元 步行者成最大輸家

      體壇周報
      2026-05-11 04:18:18
      新華社:不要讓機關事業單位中的“官油子”得勢得利!

      新華社:不要讓機關事業單位中的“官油子”得勢得利!

      職場資深秘書
      2026-05-10 17:16:55
      孫穎莎王曼昱的教練還有這一面?馬琳在世乒賽“修行”:每一場都是新開始

      孫穎莎王曼昱的教練還有這一面?馬琳在世乒賽“修行”:每一場都是新開始

      上觀新聞
      2026-05-10 21:58:07
      男團奪冠王楚欽場內采訪!霸氣談奪冠,感謝乒乓球隊,并提到生日

      男團奪冠王楚欽場內采訪!霸氣談奪冠,感謝乒乓球隊,并提到生日

      籃球資訊達人
      2026-05-11 01:58:05
      紅場閱兵結束!普京感謝中國,特朗普最不愿意看到的一幕發生

      紅場閱兵結束!普京感謝中國,特朗普最不愿意看到的一幕發生

      書紀文譚
      2026-05-10 21:14:35
      深圳2-0浙江晉級四強:賀希寧23分末節4三分 程帥澎25分史密斯3雙

      深圳2-0浙江晉級四強:賀希寧23分末節4三分 程帥澎25分史密斯3雙

      醉臥浮生
      2026-05-10 21:44:46
      王曼昱負蒯曼,孫穎莎挽顏面,日本教練評價更顯分量

      王曼昱負蒯曼,孫穎莎挽顏面,日本教練評價更顯分量

      七七自駕游
      2026-05-10 22:01:08
      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      上游新聞
      2026-05-10 15:45:20
      人民日報發聲:機關事業單位的隱性收入,正在消失

      人民日報發聲:機關事業單位的隱性收入,正在消失

      細說職場
      2026-05-09 12:16:27
      英超VAR最重要判罰!西漢姆絕平球被吹,決定冠軍歸屬,槍手歡慶

      英超VAR最重要判罰!西漢姆絕平球被吹,決定冠軍歸屬,槍手歡慶

      奧拜爾
      2026-05-11 02:03:40
      逆轉+絕殺!提前奪冠!歐冠球隊實現四連冠,稱霸聯賽

      逆轉+絕殺!提前奪冠!歐冠球隊實現四連冠,稱霸聯賽

      烏龍球OwnGoal
      2026-05-10 11:15:29
      自2013年以來,巴薩首次在國家德比中僅排名兩名外籍球員首發

      自2013年以來,巴薩首次在國家德比中僅排名兩名外籍球員首發

      懂球帝
      2026-05-11 04:24:18
      小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

      小伙連刮3天刮刮樂,刮中100萬,彩票店老板:小伙在附近工廠上班,中獎后已辭職返回老家

      觀威海
      2026-05-10 20:02:09
      武大用力過猛!

      武大用力過猛!

      梳子姐
      2026-05-10 21:46:30
      實至名歸,孫穎莎榮膺倫敦世乒賽最佳女運動員

      實至名歸,孫穎莎榮膺倫敦世乒賽最佳女運動員

      懂球帝
      2026-05-10 22:35:27
      一季度全國結婚登記169.7萬對

      一季度全國結婚登記169.7萬對

      第一財經資訊
      2026-05-10 10:17:17
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      72歲濮存昕硬捧外孫女拍戲,全網吐槽:尖嘴猴腮求放過

      阿廢冷眼觀察所
      2026-05-10 19:41:35
      2026-05-11 04:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      特朗普看完伊朗回應發帖:不喜歡 完全不可接受

      頭條要聞

      特朗普看完伊朗回應發帖:不喜歡 完全不可接受

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      旅游
      時尚
      親子
      本地
      公開課

      旅游要聞

      北京“二綠地區”郊野公園煥新升級

      真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

      親子要聞

      從第一聲呼喚開始,愛就有了名字

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av在线亚洲一区| 国产线播放免费人成视频播放| 成熟少妇XXXXX高清视频| www.色色色.com| 国产美女视频黄a视频全免费网站| www香蕉成人片com| 韩国三级丰满少妇高潮| 99久久免费只有精品国产| 狠狠做五月深爱婷婷天天综合| 无码簧片| 国产成人免费视频| 国产精品无码无片在线观看| 亚洲精品国产AV天美传媒| 久久大香伊蕉在人线免费AV | 男女18禁啪啪无遮挡| 在线涩涩免费观看国产精品| 91亚洲人成电影在线观看网色| 中文字幕一区二区三区乱码不卡 | 国产91久久精品成人看| 亚洲真人无码永久在线| 久久精品国产精品一区二区| 中文字幕人妻丝袜美腿乱| 一区二区三区精品偷拍| 亚洲AV日韩AV永久无码网站| 亚洲视频在线观看| 激情综合一区二区迷情校园 | 国产午夜一区二区在线观看| 亚洲无码丝袜加勒比东京热精品| 欧美人与禽交片mp4| 99欧美日本一区二区留学生| 亚洲欧美日韩三区| 国产免费呻吟一二三四区| 国产在线不卡精品网站| 国产视频 视频一区二区| 成人免费xxxxx在线观看| 激情久久亚洲小说| 久久www香蕉免费人成| 日本黄网站免费| 亚洲鲁丝片一区二区三区| 国产精品偷拍自拍在线观看| 国产乱子伦精品免费视频|