<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      訓練獎勵太稀疏?港中文聯合美團給Agent加上「過程分」

      0
      分享至



      在很多大模型和 Agent 的訓練里,最常見的一種做法就是只看結果:最后答案對了就給獎勵,錯了就當 0 分。

      在單輪問答里,這樣「只看結果」還勉強能用;可一旦換成 Agent 這種要多輪對話、搜索、刷網頁、寫代碼、讀文件的長鏈任務,就變成用一個 bit 去概括一整條復雜軌跡。

      結果就是:差一點就做成功的過程,和從第一步就跑偏的過程,在獎勵眼里沒區別;訓練看不出哪種失敗更有價值,手寫規則或人工細粒度打分又很難覆蓋開放環境、多模態這些復雜情況。

      港中文和美團在這篇工作里,盯上的就是這個核心矛盾:

      Agent 需要長程、細粒度的反饋,但我們手里大多只有終局對錯這樣的粗粒度獎勵。



      • 論文標題:Exploring Reasoning Reward Model for Agents
      • 論文鏈接:https://arxiv.org/pdf/2601.22154
      • 項目地址:https://github.com/kxfan2002/Reagent

      為了解決這個矛盾,作者先造了一個「懂推理、看得懂工具調用」的評審器,給 Agent 的整條軌跡打「過程分」和「評語」,再把這份反饋喂回訓練。

      這也是 Reagent 框架的核心出發點:讓 Agent 不再只看結果,而是也要為自己的思考和工具調用過程負責。

      給 Agent 的思路打個分

      這篇工作最重要的一步,就是不再只看 Agent 最后有沒有把題做對,而是開始認真給整個思考過程打分。

      研究團隊先搭了一套專門面向智能體的「思考評分類」數據:里面收集了各種真實的 Agent 軌跡,有推理順暢但執行失誤的,有一路亂猜卻剛好蒙對的,也有工具用得亂七八糟的。每一條軌跡,都被標注成一份「閱卷意見」,既指出思路哪里站得住腳、哪里明顯跑偏,也給出一個 0~1 之間的整體分數。

      基于這套數據,他們訓練了一個專門的「思考評分模型」——Agent-RRM。它不會只看最后一行答案,而是把整個過程從頭看到尾,然后輸出三樣東西:一段內部分析、一小段給 Agent 看的批評意見,再加上一個綜合分數。

      舉個簡單的例子:

      • 兩條軌跡最后都答對了,但一條邏輯跳躍嚴重、工具亂用,只是誤打誤撞到達正確答案,那 Agent-RRM 可能只給個 0.3;
      • 另一條從一開始就分析清楚、什么時候該搜、什么時候該點進網頁、怎么利用信息都說得明明白白,這種思路就可能拿到 0.9。

      就像老師改卷,不是只看「A/B/C/D」選了啥,還會看你中間的演算過程,給「過程分」。這一招的目標很明確:

      教會 Agent「怎么想」「怎么用工具」,而不是教它「怎么猜對答案」。

      統一文本批評和獎勵信號:Reagent 框架

      有了會打「思維分」的 Agent-RRM,還要想清楚怎么把這些反饋喂回給 Agent。這就是 Reagent 框架要解決的事情:把「文字點評」和「分數獎勵」統一起來,用在智能體訓練里。



      作者設計了三種用法,可以理解成三檔「加持程度」:

      ① 只加點評,不改模型(Reagent-C)

      最輕的一種:不動 Agent 參數,只在推理時多一步「聽老師講評」。

      大致流程就是:Agent 先做一遍題,Agent-RRM 看完給一小段 critique,指出關鍵問題,然后讓 Agent 在這段點評的基礎上重做一遍。這相當于給任何現成的大模型,外掛一個「老師幫你看一眼再交卷」的過程。

      ② 給獎勵加一條「過程分」(Reagent-R)

      再往上走一步,就是把 Agent-RRM 打出來的分數,當成額外獎勵加進來。

      以前的訓練只看「做對 / 做錯」那一分,現在變成「結果對錯 + 過程好壞」兩條線一起算:哪怕最后沒完全做對,只要思路清晰、工具用得合理,也不會被當作垃圾樣本一票否決。這對長鏈、多工具的任務特別重要,可以緩解那種「一不小心就全是 0 分」的獎勵稀疏問題。

      ③ 把「第一次想」和「批評后再想」一起訓(Reagent-U)

      最強的一檔,是這篇文章重點強調的 Reagent-U。它一口氣把兩種反饋都用上:

      • 一方面,讓 Agent 學會第一次就少犯低級錯誤;
      • 另一方面,也教它「聽完批評以后,怎樣更聰明地改答案」。

      訓練時,同一個問題會有「首答」和「聽完點評后的再答」兩條軌跡,它們都拿到「結果獎勵 + 過程分數」,一起放進同一個訓練循環里優化。這樣做的好處是:模型不會只在某一種模式上刷分,而是整體上把「想清楚」「用好工具」「能根據反饋修正自己」這幾件事,一起學進去。

      實際部署時,Reagent-U 又不用再依賴外部的 Agent-RRM 提點評,直接就能像普通 Agent 一樣用 —— 那些「老師改卷時說過的話」,已經被揉進模型參數里了。

      這套設計帶來了什么提升?

      在實驗里,作者主要看了三件事:文字點評本身有沒有用、過程分數能不能幫 RL 學得更好、統一之后是不是有效提升。





      先看最輕量的那種:只加一段文本點評、不改模型參數。結果表明,在不少數學和搜索任務上,「聽完一段 Agent-RRM 的批評再答一次」,確實能穩定把正確率拉上去。

      再把過程分數加進訓練里之后,Agent 不是只會去迎合最后那一個對錯信號,而是更愿意走那些「雖然這次沒完全做成,但整體思路是對的」的方向。

      最后,當文本批評和獎勵分數在 Reagent-U 里統一起來時,提升就更直觀了:

      在 GAIA 這個通用 Agent 基準的文本子集上,基于 8B 模型的 Reagent-U,可以把平均成績拉到43.7%,基本追上甚至部分超過了一些更大參數量的開源 Agent。在 WebWalkerQA、HLE、xbench 等其他復雜任務上,也普遍比「只看終局獎勵」的版本更穩,更不容易被「瞎蒙對」或者「瞎忙活」帶偏。

      作者還測試了模型在 GAIA 全集上的表現,面對多模態的通用 agent 任務,Reagent-U 也依然能打。



      港中文聯合美團這套 Reagent 框架,把「老師給過程打分」這件事,真正搬進了 Agent 訓練里。結果證明,只要能看懂、能評價思考過程,8B 級別的 Agent 也有機會在很多復雜任務上打出和大模型一樣好看的成績單。

      更多細節請參考論文原文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      炸鍋!穆里尼奧回歸皇馬引爆最大危機,頭號巨星離隊進入倒計時

      炸鍋!穆里尼奧回歸皇馬引爆最大危機,頭號巨星離隊進入倒計時

      奶蓋熊本熊
      2026-05-13 04:31:27
      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      港獨、罵中國人,如今卻還想來內地撈金,這3位香港明星令人作嘔

      傲傲講歷史
      2026-04-19 01:20:08
      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      深度報
      2026-05-10 22:38:11
      福州東百中心大屏天天播林舒晴,富二代?其實她家只是租不出去。

      福州東百中心大屏天天播林舒晴,富二代?其實她家只是租不出去。

      情感大頭說說
      2026-05-13 00:34:42
      推力與渦扇-15站一排,土耳其“力量可汗”亮相,真是“王炸”

      推力與渦扇-15站一排,土耳其“力量可汗”亮相,真是“王炸”

      矚望云霄
      2026-05-12 18:55:06
      錄取率6.62%!創7年新低!東莞中考卷哭了…

      錄取率6.62%!創7年新低!東莞中考卷哭了…

      糖逗在娛樂
      2026-05-12 19:35:56
      “公共廁所可以設計得多反人類??”哈哈哈哈哈設計師你敢用嗎!!

      “公共廁所可以設計得多反人類??”哈哈哈哈哈設計師你敢用嗎!!

      脆皮先生
      2026-05-12 19:43:50
      還差5球,國米有望成為意甲首支單賽季打進90球并奪冠的球隊

      還差5球,國米有望成為意甲首支單賽季打進90球并奪冠的球隊

      懂球帝
      2026-05-13 00:38:12
      羅馬諾:切爾西探索任命阿隆索!老佛爺:我不辭職,有人針對我!

      羅馬諾:切爾西探索任命阿隆索!老佛爺:我不辭職,有人針對我!

      足球偵探
      2026-05-13 08:35:09
      中山市古鎮鎮古三村黨委原書記區順垣被查

      中山市古鎮鎮古三村黨委原書記區順垣被查

      南方都市報
      2026-05-12 12:00:14
      國際足聯輸了,他輸給的不是電視轉播,他輸給了中國球迷!

      國際足聯輸了,他輸給的不是電視轉播,他輸給了中國球迷!

      故事終將光明磊落
      2026-05-12 14:04:16
      李易峰重口味色癖被爆出!女技師透露:體力很差,縱欲把身子搞壞了

      李易峰重口味色癖被爆出!女技師透露:體力很差,縱欲把身子搞壞了

      八卦王者
      2026-05-12 15:26:55
      多庫連場世界波,曼城爭冠懸念續命

      多庫連場世界波,曼城爭冠懸念續命

      綠茵狂熱者
      2026-05-12 07:17:34
      “蝴蝶姐姐”愷樂公開懷二胎的喜訊 自曝這次懷上雙胞胎

      “蝴蝶姐姐”愷樂公開懷二胎的喜訊 自曝這次懷上雙胞胎

      老吳教育課堂
      2026-05-12 19:24:13
      原子彈爆炸殘骸中發現全新晶體結構

      原子彈爆炸殘骸中發現全新晶體結構

      字節漫游指南
      2026-05-12 06:16:55
      俞敏洪太難了!東方甄選在遂寧直播再次被質疑,主播阿仁幫其解圍

      俞敏洪太難了!東方甄選在遂寧直播再次被質疑,主播阿仁幫其解圍

      火山詩話
      2026-05-13 07:03:46
      江西高校2026排名變了:南大遺憾未進50強!江財江師穩前3

      江西高校2026排名變了:南大遺憾未進50強!江財江師穩前3

      Delete丨CC
      2026-05-12 19:48:37
      廣州30年老牌百貨要撤場?記者實探現場,經營方回應

      廣州30年老牌百貨要撤場?記者實探現場,經營方回應

      南方都市報
      2026-05-12 17:08:24
      央視直接點名!世乒賽剛奪冠,孫穎莎就創下了沒人做到過的新紀錄

      央視直接點名!世乒賽剛奪冠,孫穎莎就創下了沒人做到過的新紀錄

      生活新鮮市
      2026-05-13 01:16:29
      廣州樓市變了,不是沒人買房,而是大家開始一套一套重新掂量

      廣州樓市變了,不是沒人買房,而是大家開始一套一套重新掂量

      林子說事
      2026-05-12 11:15:13
      2026-05-13 09:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      牛彈琴:印度的大麻煩來了 CNN的報道更是觸目驚心

      頭條要聞

      牛彈琴:印度的大麻煩來了 CNN的報道更是觸目驚心

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      深圳夫妻囤芯片,身家飆漲320億

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      時尚
      游戲
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      沒八卦、純素人、不驚艷,可她贏麻了

      《共鳴:瘟疫傳說傳承》新截圖 畫面相當唯美!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产乱码久久久久久口爆| 中文字幕中文字幕在线中一区| 国产suv精品一区二区四| 国产资源站| 无码精品视频一区二区三区| 不卡一区二区国产精品| 亚洲色无码专区一区| 亚洲红杏AV无码专区首页| 一个色综合久久| 亚洲激情一区二区| 久久亚洲精品成人综合| 免费h动漫无码网站| 亚洲AV秘 无码一区二区久| 久久人搡人人玩人妻精品首页| 天天干天天射天天操| 精品乱码一区内射人妻无码| 欧洲精品亚洲精品日韩专区 | 久久丁香视频| 国产精品久久久久久久白晢女i| 国内精品久久久久久| 久久人人爽人人爽人人片AV麻烦| 国产真人无码作爱免费视频| 强开小婷嫩苞又嫩又紧视频韩国| 国产乱人伦AV在线麻豆A| 人妻无码中出| 人妻被猛烈进入中文字幕| 电影 国产 偷窥 亚洲 欧美| 福利一区二区视频在线| 99精品视频在线观看| 一区二区无码中出| 91大片| 午夜精品一区二区三区无码不卡 | 性生活国产| 碰超免费人妻中文字幕| 在线观看免费人成视频色| 最近免费中文字幕mv在线视频3| 闺蜜张开腿让我爽了一夜| 国产精品亚洲综合天堂夜夜 | 国产精品久久久久久福利69堂| 日本一区二区视频免费在线播放| 国产性色播播毛片|