<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      智能體卷王誕生!干活自動(dòng)配結(jié)項(xiàng)報(bào)告,1.5張截圖就把事說清了

      0
      分享至

      Youtu-Agent團(tuán)隊(duì) 投稿
      量子位 | 公眾號(hào) QbitAI

      在學(xué)校里做實(shí)驗(yàn)的時(shí)候,老師如何確定我們做了實(shí)驗(yàn)并且達(dá)到了預(yù)期效果呢?——最常見的做法是讓學(xué)生寫一份實(shí)驗(yàn)報(bào)告交上來。

      現(xiàn)在,AI智能體拿到一個(gè)任務(wù)以后如何檢驗(yàn)執(zhí)行的效果有沒有達(dá)到預(yù)期呢?我們也可以讓AI在執(zhí)行任務(wù)的同時(shí)主動(dòng)提交一份證據(jù)鏈報(bào)告,邊做邊收集任務(wù)完成的證據(jù),自我檢查是否符合預(yù)期,不符合就繼續(xù)做。



      在LLM/VLM驅(qū)動(dòng)的智能體(Agent)的強(qiáng)化學(xué)習(xí)(RL)研究中,一直面臨一個(gè)巨大的挑戰(zhàn):

      你交給智能體一個(gè)任務(wù),它干完了,但你不知道完成度如何。



      為了確認(rèn)它是否真的準(zhǔn)確完成了任務(wù),我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復(fù)核它的每一步操作。這種“被動(dòng)驗(yàn)證”往往需要:

      1. 手工設(shè)計(jì)的復(fù)雜校驗(yàn)機(jī)制(比如:完全匹配的輸出內(nèi)容);
      2. 強(qiáng)大的軌跡級(jí)驗(yàn)證方法(比如:LLM/VLM-as-a-Judge眾投決策)。

      這兩種常見的先完成任務(wù)(task completion)再校驗(yàn)軌跡(outcome verification)的機(jī)制有以下缺點(diǎn):

      1. 效率較低,人工設(shè)計(jì)的準(zhǔn)則依賴預(yù)先編寫好的評(píng)估腳本,難以簡單泛化到新的任務(wù)(比如新的APP);
      2. 軌跡帶噪且上下文冗長,將整條軌跡送給LLM/VLM來評(píng)判很容易被無關(guān)的環(huán)境信息干擾,降低評(píng)分的可靠性;
      3. 依賴持續(xù)可觀測環(huán)境的反饋信息,部分操作往往因?yàn)榄h(huán)境變化
      4. (如頁面刷新、操作過期)而導(dǎo)致驗(yàn)證失敗。

      針對(duì)以上問題,我們提出了一種簡單的RL訓(xùn)練方法,讓智能體自己成為“質(zhì)檢員”,在盡可能減少校驗(yàn)器(Verifier)審核壓力的同時(shí),讓智能體學(xué)會(huì)主動(dòng)分解子目標(biāo)并且留痕存證。

      什么是SmartSnap?

      SmartSnap的核心思想是將GUI智能體從“被動(dòng)的執(zhí)行者”轉(zhuǎn)變?yōu)椤爸鲃?dòng)的自證者”。

      簡單來說,智能體在完成任務(wù)的同時(shí),還會(huì)主動(dòng)收集、篩選并提交一份“證據(jù)快照集”。

      這份證據(jù)就像是任務(wù)的“結(jié)項(xiàng)報(bào)告”,讓驗(yàn)證者只需看一眼快照,就能確認(rèn)任務(wù)是否成功。



      三大核心突破:從“執(zhí)行”到“自證”

      1. 角色升級(jí):雙重使命的“自證代理”

      傳統(tǒng)的智能體只負(fù)責(zé)“做(Execute)”,而SmartSnap提出了“自證智能體”(Self-Verifying Agent),賦予了它“自我驗(yàn)證(Verify)”的第二使命。

      它在操作過程中會(huì)像人類一樣思考:“為了證明我已經(jīng)改好了設(shè)置,我需要把對(duì)開關(guān)狀態(tài)截圖并作為證據(jù)提交。”

      2. “3C原則”:高效率的證據(jù)美學(xué)

      為了避免給驗(yàn)證者造成信息過載,SmartSnap提出了證據(jù)策展的3C原則

      • 完整性(Completeness)
      • 證據(jù)必須足以證明任務(wù)已閉環(huán)。
      • 簡潔性(Conciseness)
      • 不要冗長的視頻,只要最關(guān)鍵的幾張“定格”瞬間。
      • 創(chuàng)造性(Creativity)
      • 為了拿到證據(jù),智能體甚至?xí)鲃?dòng)執(zhí)行“額外操作”。例如,訂完票后主動(dòng)跳回訂單頁截圖。

      3. 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng):GRPO+內(nèi)在獎(jiǎng)勵(lì)反饋

      我們利用GRPO算法對(duì)智能體進(jìn)行了訓(xùn)練。通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制(Intrinsic Reward Shaping),引導(dǎo)智能體在保證任務(wù)成功率的同時(shí),不斷提升證據(jù)的質(zhì)量,盡可能減少獎(jiǎng)勵(lì)黑客行為(reward hacking)。

      戰(zhàn)績顯赫:小模型也不錯(cuò)

      SmartSnap的表現(xiàn)令人驚艷,它在AndroidLab等復(fù)雜的任務(wù)上提升顯著:



      • 性能飛躍
      • 在不同規(guī)模的模型上,均實(shí)現(xiàn)了顯著的性能提升(最高提升達(dá)26.08%)。
      • 以小博大
      • 經(jīng)過SmartSnap訓(xùn)練的中等參數(shù)模型(如Qwen3-32B),在自證能力的加持下,其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

      通過感性分析,我們還觀察到以下特點(diǎn):

      • 舉證效率
      • 平均每個(gè)任務(wù)只需提交1.5張快照證據(jù),極大地降低了后端的驗(yàn)證成本。
      • 高效交互
      • 智能體在訓(xùn)練過程中由于擬合少量的訓(xùn)練集而變得游刃有余,交互輪數(shù)不斷減少。
      • 知識(shí)欠缺
      • 在部分APP上,我們觀察到智能體存在反復(fù)、沒有顯著增益的表現(xiàn),其領(lǐng)域知識(shí)的欠缺導(dǎo)致無法收斂到有效的解決方案(比如地圖APP的各項(xiàng)復(fù)雜路徑規(guī)劃任務(wù))。這表明模型需要依賴更多知識(shí)注入來指導(dǎo)探索。

      為什么這簡化了智能體RL訓(xùn)練的準(zhǔn)備工作?

      在手機(jī)端、OS端這類環(huán)境的操作中,由于其時(shí)效性特點(diǎn),傳統(tǒng)的外部驗(yàn)證器很難精準(zhǔn)捕捉瞬時(shí)的成功信號(hào)。

      SmartSnap就像是給智能體配上了一臺(tái)取證相機(jī)。它不再需要事先對(duì)環(huán)境所有狀態(tài)有一個(gè)預(yù)期的變化感知來撰寫校驗(yàn)?zāi)_本,或者讓裁判員模型盯著全程軌跡來仔細(xì)推敲,而是讓智能體自己邊做邊收集必要的證據(jù)。

      這允許我們基于合成的任務(wù)輕松拓展其訓(xùn)練場景,并針對(duì)有限的證據(jù)鏈來判斷成功與否,讓RL訓(xùn)練更加便捷。

      面向未來

      SmartSnap的出現(xiàn),標(biāo)志著GUI智能體正從“蠻力執(zhí)行”走向“認(rèn)知協(xié)同”。這種主動(dòng)尋找證據(jù)的能力,不僅提升了AI的可靠性,更為未來大規(guī)模、低成本的AI部署鋪平了道路。

      未來的AI,不僅要“能干”,更要“可信”。

      論文標(biāo)題:

      SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
      論文地址:

      https://arxiv.org/abs/2512.22322
      代碼地址:

      https://github.com/TencentYoutuResearch/SmartSnap

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4只皮皮蝦1035元,官方回應(yīng)是否“帶客吃回扣”

      4只皮皮蝦1035元,官方回應(yīng)是否“帶客吃回扣”

      中國新聞周刊
      2026-05-09 19:38:06
      這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      這跟不穿有啥區(qū)別?內(nèi)褲外露、開叉開到腰,有錢人的時(shí)尚真看不懂

      潮鹿逐夢(mèng)
      2026-03-02 17:19:02
      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      黯泉
      2026-05-03 20:25:37
      小天賜72歲母親病重剃光頭,75歲黃維平健康狀況堪憂

      小天賜72歲母親病重剃光頭,75歲黃維平健康狀況堪憂

      鐵錘妹妹是只貓
      2026-05-11 23:56:28
      向太再曝猛料:李連杰黃秋燕離婚根本不是因?yàn)槔牵《橇碛芯売?>
    </a>
        <h3>
      <a href=阿廢冷眼觀察所
      2026-05-11 00:16:02
      美股光通信板塊開盤大漲 Lumentum漲超10%

      美股光通信板塊開盤大漲 Lumentum漲超10%

      財(cái)聯(lián)社
      2026-05-11 21:35:16
      為什么不建議買網(wǎng)上十幾塊的衣服?看完感到后怕,可別貪便宜

      為什么不建議買網(wǎng)上十幾塊的衣服?看完感到后怕,可別貪便宜

      家居設(shè)計(jì)師蘇哥
      2026-05-04 11:39:03
      顛覆認(rèn)知!最新研究:每周一次性生活,男性癌癥風(fēng)險(xiǎn)降低69%?

      顛覆認(rèn)知!最新研究:每周一次性生活,男性癌癥風(fēng)險(xiǎn)降低69%?

      果殼
      2026-05-11 15:39:46
      中方官宣特朗普訪華,英媒緊急提醒:現(xiàn)在的中國,是更可怕的對(duì)手

      中方官宣特朗普訪華,英媒緊急提醒:現(xiàn)在的中國,是更可怕的對(duì)手

      藍(lán)色海邊
      2026-05-11 19:51:22
      臺(tái)媒:民進(jìn)黨13日將征召“臺(tái)獨(dú)”頑固分子沈伯洋出戰(zhàn)臺(tái)北市長

      臺(tái)媒:民進(jìn)黨13日將征召“臺(tái)獨(dú)”頑固分子沈伯洋出戰(zhàn)臺(tái)北市長

      海峽導(dǎo)報(bào)社
      2026-05-11 21:16:06
      史詩級(jí)崩盤!財(cái)務(wù)造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

      史詩級(jí)崩盤!財(cái)務(wù)造假+雙重戴帽5天暴跌57%,十幾萬股東淚奔!

      股市皆大事
      2026-05-11 10:18:10
      工資13500元/月(6險(xiǎn)2金+雙休)2026年編制單位面向社會(huì)公開招收427名工作人員公告!5月11日開始報(bào)名!

      工資13500元/月(6險(xiǎn)2金+雙休)2026年編制單位面向社會(huì)公開招收427名工作人員公告!5月11日開始報(bào)名!

      材料科學(xué)與工程
      2026-05-11 10:06:00
      妻子援非3年回來,我跟她提出離婚,她:我沒有背叛你!我笑了笑

      妻子援非3年回來,我跟她提出離婚,她:我沒有背叛你!我笑了笑

      麥子情感故事
      2026-05-11 23:49:10
      陳麗華去世1個(gè)月,遲重瑞近況曝光,外出游玩氣色好,笑容很溫和

      陳麗華去世1個(gè)月,遲重瑞近況曝光,外出游玩氣色好,笑容很溫和

      賈媽的幸福生活
      2026-05-11 15:33:16
      山東神秘女首富浮出水面,15元成本賣到5000元,20年狂賺500億

      山東神秘女首富浮出水面,15元成本賣到5000元,20年狂賺500億

      青眼財(cái)經(jīng)
      2026-05-11 23:22:59
      成本暴降80%!幾百萬網(wǎng)約車司機(jī)要丟飯碗?出行巨頭血拼千億底盤

      成本暴降80%!幾百萬網(wǎng)約車司機(jī)要丟飯碗?出行巨頭血拼千億底盤

      侃故事的阿慶
      2026-05-10 08:38:19
      兩年1.4億!7000萬先生!場均28分也賣?波士頓變天了?

      兩年1.4億!7000萬先生!場均28分也賣?波士頓變天了?

      籃球盛世
      2026-05-11 16:55:48
      安切洛蒂早有預(yù)言!皇馬三冠王朝崩塌,可惜老佛爺不聽勸!

      安切洛蒂早有預(yù)言!皇馬三冠王朝崩塌,可惜老佛爺不聽勸!

      奶蓋熊本熊
      2026-05-12 01:58:36
      賀希寧走步了嗎?CBA裁判專家分析,給出了一個(gè)答案

      賀希寧走步了嗎?CBA裁判專家分析,給出了一個(gè)答案

      體育哲人
      2026-05-11 21:04:17
      燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

      燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

      匹夫來搞笑
      2026-04-20 13:24:51
      2026-05-12 02:39:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12605文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      時(shí)尚
      教育
      健康
      房產(chǎn)
      本地

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      教育要聞

      特朗普訪華對(duì)美國留學(xué)市場是利好嗎?中國留美學(xué)生規(guī)模如何變化?

      干細(xì)胞能讓人“返老還童”嗎

      房產(chǎn)要聞

      產(chǎn)業(yè)賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成A人片亚洲日本久久| √天堂资源网在线| 中牟县| 天堂中文8资源在线8| 亚洲AV熟女| 日韩AV免费在线观看| 日日碰日日摸夜夜爽无码| 中文有无人妻vs无码人妻激烈| а天堂中文在线资源| 视频一区二区三区四区不卡 | 另类一区| 69一区二区| 国产精品尹人在线观看| 国产二级看片| 亚洲一区二区偷拍精品| 456亚洲老头视频| 精品一区二区三区无码视频| 操碰网| 国产va| 亚洲av无码牛牛影视在线二区| 精品综合久久久久久97超人| 久久99热精品免费观看牛牛| 真人祼交二十三式视频 | 色欲综合久久中文字幕网| 日本中文字幕一区二区| 国产色婷婷视频在线观看| 色综合色综合综合综合综合 | www.韩日| 日韩精品亚洲专在线电影| 日韩在线一区二区| 99久久精品视香蕉蕉| 国产精品资源一区二区| 亚洲制服丝袜第一页| 国产看真人毛片爱做a片| 亚洲精品国偷拍自产在线麻豆| 99在线观看| 中文成人无字幕乱码精品区| 汝南县| 国产精品久久无码不卡黑寡妇| 性视频网站入口| 日韩新无码精品毛片|