網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智能體卷王誕生！干活自動(dòng)配結(jié)項(xiàng)報(bào)告，1.5張截圖就把事說清了

2026-01-10 14:38:21　來源: 量子位

北京舉報(bào)

分享至

Youtu-Agent團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

在學(xué)校里做實(shí)驗(yàn)的時(shí)候，老師如何確定我們做了實(shí)驗(yàn)并且達(dá)到了預(yù)期效果呢？——最常見的做法是讓學(xué)生寫一份實(shí)驗(yàn)報(bào)告交上來。

現(xiàn)在，AI智能體拿到一個(gè)任務(wù)以后如何檢驗(yàn)執(zhí)行的效果有沒有達(dá)到預(yù)期呢？我們也可以讓AI在執(zhí)行任務(wù)的同時(shí)主動(dòng)提交一份證據(jù)鏈報(bào)告，邊做邊收集任務(wù)完成的證據(jù)，自我檢查是否符合預(yù)期，不符合就繼續(xù)做。

在LLM/VLM驅(qū)動(dòng)的智能體（Agent）的強(qiáng)化學(xué)習(xí)（RL）研究中，一直面臨一個(gè)巨大的挑戰(zhàn)：

你交給智能體一個(gè)任務(wù)，它干完了，但你不知道完成度如何。

為了確認(rèn)它是否真的準(zhǔn)確完成了任務(wù)，我們不得不建立龐大的“監(jiān)督系統(tǒng)”來復(fù)核它的每一步操作。這種“被動(dòng)驗(yàn)證”往往需要：

手工設(shè)計(jì)的復(fù)雜校驗(yàn)機(jī)制（比如：完全匹配的輸出內(nèi)容）；
強(qiáng)大的軌跡級(jí)驗(yàn)證方法（比如：LLM/VLM-as-a-Judge眾投決策）。

這兩種常見的先完成任務(wù)（task completion）再校驗(yàn)軌跡（outcome verification）的機(jī)制有以下缺點(diǎn)：

效率較低，人工設(shè)計(jì)的準(zhǔn)則依賴預(yù)先編寫好的評(píng)估腳本，難以簡單泛化到新的任務(wù)（比如新的APP）；
軌跡帶噪且上下文冗長，將整條軌跡送給LLM/VLM來評(píng)判很容易被無關(guān)的環(huán)境信息干擾，降低評(píng)分的可靠性；
依賴持續(xù)可觀測環(huán)境的反饋信息，部分操作往往因?yàn)榄h(huán)境變化
（如頁面刷新、操作過期）而導(dǎo)致驗(yàn)證失敗。

針對(duì)以上問題，我們提出了一種簡單的RL訓(xùn)練方法，讓智能體自己成為“質(zhì)檢員”，在盡可能減少校驗(yàn)器（Verifier）審核壓力的同時(shí)，讓智能體學(xué)會(huì)主動(dòng)分解子目標(biāo)并且留痕存證。

什么是SmartSnap？

SmartSnap的核心思想是將GUI智能體從“被動(dòng)的執(zhí)行者”轉(zhuǎn)變?yōu)椤爸鲃?dòng)的自證者”。

簡單來說，智能體在完成任務(wù)的同時(shí)，還會(huì)主動(dòng)收集、篩選并提交一份“證據(jù)快照集”。

這份證據(jù)就像是任務(wù)的“結(jié)項(xiàng)報(bào)告”，讓驗(yàn)證者只需看一眼快照，就能確認(rèn)任務(wù)是否成功。

三大核心突破：從“執(zhí)行”到“自證”

1. 角色升級(jí)：雙重使命的“自證代理”

傳統(tǒng)的智能體只負(fù)責(zé)“做（Execute）”，而SmartSnap提出了“自證智能體”（Self-Verifying Agent），賦予了它“自我驗(yàn)證（Verify）”的第二使命。

它在操作過程中會(huì)像人類一樣思考：“為了證明我已經(jīng)改好了設(shè)置，我需要把對(duì)開關(guān)狀態(tài)截圖并作為證據(jù)提交。”

2. “3C原則”：高效率的證據(jù)美學(xué)

為了避免給驗(yàn)證者造成信息過載，SmartSnap提出了證據(jù)策展的3C原則

完整性（Completeness）
證據(jù)必須足以證明任務(wù)已閉環(huán)。
簡潔性（Conciseness）
不要冗長的視頻，只要最關(guān)鍵的幾張“定格”瞬間。
創(chuàng)造性（Creativity）
為了拿到證據(jù)，智能體甚至?xí)鲃?dòng)執(zhí)行“額外操作”。例如，訂完票后主動(dòng)跳回訂單頁截圖。

3. 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)：GRPO+內(nèi)在獎(jiǎng)勵(lì)反饋

我們利用GRPO算法對(duì)智能體進(jìn)行了訓(xùn)練。通過精心設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制（Intrinsic Reward Shaping），引導(dǎo)智能體在保證任務(wù)成功率的同時(shí)，不斷提升證據(jù)的質(zhì)量，盡可能減少獎(jiǎng)勵(lì)黑客行為（reward hacking）。

戰(zhàn)績顯赫：小模型也不錯(cuò)

SmartSnap的表現(xiàn)令人驚艷，它在AndroidLab等復(fù)雜的任務(wù)上提升顯著：

性能飛躍
在不同規(guī)模的模型上，均實(shí)現(xiàn)了顯著的性能提升（最高提升達(dá)26.08%）。
以小博大
經(jīng)過SmartSnap訓(xùn)練的中等參數(shù)模型（如Qwen3-32B），在自證能力的加持下，其表現(xiàn)甚至持平DeepSeek-V3/Qwen3-235B等開源大模型

通過感性分析，我們還觀察到以下特點(diǎn)：

舉證效率
平均每個(gè)任務(wù)只需提交1.5張快照證據(jù)，極大地降低了后端的驗(yàn)證成本。
高效交互
智能體在訓(xùn)練過程中由于擬合少量的訓(xùn)練集而變得游刃有余，交互輪數(shù)不斷減少。
知識(shí)欠缺
在部分APP上，我們觀察到智能體存在反復(fù)、沒有顯著增益的表現(xiàn)，其領(lǐng)域知識(shí)的欠缺導(dǎo)致無法收斂到有效的解決方案（比如地圖APP的各項(xiàng)復(fù)雜路徑規(guī)劃任務(wù)）。這表明模型需要依賴更多知識(shí)注入來指導(dǎo)探索。

為什么這簡化了智能體RL訓(xùn)練的準(zhǔn)備工作？

在手機(jī)端、OS端這類環(huán)境的操作中，由于其時(shí)效性特點(diǎn)，傳統(tǒng)的外部驗(yàn)證器很難精準(zhǔn)捕捉瞬時(shí)的成功信號(hào)。

SmartSnap就像是給智能體配上了一臺(tái)取證相機(jī)。它不再需要事先對(duì)環(huán)境所有狀態(tài)有一個(gè)預(yù)期的變化感知來撰寫校驗(yàn)?zāi)_本，或者讓裁判員模型盯著全程軌跡來仔細(xì)推敲，而是讓智能體自己邊做邊收集必要的證據(jù)。

這允許我們基于合成的任務(wù)輕松拓展其訓(xùn)練場景，并針對(duì)有限的證據(jù)鏈來判斷成功與否，讓RL訓(xùn)練更加便捷。

面向未來

SmartSnap的出現(xiàn)，標(biāo)志著GUI智能體正從“蠻力執(zhí)行”走向“認(rèn)知協(xié)同”。這種主動(dòng)尋找證據(jù)的能力，不僅提升了AI的可靠性，更為未來大規(guī)模、低成本的AI部署鋪平了道路。

未來的AI，不僅要“能干”，更要“可信”。

論文標(biāo)題：

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
論文地址：

https://arxiv.org/abs/2512.22322
代碼地址：

https://github.com/TencentYoutuResearch/SmartSnap

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.