<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude通過率不到4%,SaaS-Bench撕碎Computer-Use 全自動辦公幻想

      0
      分享至



      機器之心發布

      想象一個真實的工作日:項目經理要更新項目狀態,財務人員要整理客戶賬單,醫療管理員要核對預約和保險信息。

      這些并不是高級專家任務,很多時候,一個認真一點的實習生照著流程也能完成。

      但對今天的 AI Agent 來說,這些 “日常工作” 卻遠沒有看起來那么簡單。

      它需要理解業務目標、跨應用查找信息、保持狀態一致,還要在幾十甚至上百步操作后,把所有細節正確落到系統里。

      這也是SaaS-Bench想揭示的現實:Agent 不只是要會點按鈕、填表格,更要能完成真實辦公室里的長流程工作。

      如果連實習生日常能做的任務都無法穩定完成,那我們就需要重新審視:距離真正可用的 Agent,還有多遠。



      • Blog 鏈接:https://unipat.ai/blog/SaaS-Bench
      • GitHub 鏈接:https://github.com/UniPat-AI/SaaS-Bench
      • 論文鏈接:https://arxiv.org/abs/2605.15777

      Computer-Use Agent 的「奇點」沒有來,現實的冷水先潑下來了。

      過去一年,各家 GUI Agent 爭先恐后地宣稱能替人類干活。Benchmark 成績一路飆升,投資人興奮,媒體狂歡,「全自動辦公」似乎就在眼前。

      但 UniPat AI 剛剛用一組數據證明:這一切,都建立在沙子上!



      Leaderboard

      23 個真系統,106 個任務,一場殘酷的實戰考試

      現有的 Agent 評測,說白了就是:仿真環境、簡單任務、最多幾十步搞定。

      跟真實工作完全是兩回事。

      真實辦公長什么樣?一個醫療管理員寫完 SOAP 病歷→填病例上報→生成正式文檔。一個財務收到報銷申請→審批→打款→記賬。跨好幾個系統,步驟動輒幾百步。

      SaaS-Bench 的思路很暴力:直接把真系統搬進 Docker,讓 Agent 在真實的前后端邏輯、數據庫狀態和業務約束中干活。



      SaaS-Bench 任務 —— 真實工作場景任務

      SaaS-Bench 精心挑選了 23 個開源 SaaS (Software-as-a-Service) 系統,全部通過 Docker 本地部署,保留了完整的前后端邏輯、數據庫狀態和業務約束。覆蓋六個專業領域:

      • 軟件研發:OpenProject、Baserow、Code-Server、Metabase
      • 業務財務:Twenty CRM、BigCapital、HRMS、Pretix
      • 醫療管理:OpenEMR、OpnForm、OnlyOffice
      • 團隊協作:SiYuan、Roundcube、Mattermost、ownCloud
      • 農業供應鏈:FarmOS、Grocy、Recipya、E-Label
      • 獨立媒體:PhotoPrism、MediaCMS、BookLore、Watcharr

      更重要的是,這些系統不是 “空殼網頁”:每個軟件里都填充了真實業務的數據,包括用戶、項目、訂單、文件等實體記錄。Agent 進入的不是一個空白的測試頁面,而是一個有歷史數據、有干擾項、有跨系統關聯的真實工作環境。



      任務模態、領域、app 三層分布

      106 個任務中,93.4% 跨越至少兩個應用,三應用任務占了一半(53 個)。純文本任務 74 個,涉及多模態理解的 32 個。以 Claude Opus 4.6 的執行軌跡估算,97.3% 的文本任務操作步數超過 100 步,最長軌跡達 300+ 步。



      任務難度分析 —— 大多數任務是 Cross-App + Long-Horizon 的

      這些任務是怎么來的?如何評估 Agent 的操作能力?

      SaaS-Bench 采用“LLM 生成 + 專家把關”的方式完成任務構建:

      • 先由 LLM 圍繞六大專業領域和具體職業角色生成任務,明確任務目標、跨應用依賴和驗證要求,并通過多輪修改減少歧義和漏洞。
      • 隨后,專家會對任務進行人工篩選和真實執行檢查,重點判斷任務是否專業、自然、可完成、可驗證。對于堆砌步驟、邏輯混亂或驗證不準的任務,會被修改或剔除,最終確保每個任務都能真實運行,并能被驗證器準確評估。



      任務構建流程圖 —— 四個階段保證任務質量

      SaaS-Bench 允許 Agent 使用 Browser-Use 在 SaaS 環境中操作計算機,并給出了兩個指標:

      • Resolved Score(完全通過分數,嚴苛):全部檢查點通過才算 1,否則為 0
      • Checkpoint Score(檢查點分數,寬松):按權重計算部分檢查點完成比例



      Agent → Browser-Use → 執行 → 驗證 → 打分總覽圖

      后面的結果會表明 —— 這兩個數字之間的巨大落差,恰好暴露了 Agent 最核心的問題。

      榜單出爐:全軍覆沒

      來看這組數字 ——



      主要結果 (DeepSeek V4 、M2.7 和 GLM5.1 為單模態模型,僅測評 Text-Only Domain)

      最強的 Claude Opus 4.7,檢查點分數 43.9%,端到端完全通過分數只有 3.8%——106 個任務,只完整通過了 4 個。Kimi K2.5 和 Gemini 3.1 Pro?完全通過分數為零。一個任務都沒走完。

      這組數字的含義極其殘酷:Agent 可以推進工作的部分中間環節,但幾乎沒有能力將一個完整的長程工作流走完。

      多跑幾次能救嗎?



      四個模型的 Pass@k 結果

      把每個模型在同一任務上獨立跑 3 次,對一次就算通過。pass@3 相比 pass@1 整體提升約 8 個百分點。

      Sonnet 4.6 在多模態任務上從 33.9% 跳到 52.1%(+18.2pp)—— 它并非完全不行,而是執行極不穩定

      這不是環境隨機性。每次運行的初始狀態完全相同。這是路徑依賴 —— 模型在某個決策點的微小差異,導致后續軌跡完全分叉。

      多跑幾次有幫助,但遠不是解決方案。

      越復雜,分越低

      三個結構維度全部單調遞減:



      分數 vs 應用數 / 分數 vs 步長 / 分數 vs 檢查點個數

      • 跨應用數1→4:平均分從 53% 降至 20%
      • 操作步長增加:任務軌跡越長,得分顯著越低
      • 檢查點個數≤6 vs ≥18:平均分從 65% 降至 27%

      「跨應用 + 軌跡長 + 細粒度驗證」的任務得分最低 ——這恰恰是真實工作流最常見的形態。

      四種結構性失敗:Agent 到底在哪翻車

      SaaS-Bench 真正的價值不在于分數本身,而在于暴露了 Agent 在真實環境中的四種致命缺陷。

      失敗 1:任務越長,越做不對

      即使每個檢查點通過率高達 95%,12 個檢查點的全部通過概率也只有 54%。而 SaaS-Bench 的平均檢查點數遠超 12。

      所有模型都呈現同一個模式:通過率隨任務推進呈下降趨勢,沒有一個模型能在后半段維持住前期表現。



      模型隨著任務執行,做對的越來越少

      這是一條不可逆的下降曲線。越往后走,越不可能走完。

      失敗 2:一步錯,步步錯

      一個典型案例:任務要求創建一個公司客戶「Arcturus Digital」。Agent 同時填了聯系人姓名和公司名,觸發了個人客戶邏輯,實際創建的是個人客戶 Elena Vasquez。

      此后的 10 張發票、付款記錄、賬戶對賬,全部掛在錯誤實體下。核心檢查點權重僅 3%,但導致了下游 30% 的權重損失。



      上游任務導致下游失敗鏈示意圖

      一個 3% 的錯誤節點,造成 30% 的分數損失。

      失敗 3:做完不檢查,自以為對了

      Claude Opus 4.6 在 Step 124 識別出日期錯誤(2026-03-19 vs. 2026-03-20),執行了修改,但沒有回到頁面復查,直接推進后續子任務。Step 210 提交時,匯報寫的是「賬單日期 2026-03-20,已修復」—— 頁面上實際日期仍是 03-19。



      Agent 在意圖層面認為成功,Verifier 在狀態層面發現失敗

      Agent 在意圖層面認為成功,驗證器在狀態層面發現失敗。兩者之間的斷層是系統性的。 當前 CUA 框架缺少「嚴謹的反思閉環」 —— Agent 是個不會檢查自己作業的學生。

      失敗 4:同一張考卷,成績忽高忽低

      Claude Sonnet 4.6 在同一任務的三次獨立運行中,分數范圍從 0.00 到 0.68。這不是環境隨機性造成的 —— 每次運行的初始狀態完全相同 —— 而是路徑依賴:模型在某個決策點的微小差異,會導致后續執行軌跡完全分叉,這讓 Agent 在長程任務中的執行變成了賭博。



      Claude Sonnet 4.6 在同一任務的三次運行

      這意味著什么

      SaaS-Bench 撕碎了一個幻覺:Agent 的 Benchmark 成績和真實工作能力之間,存在巨大的鴻溝。

      四種結構性失敗模式 —— 越往后越做不對、一步錯步步錯、做完不檢查、次次分數不一樣 —— 指向同一個底層事實:當前 Agent 缺少對持久狀態的有效推理能力,缺少操作后的閉環驗證機制,缺少從錯誤中恢復的能力。

      這些不是靠模型變大、或者加幾個工程模塊就能解決的問題。 它們指向的是當前 Agent 范式更深層的局限:在長程任務中,模型缺少對全局狀態的持續感知,無法像人一樣 "心里有數"。這不只是技術債,而是當前范式的天花板。

      Computer-Use Agent 想要真正替人干活?路還很遠。SaaS-Bench 把地圖攤開了 —— 接下來就看各家怎么走了。

      但這也引向了一個正在逐漸形成的共識:今天的 SaaS 是給人設計的 —— 菜單、按鈕、表單,都在服務人類的眼睛和手指。但當 Agent 成為主要用戶,這些界面就變成了累贅。未來不是讓 Agent 學會操作人類的軟件,而是軟件本身要為 Agent 重新設計。SaaS-Bench 揭示的不只是 Agent 的短板,也是當前軟件形態的保質期 —— 面向人類的 SaaS,可能都要為 Agent 重做一遍。

      UniPat AI

      UniPat AI 致力于構建面向真實場景的 AI 訓練、評測與應用新范式,推動 Agent 能力在千行百業中規模化落地,創造切實的經濟與社會價值。

      • 官網鏈接:https://unipat.ai

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      離婚官司尚未宣判男子莫名被離婚:法律工作者偽造判決書,妻子持假文書再婚遷戶

      離婚官司尚未宣判男子莫名被離婚:法律工作者偽造判決書,妻子持假文書再婚遷戶

      上游新聞
      2026-05-27 11:00:35
      見過分手互撕,沒見過分開17年還這么護著!庾澄慶伊能靜太好哭了

      見過分手互撕,沒見過分開17年還這么護著!庾澄慶伊能靜太好哭了

      寒士之言本尊
      2026-05-27 12:42:50
      雷軍淪陷了!回應武契奇總統買不起小米車,被批情商低,評論笑死

      雷軍淪陷了!回應武契奇總統買不起小米車,被批情商低,評論笑死

      做一個合格的吃瓜群眾
      2026-05-27 15:18:42
      鄭欽文的失敗是必然結果!爆紅后商業代言邀約不斷,疏于打球磨練

      鄭欽文的失敗是必然結果!爆紅后商業代言邀約不斷,疏于打球磨練

      童叔不飆車
      2026-05-26 22:43:00
      41歲王珞丹現狀:住河北深山,不結婚不生子,放棄榮華富貴圖啥?

      41歲王珞丹現狀:住河北深山,不結婚不生子,放棄榮華富貴圖啥?

      白面書誏
      2026-04-20 15:26:26
      米奇回應丟G5!提防守與罰球問題,談文班表現,回應輪換質疑!

      米奇回應丟G5!提防守與罰球問題,談文班表現,回應輪換質疑!

      籃球資訊達人
      2026-05-27 13:24:17
      60歲以上老人,手里存款只要高于這3個數,養老從此不愁了

      60歲以上老人,手里存款只要高于這3個數,養老從此不愁了

      貓叔東山再起
      2026-05-09 10:15:08
      華為的車,開始自己打起來了

      華為的車,開始自己打起來了

      茄小茄說事
      2026-05-25 11:41:47
      同濟大學、中山大學等多所高校學者被舉報涉嫌學術不端,有人被免職;科研人員:有些“大咖”太忙,甚至不清楚手下在做什么

      同濟大學、中山大學等多所高校學者被舉報涉嫌學術不端,有人被免職;科研人員:有些“大咖”太忙,甚至不清楚手下在做什么

      每日經濟新聞
      2026-05-26 21:49:15
      央媒發文,高調官宣張藝謀新身份,全家移民美國改國籍真相大白!

      央媒發文,高調官宣張藝謀新身份,全家移民美國改國籍真相大白!

      社會日日鮮
      2026-05-24 17:17:12
      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      直到李老師當場揭穿吹火替身,封子才知自己在恩師面前犯了忌

      觀察鑒娛
      2026-05-27 13:58:36
      將帥“龍虎斗”:林彪與許世友的恩怨糾葛

      將帥“龍虎斗”:林彪與許世友的恩怨糾葛

      新大觀
      2026-05-27 10:51:00
      離譜,錄像確認球被雷霆破壞出界,裁判仍將球權給雷霆&吹馬刺技犯

      離譜,錄像確認球被雷霆破壞出界,裁判仍將球權給雷霆&吹馬刺技犯

      懂球帝
      2026-05-27 10:55:42
      滬指失守4100點,超4600只個股下跌!短劇概念活躍,多股漲停,芯片股走強!機器人概念震蕩調整,上緯新材跌超11%丨A股早盤

      滬指失守4100點,超4600只個股下跌!短劇概念活躍,多股漲停,芯片股走強!機器人概念震蕩調整,上緯新材跌超11%丨A股早盤

      每日經濟新聞
      2026-05-27 12:13:14
      突發!松島輝空官宣離隊!橋本帆乃香回應退出亞錦賽選拔賽!

      突發!松島輝空官宣離隊!橋本帆乃香回應退出亞錦賽選拔賽!

      乒乓網國球匯
      2026-05-27 02:20:32
      老夫少妻生活不和諧,33歲妻子網聊婚外情暴露,殺死丈夫后焚尸!

      老夫少妻生活不和諧,33歲妻子網聊婚外情暴露,殺死丈夫后焚尸!

      易玄
      2026-05-24 17:35:34
      武漢東湖“低價急售房”實為引流騙局,記者暗訪揭穿

      武漢東湖“低價急售房”實為引流騙局,記者暗訪揭穿

      說故事的阿襲
      2026-05-27 11:37:50
      長沙警方:某小區發生一起人員墜亡事件,死者系高墜而亡,已排除刑事案件可能,網友稱系惡性刑事案件為不實謠言

      長沙警方:某小區發生一起人員墜亡事件,死者系高墜而亡,已排除刑事案件可能,網友稱系惡性刑事案件為不實謠言

      揚子晚報
      2026-05-27 09:47:42
      報復升級,90枚導彈砸向基輔,普京這一巴掌打醒了全世界

      報復升級,90枚導彈砸向基輔,普京這一巴掌打醒了全世界

      混沌錄
      2026-05-25 18:29:40
      醫生勸告:一旦吃上降壓藥,這6種食物必須戒掉,再吃有中風風險

      醫生勸告:一旦吃上降壓藥,這6種食物必須戒掉,再吃有中風風險

      藥師健康指南
      2026-05-27 12:45:11
      2026-05-27 16:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13094文章數 142653關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節披露

      頭條要聞

      受害者多為中國女性 震驚全球的迷奸案細節披露

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

      態度原創

      健康
      教育
      家居
      手機
      房產

      打外泌體會比干細胞更安全嗎

      教育要聞

      新傳考研名詞解釋:加速暴力

      家居要聞

      古老而持久 石影扶手椅

      手機要聞

      魅族科技官宣手機服務堅守如初,稱官方售后等依然會持續提供保障

      房產要聞

      地產投資又跌30%!連跌15月!海南房子將越來越少?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本视频高清一区二区三区| 91在线无码精品秘 入口九色十| 国产乱子伦60女人的皮视频| 免费一级黄色好看的国产| 一区二区自拍| 日韩不卡手机视频在线观看| 国产黄色大片一区精品| 三级片官网| 熟妇人妻无乱码中文字幕真矢织江 | 一本色道无码DvD免费视频| 女人被狂躁到高潮视频免费动态图| 天美mv传媒| 亚洲人成网址| 亚洲国产精品综合久久网各 | 强开少妇嫩苞又嫩又紧九色| 国产成人精品视频网站| 国产乱了伦视频大全亚琴影院 | 天干夜天干天天天爽视频| http://国产熟女.com| 中国精品一区二区| 久久精品亚洲中文字幕无码网站| 欧洲一区二区中文字幕| 60岁欧美乱子伦xxxx| 亚洲中文字幕有综合久久| 亚洲无码视频在线| 亚洲欧洲一区二区免费| 国产精品毛片av一区二区| 国产一卡2卡三卡4卡免费网站| 欧美性受xxxx极品| 欧洲熟妇熟女久久精品综合| 成人视频免费在线观看| 亚洲18禁一区二区三区| 无码人妻一区二区三区AV| 亚洲成A∨人片在线网| 99免费在线观看视频| 久久精品国亚洲a∨麻豆| 亚洲中文字幕一区二区| 国产精品美女在线看| 日韩男人天堂| 久久精品国产只有精品66| 最新国产三级在线不卡视频|