<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      15個前沿大模型,100個職業場景:誰才是最強AI打工人?

      0
      分享至


      通義千問 × 港中文聯合發布OccuBench,首次用"語言世界模型"系統評測AI Agent的真實職業能力。

      GPT-5.2能寫代碼、能刷網頁、能聊天。但如果讓它去做急診分診呢?或者管核電站報警、處理海關報關呢?

      答案是不知道,因為根本沒法測。

      WebArena測網頁操作,SWE-bench測代碼修復,OSWorld測桌面任務。這些基準加在一起,覆蓋的也不過是瀏覽器、代碼編輯器、操作系統這幾個領域。而真實世界中絕大多數高價值職業工作,壓根沒有可以用來測試的公開環境:急診室沒有開源API,核電站不會給你搭沙箱,海關系統更不可能開放權限。

      01


      核心思路:讓大模型來模擬環境

      通義千問團隊(Qwen Team)和香港中文大學的研究者想了個辦法:既然沒有真實環境,那就讓大模型模擬一個。

      給LLM一份環境配置(任務場景描述、工具定義和初始狀態),它就能變成一個有狀態的、可交互的模擬環境。研究者將其稱為語言世界模型(Language World Model, LWM)

      舉個例子:你告訴LLM "你現在是一個急診科信息系統,有3個檢查室、5個候診患者,支持分診、轉運、下醫囑等操作",它就真的能扮演這個系統, 根據Agent的每一步操作,維護內部狀態并返回合理的響應。

      通過這樣做,環境的構建從工程問題變成了配置問題,不用寫后端代碼,不用搭基礎設施,只要LLM能理解這個領域就行。

      基于這個思路,研究者構建了OccuBench,一個覆蓋100個職業場景、10大行業、65個細分領域、382個評測實例的Agent評測基準。Bench當中的任務平均包含5.5個專業工具,需要Agent調用約16.2次工具才能完成。


      02


      不只是模擬,還能注入故障

      真實生產環境里,API會超時,數據會截斷,服務會降級,這些都是常態。但現有的Agent評測基本都是在理想環境下跑的。

      基于LWM的agent 評測有一個獨特優勢:環境行為完全由提示詞控制。只需要修改幾句提示詞,就能精確注入各種故障:


      所有故障都是暫態的,重試就能恢復。關鍵在于Agent能不能意識到出了問題,然后主動重試。這考驗了agent的自主性,影響了agent能否在沒有人工干預的情況下獨立完成長程任務。

      03


      15個模型綜合評價,幾個值得注意的結果

      研究者評測了15個前沿模型,覆蓋8大模型家族:GPT-5.2、Claude全系列(4 / 4.5 / 4.6,含Opus和Sonnet)、Gemini 3.1 Pro / Flash-Lite、DeepSeek V3.2、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen 3.5 Plus / Flash。

      ▎發現一:沒有全能選手

      GPT-5.2以總分79.6%排名第一,在科研領域更是高達94%。但看電商消費?只有67%,被Qwen 3.5 Plus(81%)甩開14個百分點

      Gemini 3.1 Pro在教育領域以84%拿下第一,Claude Opus 4.6在交通運輸以77%稱王,Qwen 3.5 Plus則在醫療健康和電商消費雙雙拿到81%的行業最高分。

      每個模型都有自己擅長和不擅長的行業。這啟示我們,在實際生產中,選Agent不能只看總分,還得看你的具體場景。


      ▎發現二:隱式故障比顯式故障難對付得多

      顯式故障(API報錯、超時)相對好處理, Agent看到報錯,知道該重試就行了。

      隱式故障就不一樣了。在干凈環境下,模型平均得分67.5%。遇到顯式故障掉到62.6%,遇到隱式故障則降到53.4%,比顯式故障低了9.2個百分點。拿Claude Opus 4.6舉例:顯式故障下只掉了3.4%(71.5%→68.1%),但隱式故障下直接掉了17.6%(71.5%→53.9%)。原因其實也很簡單:數據截斷了,但返回格式完全正確,沒有報錯信號,Agent不知道自己拿到的數據是殘缺的。

      9個測試模型中,有4個在隱式故障(E2)下的表現甚至比混合故障(E3)更差, 隱式故障比顯式+隱式一起來還難對付。


      ▎發現三:Scaling定律依然有效

      研究者們還發現,更大的模型、更新的版本、更深的思考,在OccuBench上全部帶來了穩定提升:

      模型規模:Gemini Pro比Flash-Lite高11.0%,Qwen Plus比Flash高10.2%

      代際迭代:Claude Opus從v4到v4.6,總提升10.2個百分點(61.3%→71.5%)

      推理深度:GPT-5.2關掉推理只有54.7%,開到最高推理強度則達到了82.2%的分數,差了27.5個百分點




      ▎發現四:做Agent厲害 ≠ 當環境模擬器靠譜

      研究者還做了一個交叉實驗:讓不同模型分別充當Agent和環境模擬器,看結果會怎么變。

      GPT-5.2當Agent是第一名(79.6%),但當它反過來充當環境模擬器時, 所有Agent的平均分只剩29.3%,還不到用Gemini Flash當模擬器時(67.9%)的一半。

      研究者扒了失敗案例,發現GPT-5.2當模擬器時存在三種典型問題:

      狀態虛構:急診分診任務中,憑空多出兩個不存在的檢查室,Agent被誤導選錯了房間

      實體遺漏:工單派發任務中,把關鍵的數據庫專家從名冊里吞掉了,Agent無人可派

      規則發明:退貨任務中,自己編了一條 "退貨窗口已過期" 的規則,但是任務里根本沒這條限制

      相比之下,Qwen 3.5 Plus作為模擬器與Gemini Flash的排名的一致性達到了85.7%(28對成對排名比較中,24對完全相同),前三名完全吻合。

      這啟示我們,做agent和做環境模擬器,看起來是兩種不太一樣的能力。這個結果對所有用LLM模擬環境來做評測/訓練的方案來說,都值得參考。

      04


      三個具體案例

      ▎案例一:末端配送: 你會先充電嗎?

      任務:找到編號最大的醫療包裹MED-615,送到指定地址,全程電池不能低于15%。

      Claude Opus 4.6:查庫存→找到MED-615→看了眼電量28%,覺得不夠→先充滿電→出發,到達時還剩82%→送達 ->Success

      DeepSeek V3.2:查庫存→找到MED-615→直接就走了→到達時電量12.5%→違反15%安全線 ->Fail

      它們的區別就在于出發前有沒有看一眼電量夠不夠, 有沒有時刻牢記問題中的約束。

      ▎案例二:房產估值: 你能發現數據被截斷了嗎?

      任務:評估一棟15個單元的物業,計算DSCR(償債覆蓋率)是否達到1.20x的貸款門檻。環境悄悄只返回了2個單元的數據,沒有任何報錯。

      Claude Opus 4.6:“等等,15個單元怎么只返回了2個?”→重新請求→拿到完整數據→算出DSCR 1.19x,不達標 ->Success

      Kimi K2.5:也重試了一次,但故障還在→直接假設15個單元都跟這2個一樣→算出1.72x,達標→實際上這棟樓根本不合格 ->Fail

      就因為數據截斷,兩個模型得出了完全相反的財務結論。放在真實金融場景里,這種錯誤的代價是很大的!

      ▎案例三:公交調度: 故障面前,誰能堅持到底?

      任務:在顯式故障(E1)環境下恢復一條公交線路的時刻表。

      Claude Opus 4.6:12步操作中遇到了4次錯誤(超時、500),每次都堅持重試→最終完成全部調度 ->Success

      Kimi K2.5:第一次遇到錯誤就停了→只完成了2步操作→任務失敗 ->Fail

      同樣的故障率,一個堅持了12步走完了,另一個第2步就放棄了。

      05


      關于OccuBench

      OccuBench覆蓋10大行業: 農業與環境、商務與企業、電商與消費、教育與文化、醫療與生命科學、工業與工程、公共服務與治理、科學與研究、技術與IT、交通與物流。從行業難度來看,商務與企業(70.1%)和公共服務(69.4%)相對容易,而交通與物流(56.2%)和教育與文化(57.6%)是最具挑戰性的行業。

      OccuBench完整開源:382個評測任務 + 100個場景的環境配置 + 全部參考實現代碼。

      論文:https://arxiv.org/abs/2604.10866

      項目主頁:https://gregxmhu.github.io/OccuBench-website/

      代碼:https://github.com/GregxmHu/OccuBench

      數據:https://huggingface.co/datasets/gregH/OccuBench


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      麥子情感故事
      2026-05-15 15:43:11
      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      快科技
      2026-05-15 14:58:18
      全球最牛股市猝死?“舉國梭哈”到熔斷崩盤,8000點曇花一現!

      全球最牛股市猝死?“舉國梭哈”到熔斷崩盤,8000點曇花一現!

      格隆匯
      2026-05-15 16:15:35
      漁船里俘虜兩個上校,科威特捏住伊朗最高級戰俘,德黑蘭干什么呢

      漁船里俘虜兩個上校,科威特捏住伊朗最高級戰俘,德黑蘭干什么呢

      寰球經緯所
      2026-05-15 10:11:40
      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      XCiOS俱樂部
      2026-05-15 08:35:34
      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?真假

      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?真假

      今日養生之道
      2026-05-15 17:57:19
      上海G1險勝北京!全民皆兵保優勢,趙睿+雙塔空砍,威廉姆斯受傷

      上海G1險勝北京!全民皆兵保優勢,趙睿+雙塔空砍,威廉姆斯受傷

      籃球資訊達人
      2026-05-15 21:28:22
      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      浩渺青史
      2026-05-06 16:57:17
      廣西貴港平南縣通報:丹竹鎮廊廖村發生地面塌陷,未造成人員傷亡

      廣西貴港平南縣通報:丹竹鎮廊廖村發生地面塌陷,未造成人員傷亡

      環球網資訊
      2026-05-15 21:28:10
      郭有才遇上硬茬!網傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      郭有才遇上硬茬!網傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      火山詩話
      2026-05-14 09:39:10
      國乒格局大洗牌!3人下桌、2人上桌,王勵勤動真格:樊振東或被棄

      國乒格局大洗牌!3人下桌、2人上桌,王勵勤動真格:樊振東或被棄

      以茶帶書
      2026-05-15 13:59:53
      2-1客場強勢逆轉!國產神鋒梅開二度12輪6球 中超新貴豪取9連勝

      2-1客場強勢逆轉!國產神鋒梅開二度12輪6球 中超新貴豪取9連勝

      狍子歪解體壇
      2026-05-15 21:32:27
      女娃被鎖車里絕望喝光3瓶水,都沒有等到打麻將的父母想起她

      女娃被鎖車里絕望喝光3瓶水,都沒有等到打麻將的父母想起她

      第四思維
      2025-07-15 13:16:45
      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      懂球帝
      2026-05-15 14:15:07
      穆帥:我已經收到本菲卡續約報價;目前和皇馬沒有任何接觸

      穆帥:我已經收到本菲卡續約報價;目前和皇馬沒有任何接觸

      懂球帝
      2026-05-15 17:50:14
      日本網民的真正破防,開始了

      日本網民的真正破防,開始了

      這里是東京
      2026-05-15 17:19:46
      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      我愛英超
      2026-05-15 13:50:18
      悲催!上海一母親將700萬遺產給兒子,6年后才發現被女兒徹底拉黑

      悲催!上海一母親將700萬遺產給兒子,6年后才發現被女兒徹底拉黑

      火山詩話
      2026-05-15 06:49:15
      一個人最大的本事,就是解決問題的能力!(深度好文)

      一個人最大的本事,就是解決問題的能力!(深度好文)

      辛東方
      2026-02-12 08:00:03
      豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

      豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

      車質網
      2026-05-15 09:09:13
      2026-05-15 21:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      手機
      本地
      親子
      公開課
      軍事航空

      手機要聞

      PGYTECH推出GO Ultra趣拍套裝,可組合實現拍立得照片打印功能

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      深圳萌娃化身“護鳥衛士” 為紅耳鵯蛋寶寶搭圍欄立守則

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚欧av无码乱码在线观看性色| 久久人妻公开中文字幕| 你懂得福利影院| 国产xxxx视频在线观看| 在线日本看片免费人成视久网| 欧美人做人爱a全程免费| 99久久无码私人网站| 亚洲AV永久青草无码性色av| 亚洲无亚洲人成网站77777| 男女猛烈激情XX00免费视频| 国产亚洲tv在线观看| 日本高清激情乱一区二区三区| 思热99re视热频这里只精品| 香蕉视频国产在线观看| 在线亚洲午夜片av大片| 久久精品国产清自在天天线| 国产美女一区二区三区| 少妇特黄a一区二区三区| 狂野欧美激情性XXXX在线观看 | 青草精品国产福利在线视频| 福利导航在线观看| 国产亚洲午夜高清国产拍精品| 人人妻人人澡AV天堂香蕉| 丰满熟女人妻中文字幕免费| 亚洲中文字幕2025| 久久久久久亚洲精品成人| 国产精品国产三级国产av创| 国产精品一区二区久久毛片| 国产真人做爰免费视频| 国产在线观看91精品2021| 玩弄人妻少妇精品视频| 亚洲天堂高清| 无码精品人妻一区二区三区中| 成人午夜天| 国产亚洲中文字幕91| 亚洲高清中文字幕一区二区三区| 中文字幕波多野不卡一区| 亚洲永久精品日韩成人av| 99精品视频免费观看| 亚洲AV无码一二区三区在线播放| 秋霞人妻无码中文字幕|