<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從智能體到賽博員工,生產(chǎn)力智能涌現(xiàn)

      0
      分享至



      機器之心發(fā)布

      最近一兩年,AI 行業(yè)有一個很微妙的變化:大家不再滿足于問 “模型會不會回答”,也不再只關(guān)心 “Agent 能不能調(diào)用工具”。越來越多的討論開始回到一個更終極的問題:AI 到底能不能完全自動化接管工作區(qū),理解個性化需求,像一個真實的人類勞動力一樣,把一件事情從頭到尾做完?

      這個問題并不新。過去,每一輪模型升級都會帶來一批令人驚艷的 Demo:寫代碼、做 PPT、總結(jié)文檔、整理會議紀要,甚至在瀏覽器中代替人完成流程。然而,一旦將其放入真實的個人或企業(yè)工作流中,差距很快顯現(xiàn)出來:Demo 中的 AI 像一個聰明的助手,真實工作中的 AI 卻常常像一個健忘、不了解組織上下文的新同事。以圖中的案例為例,許多 Agent 表面上能夠 “完成表格”,但實際結(jié)果中仍存在結(jié)構(gòu)錯誤、統(tǒng)計偏差、關(guān)鍵字段缺失等問題。



      相關(guān)鏈接:https://huggingface.co/Workspace-Bench

      我們在分析飛書內(nèi)部 100+ 個真實案例后發(fā)現(xiàn),當前 Agent 已經(jīng)進入大量工作流,但大多數(shù)仍停留在 “行動層”,比如寫一段話、打開一些文件。它們可以執(zhí)行任務,卻難以理解任務背后的真實工作世界。其中一個關(guān)鍵挑戰(zhàn)是,當一個任務背后有一整套長期積累的工作空間時,AI 能不能知道該看什么、信什么、忽略什么,以及最后如何把這些材料組織成一個可交付的結(jié)果。

      這也是我們在實踐中越來越強烈感受到的轉(zhuǎn)折:Agent 的下一站,不只是更強的模型,也不只是更強的 Agent Harness,而是生產(chǎn)力智能。

      需求:從 “演示干活” 到 “進入崗位”

      想象一個很普通的工作場景。你剛加入一個團隊,老板對你說:“幫我整理一份明年全球產(chǎn)品策略報告。”

      如果這是一個傳統(tǒng) AI 任務,用戶可能會把三份材料上傳給模型,并明確告訴它:“請基于這三份文件寫一份報告。” 這時,AI 需要做的事情相對清楚:讀取文件、抽取要點、生成文本。

      但真實工作不是這樣發(fā)生的。真實情況往往是,你面對的是一個團隊多年沉淀下來的工作站:舊版方案、最終版方案、會議紀要、表格數(shù)據(jù)、客戶反饋、郵件導出、PPT 草稿、競品分析、臨時截圖、歷史復盤,全都散落在不同目錄、不同命名規(guī)則和不同版本里。更麻煩的是,很多關(guān)鍵關(guān)系并不會寫在文件名里。某個圖表可能來自三個月前的 Excel,某個結(jié)論可能來自一次沒有歸檔好的會議,某個 “最終版” 旁邊還躺著一個其實更新的 “final_v3”。

      從這個角度看,我們真正需要的不是一個 “萬能聊天機器人”,也不是一個能把工具鏈串起來的自動化腳本,而是一種新的生產(chǎn)力單位:它要擁有自己的工作站,理解崗位職責,能夠面對任務目標自主探索、持續(xù)學習,并以可驗證的方式交付結(jié)果。我們把這種形態(tài)稱為賽博員工

      這就是 Workspace-Bench 試圖揭示的問題。它不是為了再造一個 “誰分數(shù)更高” 的榜單,而是把 AI Agent 放回真實員工的辦公環(huán)境中,測試它們是否具備一種更接近生產(chǎn)現(xiàn)場的能力:Workspace Learning,工作空間學習

      工作空間學習,指的是 AI Agent 能夠在復雜工作空間中識別、推理、利用并更新異構(gòu)文件之間顯性與隱性的依賴關(guān)系,從而完成日常和進階工作任務的能力。



      相關(guān)鏈接:https://workspace-bench.github.io/leaderboard.html

      現(xiàn)狀:今天的 Agent 技術(shù),哪些能適配賽博員工,哪些還不能

      過去我們談 Agent,常常強調(diào)模型之外的系統(tǒng)能力。一個 Agent Harness 會給模型接上工具、記憶、文件系統(tǒng)、瀏覽器、MCP、狀態(tài)管理和多步執(zhí)行能力。它讓 AI 不只是 “說”,也能 “做”。近年的 Agent Harness 已經(jīng)把 AI Agent 的操作范圍大幅擴展到模型推理之外:連接外部工具與 MCP,維護任務狀態(tài)和長期記憶,編排多步執(zhí)行,加入安全邊界,并支持系統(tǒng)性評估機制。這些能力使 Agent 能夠減少人類在日常任務甚至高級任務中的重復勞動。

      Workspace-Bench 1.0 選擇了一個很有挑戰(zhàn)性的切口:不再把 Agent 放在干凈、預設、單文件的任務里,而是構(gòu)建五類真實工作角色的工作空間,覆蓋運營經(jīng)理、物流經(jīng)理、產(chǎn)品經(jīng)理、后端開發(fā)和研究員等畫像;整個環(huán)境包含 20,476 個文件、74 種文件類型、3,299 個目錄,最大目錄深度達到 8,最大單個工作站包含 11,020 個文件。



      相關(guān)鏈接:https://arxiv.org/abs/2605.03596

      它圍繞 388 個帶有文件依賴圖的任務進行評測,并設計了 7,399 條細粒度 rubric,平均每個任務需要解析 5.1 條依賴邊、跨越 4.7 個不同文件,并接受 19.1 條評價標準檢驗。這種評測方式不只看最終答案是否像樣,還看 Agent 是否找對了源文件,是否理解了文件之間的關(guān)系,是否使用了正確版本,是否遵循了任務所需的依賴結(jié)構(gòu)。

      這與真實辦公非常接近。現(xiàn)實里,一個報告寫得漂亮但數(shù)據(jù)源錯了,比報告寫得樸素更危險;一個策略建議語言流暢但證據(jù)鏈斷了,反而會放大組織風險。

      一個代表性任務很有意思:運營經(jīng)理需要生成一份全球市場產(chǎn)品策略報告。任務要求 Agent 遍歷全球市場數(shù)據(jù),比較 USCA、Asia Pacific、Europe、LATAM、Africa 五個市場的銷售額和利潤率,分析不同產(chǎn)品類別在不同市場的盈利能力,評估物流成本對利潤的影響,比較客戶細分貢獻,并最終生成 `Global_Product_Strategy.md`。這看起來像一個 “寫報告” 的任務,但實際上它要求 Agent 找到 9 個核心文件,連接訂單 CSV、物流 PDF、產(chǎn)品信息 Excel、客戶分層表、銷售計劃 PDF 等多源材料,并通過 25 條 rubric 驗證基礎(chǔ)交付、結(jié)果正確性和過程正確性。

      這不是傳統(tǒng)意義上的 “總結(jié)文檔”,而是一次小型的數(shù)字辦公室試煉。Agent 必須自己完成一件真實員工每天都在做的事:從散亂材料中恢復工作脈絡,從多源證據(jù)中形成判斷,再把判斷組織成可交付成果。

      實驗結(jié)果也說明了差距的結(jié)構(gòu)性。Workspace-Bench-Lite 上,各類 Agent 配置的總體通過率約在 27% 到 60% 之間,平均約 45.1%,明顯低于人類專家配合工具的 80.7%。在完整統(tǒng)計中,跨 27 種 Agent Harness 與 Foundation Model 組合的平均 Rubrics Pass Rate 約為 43.3%,最佳組合接近 60%,但仍與人類加工具存在顯著差距。



      更值得關(guān)注的是,難度越接近真實工作,Agent 的性能下降越明顯。論文顯示,任務從 Easy 到 Medium 再到 Hard,平均通過率從 51.4% 降到 46.0%,再降到 35.7%。Easy 任務往往只是較簡單的多文件總結(jié)或單文件修改;Hard 任務則引入文件關(guān)系發(fā)現(xiàn)、長程規(guī)劃、狀態(tài)跟蹤和錯誤恢復。換句話說,Agent 不是不會動手,而是一旦進入真實工作站的復雜依賴網(wǎng)絡,就很容易迷路。

      其中最有啟發(fā)的一點,是論文對依賴圖識別的分析。Agent 的 Node F1 通常高于 Edge F1,說明它們相對更容易找到 “哪些文件可能相關(guān)”,但更難判斷 “這些文件之間到底是什么關(guān)系”。這其實非常符合我們的實踐經(jīng)驗:今天的 Agent 常常能搜到一堆材料,卻不知道哪個是源數(shù)據(jù),哪個是派生報告,哪個是歷史版本,哪個只是背景約束。

      這就是賽博員工與普通 Agent 的分界線。普通 Agent 只要找到材料,就可以開始生成;賽博員工必須先理解材料之間的關(guān)系,再決定如何生成。

      Scaling :從模型參數(shù)到提供的工作世界本身

      今天行業(yè)討論 Scaling,很多時候仍然圍繞模型本身展開:更大的參數(shù)、更長的上下文、更強的推理、更低的 token 成本。這些當然重要,但它們并沒有完全回答企業(yè)生產(chǎn)力的問題。

      我們從實踐中看到,后面真正需要規(guī)模化擴展的,未必是 Agent 本身或模型本身,而是三個更難但更關(guān)鍵的對象。

      第一,是工作站的規(guī)模。真實企業(yè)不是一個干凈的 benchmark 文件夾,而是成千上萬個不斷變化的 workspace。每個團隊的文件結(jié)構(gòu)、命名習慣、權(quán)限邊界、歷史遺留和業(yè)務語義都不同。AI 如果只能在單個被整理好的文件包里工作,它就很難進入真實組織。

      第二,是提供的角色的規(guī)模。企業(yè)需要的不是一個泛化的 “萬能 Agent”,而是一組能夠承擔具體職責的角色:運營經(jīng)理、產(chǎn)品經(jīng)理、物流經(jīng)理、后端負責人、研究員、銷售、財務、HR、法務。每個角色都有不同的目標函數(shù)、證據(jù)標準和交付格式。讓 AI 從 “執(zhí)行工具” 變成 “崗位角色”,本身就是一次更復雜的工程化挑戰(zhàn)。

      第三,是各種典型生產(chǎn)力工作的規(guī)模。企業(yè)真正關(guān)心的不是 AI 能否完成一次炫技任務,而是能否穩(wěn)定覆蓋周報生成、客戶分析、項目復盤、策略報告、數(shù)據(jù)核對、合規(guī)審查、需求整理、進度跟蹤等高頻任務。這些任務往往不難描述,卻很難穩(wěn)定交付,因為它們高度依賴組織上下文和跨文件證據(jù)鏈。

      這三件事都非常難 Scaling。它們不像模型參數(shù)那樣可以通過統(tǒng)一的訓練流程線性推進,也不像單個 Agent Demo 那樣可以靠精心設計的場景展示效果。它們要求 AI 系統(tǒng)真正理解企業(yè)里的 “工作世界”:文件如何產(chǎn)生,信息如何流轉(zhuǎn),角色如何協(xié)作,任務如何沉淀為流程。

      生產(chǎn)力智能涌現(xiàn)

      過去談 AI 涌現(xiàn),行業(yè)常常把它理解為模型能力突變:模型規(guī)模達到某個臨界點,突然出現(xiàn)更強的推理、規(guī)劃、編碼或多模態(tài)理解能力。這種涌現(xiàn)仍然重要,但它不是生產(chǎn)力智能的全部。

      在生產(chǎn)力場景里,我們需要一個新的定義:生產(chǎn)力智能的涌現(xiàn),是當模型、Agent Harness、工作站結(jié)構(gòu)、角色語境、任務反饋和組織流程形成閉環(huán)后,系統(tǒng)在真實工作中表現(xiàn)出穩(wěn)定、可復用、可擴展交付能力的過程。



      這個定義有三個關(guān)鍵變化。

      第一,涌現(xiàn)的驅(qū)動力不完全來自模型。更強模型當然能提升上限,但論文結(jié)果顯示,同一模型在不同 Harness 下會呈現(xiàn)不同的能力分布,而同一 Harness 在不同模型上也會出現(xiàn)顯著差異。尤其在 Hard 任務中,性能下降來自模型推理能力與 Harness 編排約束的雙重作用。這說明,生產(chǎn)力智能不是單點模型能力,而是系統(tǒng)組合能力。



      第二,涌現(xiàn)的驅(qū)動力也不完全來自 Agent 技術(shù)本身。Harness 可以讓 AI 更會行動,但如果它不能理解工作站中的文件血緣、語義依賴和任務支撐關(guān)系,就會陷入 “動得很多,但做得不準” 的狀態(tài)。高交互輪次和高 token 消耗并不必然帶來高質(zhì)量結(jié)果。某些配置會產(chǎn)生 40 到 60 輪交互、消耗大量 token,卻只能停留在 30% 到 45% 的準確率區(qū)間。相反,更高效的系統(tǒng)能夠用更少交互輪次找到關(guān)鍵證據(jù),體現(xiàn)出更強的推理效率。



      第三,涌現(xiàn)可能源于工作站本身的變革。當工作站不再只是文件存儲,而是成為一種可被機器理解、可被角色繼承、可被任務驗證的生產(chǎn)力環(huán)境時,AI 的能力邊界會發(fā)生變化。它不再只是 “訪問文件”,而是在一個結(jié)構(gòu)化、帶有血緣、權(quán)限、反饋和評價機制的工作世界中學習如何工作。

      結(jié)語:下一代 AI 競爭,是爭奪生產(chǎn)力智能的基礎(chǔ)設施

      過去,AI 產(chǎn)品常常從 “能力” 出發(fā):能寫作、能畫圖、能檢索、能 coding、能調(diào)用工具。但未來,真正能夠進入企業(yè)生產(chǎn)系統(tǒng)的 AI 產(chǎn)品,必須從 “工作” 出發(fā):一個角色每天要完成什么任務?需要訪問哪些工作站?如何識別文件之間的關(guān)系?如何發(fā)現(xiàn)缺失信息、修復錯誤、檢查版本,并在多人協(xié)作中留下可追溯的證據(jù)鏈?

      這正是當前 Agent 的核心瓶頸。許多 Agent 本質(zhì)上仍是 request-response system:用戶提出指令,它在 prompt 邊界內(nèi)執(zhí)行動作。但真實員工更接近 outcome-responsible system:老板只提出目標,員工會主動補齊數(shù)據(jù)、核對上下文、預判風險,并對最終交付負責。因此,賽博員工與普通 Agent 的核心分層,不在于是否能夠調(diào)用工具,而在于是否能夠?qū)⒛繕宿D(zhuǎn)化為可靠交付。普通 Agent 更多是把指令轉(zhuǎn)化為動作,賽博員工則需要把目標轉(zhuǎn)化為結(jié)果。

      從 Agent 到生產(chǎn)力智能的范式遷移,并不容易。工作站的規(guī)模、角色的規(guī)模、典型生產(chǎn)力工作的規(guī)模,都可能構(gòu)成新的 scaling-up 問題。但也正因為難,它才是 AI 真正進入工作世界的潛在關(guān)鍵。

      參考內(nèi)容:

      《Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies》 https://arxiv.org/pdf/2605.03596

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      糖尿病人千萬別碰的4種主食:很多人天天吃,血糖悄悄飆升

      糖尿病人千萬別碰的4種主食:很多人天天吃,血糖悄悄飆升

      白宸侃片
      2026-05-15 17:47:54
      笑麻了,原來真實的鄉(xiāng)鎮(zhèn)公務員是這樣的!網(wǎng)友:疑是被編制做局了

      笑麻了,原來真實的鄉(xiāng)鎮(zhèn)公務員是這樣的!網(wǎng)友:疑是被編制做局了

      另子維愛讀史
      2026-05-10 10:55:25
      馬斯克幼子穿新中式炸屏!跨性別女兒破防了

      馬斯克幼子穿新中式炸屏!跨性別女兒破防了

      廣告案例精選
      2026-05-15 09:15:36
      生活是快樂的:不是等來的,是自己創(chuàng)造的

      生活是快樂的:不是等來的,是自己創(chuàng)造的

      疾跑的小蝸牛
      2026-05-15 19:59:37
      浙江工業(yè)大學訃告

      浙江工業(yè)大學訃告

      雙一流高校
      2026-05-16 00:30:07
      中美互利共贏:200架波音訂單與C919適航前景

      中美互利共贏:200架波音訂單與C919適航前景

      曉踏就是我
      2026-05-15 18:06:31
      單日蒸發(fā)65億元,A股新晉“股王”翻車在一個副總經(jīng)理身上

      單日蒸發(fā)65億元,A股新晉“股王”翻車在一個副總經(jīng)理身上

      上觀新聞
      2026-05-15 22:33:30
      國家稅務總局成都市稅務局原二級巡視員李平接受審查調(diào)查

      國家稅務總局成都市稅務局原二級巡視員李平接受審查調(diào)查

      界面新聞
      2026-05-15 15:40:24
      全網(wǎng)罵翻!郭富城怎么也想不到,方媛一檔綜藝敗光了他的路人緣

      全網(wǎng)罵翻!郭富城怎么也想不到,方媛一檔綜藝敗光了他的路人緣

      鄉(xiāng)野小珥
      2026-05-16 03:41:22
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      備戰(zhàn)提速?最新版殲-20A已經(jīng)交付,外媒:美日還怎么武力介入臺海

      備戰(zhàn)提速?最新版殲-20A已經(jīng)交付,外媒:美日還怎么武力介入臺海

      李健政觀察
      2026-05-15 14:04:27
      美國海上封鎖升級后,伊朗開始把貨物改走中國鐵路

      美國海上封鎖升級后,伊朗開始把貨物改走中國鐵路

      桂系007
      2026-05-16 03:26:27
      表決結(jié)果出爐,53:39!傅崐萁反制后,卻做出讓步!鄭麗文出手了

      表決結(jié)果出爐,53:39!傅崐萁反制后,卻做出讓步!鄭麗文出手了

      娛樂的宅急便
      2026-05-15 18:31:54
      銷量暴漲61%!曾經(jīng)千元的“媽媽包”,終于讓中產(chǎn)回頭瘋搶

      銷量暴漲61%!曾經(jīng)千元的“媽媽包”,終于讓中產(chǎn)回頭瘋搶

      財經(jīng)八卦
      2026-05-15 16:27:27
      終于明白了,為何各大車企都在瘋狂降價!原來不知不覺中風向變了

      終于明白了,為何各大車企都在瘋狂降價!原來不知不覺中風向變了

      周哥一影視
      2026-05-15 18:39:12
      提名沈伯洋選臺北市長,民進黨就別尬吹了

      提名沈伯洋選臺北市長,民進黨就別尬吹了

      樞密院十號
      2026-05-14 22:39:41
      Altman被輪番追問:你完全可信嗎?

      Altman被輪番追問:你完全可信嗎?

      Ping值焦慮
      2026-05-15 04:38:31
      大連英博球迷意難平:五點原因遠超比賽結(jié)果

      大連英博球迷意難平:五點原因遠超比賽結(jié)果

      徐觳解說
      2026-05-15 23:20:46
      張雪峰猝死不到2月,小沈陽被緊急送往就醫(yī),已是10天內(nèi)第二次

      張雪峰猝死不到2月,小沈陽被緊急送往就醫(yī),已是10天內(nèi)第二次

      她時尚丫
      2026-05-15 21:40:35
      女生最渴望被刺激的四種生理性欲望,網(wǎng)友稱贊我又學到了

      女生最渴望被刺激的四種生理性欲望,網(wǎng)友稱贊我又學到了

      那年秋天
      2026-04-18 12:30:09
      2026-05-16 06:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13006文章數(shù) 142650關(guān)注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      頭條要聞

      黃仁勛在北京喝豆汁痛苦皺眉 問“這是什么東西”

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      教育
      游戲
      時尚
      公開課
      軍事航空

      教育要聞

      老師掌摑多名學生后續(xù),系一名書法教師,當?shù)毓继幜P結(jié)果

      《街霸6》春麗新品來了!招牌肉腿完美還原

      頂級團隊拍出來的作品不如素人,問題出在哪兒了?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數(shù)增至12人

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲AV毛片无码成人区httP| 国产系列丝袜熟女精品视频| 蜜桃av久久久一区二区三区麻豆| 国产精品入口麻豆| 最新精品国偷自产在线| 日本精品一区二区三区在线视频| 成人看的污污超级黄网站免费 | 中文字幕乱偷乱码亚洲| 欧美丰满少妇猛烈进入A片蜜桃| 77777五月色婷婷丁香视频| 亚洲一起cao| 99热国产在线精品99| 国产免费拔擦拔擦8x高清在线人| 亚洲av日韩在线资源| 亚洲全国最大的人成网站| 亚洲乱伦| 中文字幕无码家庭乱欲| 亚洲热线99精品视频| 欧美人与动交片免费播放| 欧美色香蕉| 在线看片免费人成视频久网| av专区在线| 美女91社| 国产国语chinesevideosex| 亚洲综合日韩久久成人AV| 国产在线不卡精品网站| 一区二区免费电影| 日本天天黄网站| 女人的天堂av| 好男人中文资源在线观看| 免费国产黄线在线观看| 国内精品人妻无码久久久影院蜜桃| 成年丰满熟妇午夜免费视频| 中文国产成人精品久久不卡 | 97免费人妻在线视频| 久久精品色妇熟女丰满| 墨玉县| a毛片免费观看| 亚洲一区二区不卡av| 在线?国产?精品?播放?VA| www内射国产在线观看|