<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      微軟提出Computer-Using World Model,教智能體理解動作的后果

      0
      分享至



      把大模型「放進電腦里」,會出現一種很奇特的反差:

      它能寫代碼、能推理、能把論文總結得頭頭是道;但一旦讓它去操作 Excel、Word 這種真實桌面軟件,卻像第一次用電腦的人 -- 點錯菜單、來回切換,甚至在同一頁里循環點擊。

      很多人第一反應會覺得是 Agent 沒看清按鈕,或者沒理解任務,不知道界面上各個選項是什么意思。但在真實軟件里,更大的問題往往不是「看不見」,而是「不知道點下去會發生什么」。

      在同一個界面上,不同的操作會把系統帶到完全不同的狀態,一旦點錯,往往很難簡單撤銷。操作會產生延遲,流程被打斷,有時甚至會直接破壞文檔。因此,關鍵不只是識別界面或讀懂指令,而是能提前判斷每個動作可能帶來的結果。

      人學習使用軟件時,看起來像是在界面里「到處試一試」。

      比如你要給一個 Excel 工作簿加密。面對界面時,你會下意識地判斷:點這個入口會不會彈出密碼窗口?點那個標簽只是切換視圖,還是在真正推進任務?哪個操作更像是在朝目標靠近?

      你并不是隨便點擊,而是在挑一個更可能有效的下一步。

      這種在行動前先預想結果、再用一次操作去驗證的過程,在認知科學中通常被稱為反事實推理。

      很多時候,人并不是等系統反饋才知道對錯,而是先對可能發生的結果有一個大致預期,再去確認。

      相比之下,不少 GUI Agent 更像「看一步、做一步」:它能讀懂當前截圖里的內容,卻缺少對「這個動作通常會帶來什么變化」的判斷,因此只能在真實環境中反復嘗試,試錯成本也更高。

      CUWM:在真正點擊之前,先在「腦海里點一遍」

      微軟研究團隊提出的 Computer-Using World Model(CUWM),想解決的正是這個問題。它做的事情可以簡單理解為:在真的操作軟件之前,先讓智能體「想象一下會發生什么」。



      • 論文鏈接:https://arxiv.org/html/2602.17365v1

      更具體地說,給定當前界面的截圖,以及一個候選操作(例如點擊某個按鈕),CUWM 會預測執行這個操作后的界面圖像。

      圖 1 展示了以當前軟件界面的截圖和對應操作作為輸入,CUWM 預測執行該操作后出現的下一步界面圖像。當智能體面對多個可選動作時,它不需要立刻在真實軟件里一個個去試,而是先把這些動作交給世界模型模擬 —— 于是會得到幾種「想象出來的下一步界面」。



      圖 1:CUWM 預測的不同動作導致的軟件界面圖片。從同一當前界面(current state)出發,執行不同操作,如點擊 Encrypt with Password、打開 Images 或放大視圖,會得到不同的下一個狀態(例如彈出密碼窗口、展開工具面板或改變顯示比例)。

      接下來,智能體只需比較:哪一種結果更接近任務目標?選出最合理的一步,再在真實系統中執行。

      論文把這個過程稱為world-model-guided test-time action search。重要的是,智能體本身的策略是凍結的,沒有重新訓練;性能提升來自于更好的「預演」和更充分的測試時計算,而不是把 Agent 本身變得更復雜。

      換句話說,CUWM 不是在教智能體更會操作,而是在給它一種「先想后做」的能力。



      圖 2:CUWM 概述:給定當前 UI 截圖與動作(如點擊 Excel 的列「H」),CUWM 先生成一段聚焦局部變化的過渡描述(Stage 1),再在保持不變區域穩定的前提下對截圖進行條件編輯,生成預測的下一狀態(Stage 2)。

      關鍵設計:模型關注的不是像素,而是「變化」

      桌面軟件 UI 的特點是:大部分區域長期不變,變化通常發生在局部 —— 選區高亮、面板展開、彈窗出現、光標移動…… 如果端到端預測整張下一幀截圖,模型既要背負巨大的不變背景,又要捕捉極小但關鍵的變化,低效且容易「注意力錯位」。

      CUWM 的關鍵設計是把「下一步預測」拆成兩段:

      • Stage 1:先說清楚「變了什么」(Textual State Transition):輸出一段結構化、盡量簡潔的「過渡描述」,只寫與動作相關的界面變化;
      • Stage 2:再把變化落實到截圖上(Visual State Realization):用條件圖像編輯把變化渲染到原圖上,盡量保持不變區域穩定,生成下一步截圖。

      這一分解的重點不在「畫得多逼真」,而在讓模型學到:動作改變的是系統狀態,而智能體真正需要的是「點了之后世界怎么變」。

      圖 2 展示了 CUWM 的兩階段流程:先生成「變化描述」,再把變化實現成下一幀 UI。這種「what changes /how it appears」的分解,讓模型把注意力放在動作后果上,而不是低效地重繪整張界面。

      訓練數據怎么來:從真實交互里抽三元組,再自動寫「變化描述」

      CUWM 不依賴昂貴的在線強化學習環境,而是從真實軟件的交互軌跡中構造訓練樣本:把一次操作前后的界面截圖配對,再附上對應的動作表示,形成標準的 ((s_t, a_t, s_{t+1})) 訓練三元組。

      關鍵在于 Stage 1 的監督信號 ——「變化描述」怎么得到?論文做法是用 GPT-5 作為自動標注器:對每個三元組生成一段簡潔的 UI 變化描述,明確「哪些變了、哪些不變」,用來監督微調 Stage 1。

      為了讓描述更短、更結構化、更少幻覺,作者還在 SFT 之后用 GRPO 做輕量 RL 細化:獎勵由 LLM-as-a-Judge 的結構一致性評分與長度懲罰組合,從而有效覆蓋關鍵 UI 結構。

      結果:智能體開始「規劃行動」

      在實驗中,智能體需要完成「給 Excel 工作簿添加密碼保護」的任務。它不會立刻在真實環境里點來點去,而是先提出多個候選動作,并逐個調用 CUWM 進行模擬,得到每個動作可能帶來的「下一步界面」。

      隨后,智能體把這些模擬結果與任務目標進行對照,最終選擇點擊「Protect Workbook」—— 因為這一候選動作對應的預測界面最符合「進入保護 / 加密流程」的預期方向。

      那么,智能體是如何在點擊前完成一次「內部試錯」的?圖 3 給出了直觀示例。



      圖 3:先模擬后執行:world model 做「模擬器」,Agent 做「決策者」。 智能體先提出多個候選動作,CUWM 分別預測每個動作會導致怎樣的下一步 UI;智能體再根據這些預測結果與任務目標的匹配程度,選擇更可能推進任務的那一步(示例中為「Protect Workbook」),從而減少真實環境中的反復試錯與無效點擊。

      這正是 CUWM 的價值所在:把高成本的環境試錯轉移到模型內部。智能體先在「想象出來的下一屏」里完成比較與選擇,再把最有希望的一步落到真實軟件執行。從「高成本試錯」變成「低成本模擬」,顯著降低無效操作與循環點擊,讓 GUI Agent 從反應式點擊走向規劃式決策。

      更進一步,論文指出,性能提升的關鍵更多來自對界面結構變化的正確預測(例如面板是否展開、關鍵入口是否出現),而不只是生成圖像的視覺逼真度。這也側面說明,GUI Agent 的核心能力并非純視覺識別,而是面向交互的規劃與決策。

      更深層的意義:Agent 決策能力意味著什么

      如果把大模型的發展看成一條連續的能力變化,其實不只是「更聰明了」,而是能力的類型在改變。

      過去,大模型主要解決的是理解與表達的問題:它能讀懂一段話、回答問題、寫文章、解釋概念。這些能力本質上都發生在「信息空間」里 —— 輸入是文本,輸出也是文本。模型只需要給出一個合理的回答,不需要承擔真實后果。

      但當 AI 進入軟件環境,問題發生了變化,這里不再是「回答是否合理」,而是「動作是否有效」。一次點擊、一次輸入、一次拖拽,都會改變系統狀態,并影響之后還能不能繼續完成任務。也就是說,AI 不再只是解釋世界,而是在改變世界(哪怕只是數字世界)。

      這時,Agent 的核心能力就變成了決策能力:它必須在多個可能動作中做選擇,并對選擇的后果負責。關鍵不再是「這句話對不對」,而是「這一步走完之后,任務更接近還是更遠」。

      人類在操作軟件時,之所以效率很高,是因為在行動前會形成一種內部判斷:這個操作大概會帶來什么結果。如果結果不符合目標,往往在點擊前就會放棄,而不是等系統報錯。這其實是一種對「動作 → 狀態變化」的理解。

      而很多當前的 GUI Agent 缺少的正是這一層。它能識別界面、能理解指令,卻仍然主要依賴真實交互去排除錯誤路徑。也就是在環境里不斷試錯,直到碰到正確步驟。換句話說,它更像是在反應,而不是在決策。

      CUWM 的意義,不只是提高成功率,而是讓 Agent 開始具備一種新的能力:在執行之前先評估后果。

      當智能體可以先模擬不同動作帶來的不同未來,再選擇更合適的一步時,它做的就不再只是「操作界面」,而是進行路徑規劃。試錯仍然存在,但優先發生在內部,而不是直接作用于真實系統。

      因此,這里的轉變可以這樣理解:大模型讓 AI 學會了「如何回答」,而決策能力讓 AI 開始學會「如何行動」。當 AI 能根據預期后果來選擇動作時,它才真正從一個對話工具,變成一個能夠在數字環境中推進任務的行動體。

      作者介紹

      CUWM 的作者是微軟實習生以及微軟 UFO 團隊的成員,包括Yiming Guan、Rui Yu、John Zhang、Lu Wang、Chaoyun Zhang、Liqun Li、Bo Qiao、Si Qin、He Huang、Fangkai Yang、Pu Zhao等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紅場閱兵后,普京說出4年前的真相!4年前的恥辱原來是被人作局

      紅場閱兵后,普京說出4年前的真相!4年前的恥辱原來是被人作局

      阿柒的訊
      2026-05-11 19:57:13
      巴薩官方:我方法務部門正研究弗洛倫蒂諾相關言論與指控

      巴薩官方:我方法務部門正研究弗洛倫蒂諾相關言論與指控

      懂球帝
      2026-05-13 02:45:07
      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      穆帥:再說一遍我沒和皇馬談過;進不進歐冠不會影響我的未來

      懂球帝
      2026-05-12 07:05:06
      泡泡瑪特業績炸裂,收益最高增長80%

      泡泡瑪特業績炸裂,收益最高增長80%

      21世紀經濟報道
      2026-05-12 18:22:06
      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      深圳夫妻囤存儲芯片:5個月后身價狂漲320億元

      快科技
      2026-05-12 11:18:38
      不忍了!小玥兒賬號風波不到24小時,汪小菲的一個舉動,全網盛贊

      不忍了!小玥兒賬號風波不到24小時,汪小菲的一個舉動,全網盛贊

      鄉野小珥
      2026-05-12 11:15:42
      A股,尾盤傳來“一個重大”信號,明天,或將迎來大變盤!

      A股,尾盤傳來“一個重大”信號,明天,或將迎來大變盤!

      夜深愛雜談
      2026-05-12 19:42:14
      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      快科技
      2026-05-12 12:20:06
      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      21歲女孩在泰國潛水時失蹤,4年后出現在寺廟別墅,和僧人舉止親密

      流螢敘情
      2025-09-11 18:03:10
      上海一男子勝訴后法院強制執行4年對方仍拖欠2000多萬,河北武安法院法警:打九折每月可付200萬,不打折每月付50萬

      上海一男子勝訴后法院強制執行4年對方仍拖欠2000多萬,河北武安法院法警:打九折每月可付200萬,不打折每月付50萬

      臺州交通廣播
      2026-05-13 00:35:17
      武漢大學終于硬氣了,余思月真人曝光,她無緣繼續留在OPPO公司

      武漢大學終于硬氣了,余思月真人曝光,她無緣繼續留在OPPO公司

      平老師666
      2026-05-11 23:21:51
      英特爾股價下跌超10%,報116.405美元/股,總市值報5851億美元

      英特爾股價下跌超10%,報116.405美元/股,總市值報5851億美元

      每日經濟新聞
      2026-05-12 23:41:28
      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      風月得自難尋
      2026-05-12 06:25:42
      “到底是哪個天才想出的在北京種月季?”北京綠化帶,強得可怕!

      “到底是哪個天才想出的在北京種月季?”北京綠化帶,強得可怕!

      起喜電影
      2026-05-12 17:43:49
      央視官宣!首次直播樊振東歐冠比賽!

      央視官宣!首次直播樊振東歐冠比賽!

      乒乓樂園
      2026-05-11 22:08:58
      三名美人并排站著,你最偏愛哪一個

      三名美人并排站著,你最偏愛哪一個

      可樂談情感
      2026-05-13 01:20:36
      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      妍妍教育日記
      2026-05-10 11:50:07
      梁靖崑婆媳同框,顏值氣質不輸明星

      梁靖崑婆媳同框,顏值氣質不輸明星

      陳意小可愛
      2026-05-11 15:15:58
      光芯片行業:供需缺口長期存在,國產芯片迎來黃金替代周期

      光芯片行業:供需缺口長期存在,國產芯片迎來黃金替代周期

      新浪財經
      2026-05-12 08:51:46
      2026-05-13 03:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      游戲
      本地
      數碼
      軍事航空

      家居要聞

      極簡主義下的居住場域與空間

      活久見!電棍與香鍋怒噴被擼圈開除后和解,祝Mlxg母親節日快樂

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产真实伦视频在线视频| 亚洲一区二区三区av在线| 97精品超碰一区二区三区 | 免费人成视频在线视频电影| 久久精品免视看国产盗摄| http://国产熟女.com| 五月丁香六月综合激情在线观看| 无码中文字幕加勒比一本二本| 国产孩cao大人xxxx| 久久精品国产午夜福利伦理| 亚洲日韩第2页| 成人做爰www网站视频| jizz亚洲AV| 亚洲成A人片在线观看日本 | 美乳少妇与邻居尤物啪啪| 性动态图无遮挡试看30秒| 九九热免费在线视频| 在线视频一区二区国产| 隆昌县| 一级一级一片免费| 国产精品黄大片在线播放| 中文字幕在线亚洲| 91视频网址| 一区二区三区五区亚洲无色| 97久久久久人妻精品区一| 人妻 色综合网站| 国产无码swag专区| 狠狠色噜噜狠狠狠888777米奇| www.亚洲精品| 国产av久久| 国产成人午夜在线视频a站| 亚洲深深色噜噜狠狠网站| 国产人澡人澡澡澡人碰视频| 国产成人精品无码片区在线观看| 久久视频在线视频精品| 久久精品一卡二卡三卡四卡| 亚洲成人av在线高清| www.97| 中文字幕日本人妻久久久免费| 海林市| 91av视频网站|