<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Agent2World來了,把世界模型做成可運行的符號環境

      0
      分享至



      讓模型真正 “能行動”,往往需要一個可執行、可驗證的符號世界模型(Symbolic World Model):它不是抽象的文字描述,而是能被規劃器或執行器直接調用的形式化定義 —— 例如 PDDL 領域 / 問題,或可運行的環境代碼 / 模擬器。一旦世界被 “寫成可運行的規則”,我們就能在同一套約束下進行推演、測試與復現:模型不再停留在 “會說”,而是能回答 “如果我這樣做,會發生什么”,并用執行結果檢驗自己是否真的理解了這個世界。

      問題在于,現有自動生成路線普遍陷入三重困局:腳本式工作流、知識邊界封閉、表示覆蓋單一。許多方法仍沿用固定的 “生成 — 修復” 腳本,并以解析 / 規則匹配 / 固定檢查集等靜態校驗為主:它們或許能修語法與格式,卻常常抓不住只有在交互執行中才暴露的行為級錯誤(例如狀態更新不一致、目標不可達、獎勵機制失效)。與此同時,當任務規格含糊、缺失關鍵規則或背景常識時,系統缺少主動檢索與補全機制,只能依賴模型記憶 “猜”。更關鍵的是,既有研究往往只覆蓋一種世界模型表示(只做 PDDL,或只做可執行代碼),導致同一任務難以在不同符號表達之間共享驗證閉環與改進經驗,限制了方法的通用性與可擴展性。

      為攻克這一難題,研究團隊提出 Agent2World:一個工具增強(tool-augmented)的多智能體框架,用 “知識合成(Knowledge Synthesis)→ 世界模型實現(World Model Generation)→ 評估驅動精煉(Evaluation-Driven Refinement)” 的三階段閉環,把 “查資料補規格 + 寫實現 + 交互測試糾錯” 內化為可復用的生成范式,從而穩定產出高可執行、可驗證的符號世界模型。

      實驗結果顯示,Agent2World 在 Text2World (PDDL)、CWMB (MuJoCo) 和 ByteSized32 (文本游戲) 三大基準上均實現了 SOTA 性能。更關鍵的是,該框架展現了可持續改進潛力:基于 Agent2World 生成的高質量軌跡進行微調(SFT)后,模型性能顯著躍升 —— 與訓練前的同一模型相比,平均相對性能提升了 30.95%,有力證明了其作為高質量世界模型數據合成引擎的工程與研究價值。



      • 論文地址: https://arxiv.org/abs/2512.22336
      • 項目地址: https://agent2world.github.io/
      • 模型地址: https://huggingface.co/agent2world/llama3.1_8b_instruct_full_sft_v1_3_epoch
      • 代碼地址: https://github.com/DeepExperience/agent2world

      一、深層歸因:為何傳統 “腳本式” 生成難以為繼?

      在 Agent2World 之前,自動生成世界模型的主流方案常采用固定的 “草稿 — 修復(Draft-Repair)” 腳本:生成代碼 → 跑錯 → 看報錯改代碼。它能修語法,但很難保證 "跑起來" 的世界是對的。

      • 被動腳本的死循環: 缺乏前瞻性規劃,復雜任務里常陷入 “改一個 bug 引出新 bug” 的低效迭代。
      • 規格缺口帶來的幻覺: 描述不完整時,模型往往只能靠記憶 "猜" 規則邊界、接口細節與隱含前提,導致看似能跑、實則不自洽。
      • 表示覆蓋單一的 "符號孤島": 既有研究往往只覆蓋一種世界模型表示 —— 要么偏向 PDDL 的形式化規劃,要么偏向可執行環境代碼。兩條路線各自為戰,生成、驗證與修復經驗難以跨表示共享與遷移,同一問題在不同符號表達下往往需要重做一套流程,最終限制了方法的通用性與可擴展性。

      歸根結底,難點不只是 “寫出代碼”,而是要在真實約束下穩定產出可執行、可復現、可迭代的世界模型;而 “腳本式流程 + 單一表示覆蓋” 的組合,正是阻礙這一目標的核心瓶頸之一。



      二、方法拆解:把 "軟件開發團隊" 裝進模型里

      Agent2World 的核心不是 "多拉幾個 agent 聊天",而是把世界模型生成拆成軟件工程式三階段:Researcher 補規格、Developer 做實現、Testing Team 用單測 + 仿真交互做行為級驗收,并把驗收反饋反哺修復。



      1. Deep Researcher:主動打破知識壁壘

      現實任務往往信息不完備:目標相對清晰,但規則邊界、參數范圍、動作約束與接口細節并不完整,在不確定性與知識缺口的疊加下,極易導致事實性錯誤與幻覺。Deep Researcher 首先將任務描述分析并拆成一組待澄清問題(例如:允許的動作集合、狀態變量定義、終止條件、異常情況與邊界輸入等),它配備了網絡搜索和檢索工具,能夠迭代地從互聯網檢索構建世界模型所需的知識,并最終輸出一個結構化的中間表示,其中缺失的信息已得到補充。

      2. Model Developer:統一跨模態表達

      在獲得補全后的規格后,Model Developer 負責生成目標世界模型(例如 PDDL 域 / 問題,或可執行的環境代碼)。這一階段不以 “寫得像” 為目標,而以 “能執行、接口連通、與規格一致” 為硬約束。

      因此 Developer 會在受控沙盒中進行基礎運行檢查與增量修復:一方面保證文件組織、函數簽名、依賴與調用鏈正確;另一方面確保狀態轉移、動作前置條件與效果、終止判定等核心邏輯與規格對齊。該階段的輸出是一個可以被執行器 / 規劃器直接調用的環境實例。

      3. Testing Team:雙重防線杜絕幻覺

      這是框架中的關鍵組成部分。不同于以往依賴靜態驗證器的方法,Testing Team 引入了動態的、行為級的雙重驗證機制,專門捕捉只有在交互中才會暴露的邏輯錯誤。

      • Unit Tester:它自動分析代碼結構,生成 Pytest 風格的單元測試用例。重點驗證接口契約(Contract)、謂詞邏輯和不變式(Invariants)。例如,檢查 step () 函數返回的狀態維度是否與定義一致,或 PDDL 中的動作前置條件是否完備。
      • Simulation Tester:這是一個基于 ReAct 框架的智能體,以交互方式在環境中采集軌跡并診斷深層的問題,如動力學錯誤 —— 例如 “機器人執行了移動動作但坐標未更新”、“獎勵函數在達到目標后未正確觸發” 或 “狀態轉移違背物理常識”。

      一旦發現問題,Testing Team 會輸出包含錯誤分析(Analysis)和修復建議(Suggest Fix)的結構化報告,驅動 Developer 進行針對性修復,直到通過所有測試或達到收斂條件。

      進階:從推理到訓練,構建 "自進化" 的數據飛輪

      Agent2World 的價值遠不止于一個推理框架,它本質上是一個全自動的高質量數據合成引擎。研究團隊通過 “任務合成 — 軌跡篩選 — 經驗蒸餾” 的嚴密流程,將多智能體協作中的有效修復策略蒸餾為單體模型的生成與修復偏好。

      • 數據合成:驗證器引導的拒絕采樣,為了避免數據泄露并提升泛化性,團隊并未直接使用測試集題目,而是自主合成(Self-Synthesized)了大量涵蓋不同領域的全新任務。在此基礎上,系統利用 “驗證器引導的拒絕采樣(Verifier-Guided Rejection Sampling)” 機制,從海量生成結果中篩選出 1526 條既通過沙盒運行、又通過雙重測試校驗的軌跡。這套數據集完整記錄了 Developer 從錯誤代碼到修復成功的高密度軌跡,為模型提供了極高價值的邏輯糾錯樣本。
      • 監督微調:在訓練階段,團隊精準提取 Model Developer 的交互軌跡對 Llama-3.1-8B-Instruct 進行監督微調。訓練的核心目標并非讓模型單純模仿多智能體對話,而是讓其學習 Developer “如何理解模糊規格” 以及 “如何根據 Testing Team 的報錯修復代碼”。通過這種方式,單體模型成功 “繼承” 了多智能體系統中 “根據反饋迭代(Iterative Refinement)” 的能力。

      三、實驗驗證:橫掃三大基準,驗證 "數據飛輪" 效應

      Agent2World 在 Text2World(PDDL)/ CWMB(MuJoCo 可執行模擬器)/ ByteSized32(文本游戲環境)三大基準上都拿到領先表現。

      1. Text2World (PDDL):

      從 “能跑” 到 “懂邏輯” 的顯著提升。以 GPT-4.1-mini 為底座,在衡量 PDDL 代碼生成的基準中,Agent2World Multi 明顯降低了代碼 “跑不通” 的失敗率,實現了 93.1% 的代碼可執行率(Executability),相比強基線 Text2World ($EC=3$) 提升了 14.9 個百分點。更重要的是,它在衡量語義正確性的 Component-wise F1 指標上達到了 75.4(基線僅為 60.1),提升幅度達 15.3 分。這表明模型不再只是機械地模仿 PDDL 語法,而是更加理解了謂詞約束與邏輯門控,生成了既符合語法又具備可解性的高質量規劃域。



      2. CWMB (MuJoCo)

      不僅預測得準,更要 “好用” 。CWMB 同時評估 “仿真代碼是否能預測動力學”(Accuracy)與 “作為世界模型能否支撐下游規劃 / 控制”(Overall Normalized Return, R)。 在 GPT-4o-mini 上,Agent2World Multi 的 Overall R 達到 0.4811,相比此前最強基線 GIF-MCTS 的 0.3488 提升了 +0.132;并且在離散動作空間的預測準確率上與強基線持平(0.917 vs 0.914)。這說明,性能的提升并非來自單純的下一幀預測相似度,而是源于模型實現了 “可用于規劃的行為級一致性”,真正支撐起了下游控制任務。



      3. ByteSized32 (Text Games)

      常識推理與物理現實的高度一致性。在極度依賴常識推理的文本游戲中,Deep Researcher 的主動知識檢索發揮了很大的作用。Agent2World Multi 在核心指標 “物理現實對齊度(Physical Reality Alignment)” 上取得了 0.4768 的高分,相比單智能體版本(Single Agent)大幅提升了 0.2848 。 此外,在技術有效性(Technical Validity)上,模型生成的游戲代碼初始化成功率接近 99% 。這些數據表明,通過引入外部知識與多輪測試,模型成功消除了大量違反常識的 “物理幻覺”(如錯誤的狀態轉移或不合邏輯的物品交互),生成了邏輯嚴密且更穩定的文本環境。





      4. 模型微調實驗

      基于自主合成的高質量軌跡數據(訓練僅使用 Model Developer 軌跡),團隊對 Llama-3.1-8b-instruct 進行了監督微調。實驗表明,這種 “以 Agent 養 Model” 的策略帶來了顯著的泛化能力提升:微調后的模型在未見過的測試任務(Unseen Tasks)上,平均相對性能提升了 30.95%。特別是在 Text2World 任務中,模型生成的代碼可執行率(Executability)提升高達 16.9%。這有力證明了,無需依賴昂貴的超大模型,僅憑小參數模型配合優質的 “自我修正” 合成數據,也能實現向高性能世界模型構建者的跨越。

      5. 消融實驗

      缺一不可的雙引擎(基于 CWMB 驗證) 為了探究 Agent2World 卓越性能的來源,團隊在 CWMB(物理控制) 任務上進行了嚴苛的組件消融實驗。結果證實,Deep Researcher 與 Testing Team 均是構建高可靠世界模型不可或缺的組件:

      • 移除 Deep Researcher(知識引擎缺失): 模型生成的模擬器在整體歸一化回報(Overall Normalized Return, R)上出現顯著下滑。這表明,在缺乏對物理參數與 API 規范的主動檢索時,模型定義的環境規則會出現 “失真”,導致下游 Agent 無法在模擬中學習到在真實環境中有用的策略。
      • 但當移除unit tester后,在離散動作空間的預測準確率顯著下降約 30%。移除simulation tester,也會同比下降約3%。這揭示了一個關鍵發現:“能運行” 不等于 “物理正確”。沒有動態交互產生的行為級反饋,模型很難在該設置下修正深層的動力學錯誤(如重力模擬偏差),生成的模擬器也因此失去了實用價值。



      四、結語:開啟 AI 自主理解環境的新可能

      Agent2World 的提出,標志著統一多智能體框架在符號世界模型生成領域的成功應用。它不僅打破了 PDDL 規劃與可執行代碼之間的表征壁壘,更通過 "網絡知識合成 - 迭代式模型開發 - 評估驅動仿真測試" 的精密閉環,在無需人工標注與人工驗收的前提下,實現自動化的生成 — 測試 — 修復閉環,從而穩定產出可執行、可復現、可迭代的符號世界模型。這一突破不僅在三大基準測試中一致性地刷新了 SOTA,更為未來 AI 系統從自然語言中可靠地理解并形式化復雜的現實環境,開辟了全新的可能性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      情報高層被美中情局引誘成間諜,叛逃后被溺斃在南美的大海里

      情報高層被美中情局引誘成間諜,叛逃后被溺斃在南美的大海里

      阿胡
      2026-04-14 12:22:32
      浙江一加油站92號汽油6.6元/升被質疑“便宜沒好貨”,回應:優惠力度大

      浙江一加油站92號汽油6.6元/升被質疑“便宜沒好貨”,回應:優惠力度大

      瀟湘晨報
      2026-05-10 17:11:17
      廣州一公園發布臨時閉園通告

      廣州一公園發布臨時閉園通告

      FM96.2廣州新聞電臺
      2026-05-11 08:51:38
      鹽城男子車禍去世,保單金額憑空對半砍,家屬質疑:簽名是假的,貸款是懵的,利息還一直滾?

      鹽城男子車禍去世,保單金額憑空對半砍,家屬質疑:簽名是假的,貸款是懵的,利息還一直滾?

      鹽城市民網
      2026-05-11 11:41:17
      廣州一16歲少年穿人字拖邊走路邊看手機,腳趾碰到鋒利石塊:最初未感到劇烈疼痛,低頭才發現腳趾已斷裂

      廣州一16歲少年穿人字拖邊走路邊看手機,腳趾碰到鋒利石塊:最初未感到劇烈疼痛,低頭才發現腳趾已斷裂

      環球網資訊
      2026-05-11 08:04:24
      中國和美國談妥了!

      中國和美國談妥了!

      隔壁董小姐
      2026-05-10 06:40:57
      隨著奇才如愿抽中狀元簽,新賽季這套全新首發可保底季后賽!

      隨著奇才如愿抽中狀元簽,新賽季這套全新首發可保底季后賽!

      田先生籃球
      2026-05-11 12:17:54
      伊能靜林心如曬女兒送的母親節禮物,有個貼心小棉襖真的是太好了

      伊能靜林心如曬女兒送的母親節禮物,有個貼心小棉襖真的是太好了

      露珠聊影視
      2026-05-11 11:34:30
      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      光緒為啥不敢真的殺了慈禧?溥儀晚年坦言:他敢殺,但是殺不起

      阿器談史
      2026-04-23 14:07:39
      訪華倒計時僅剩3天特朗普破慣例布局后手美專家坦言其主動求訪華

      訪華倒計時僅剩3天特朗普破慣例布局后手美專家坦言其主動求訪華

      嘻嘻笑
      2026-05-11 10:19:22
      ?1888 年?,慈禧第一次看見燈泡亮喊了2個字,流傳至今成口頭禪

      ?1888 年?,慈禧第一次看見燈泡亮喊了2個字,流傳至今成口頭禪

      長風文史
      2026-05-10 14:06:57
      內娛又曝私生子大瓜,撕開后,全是藏不住的算計和涼薄

      內娛又曝私生子大瓜,撕開后,全是藏不住的算計和涼薄

      財叔
      2026-05-10 09:35:06
      AI帶來的裁員潮將持續,直到人類學會如何真正使用AI

      AI帶來的裁員潮將持續,直到人類學會如何真正使用AI

      六子吃涼粉
      2026-05-11 12:09:54
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      趙露思演唱會結束不到24小時,工作室惹眾怒,被罵發圖太低俗

      趙露思演唱會結束不到24小時,工作室惹眾怒,被罵發圖太低俗

      老吳教育課堂
      2026-05-10 19:39:15
      皇馬目送巴薩奪冠 “姆巴佩來了,皇馬什么都沒了!”

      皇馬目送巴薩奪冠 “姆巴佩來了,皇馬什么都沒了!”

      體壇周報
      2026-05-11 09:16:32
      笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

      笑麻了,原來真實的鄉鎮公務員是這樣的!網友:疑是被編制做局了

      另子維愛讀史
      2026-05-10 10:55:25
      有一種逆轉叫梁靖崑!中國男乒實現史無前例的12連冠,王楚欽生日捧杯

      有一種逆轉叫梁靖崑!中國男乒實現史無前例的12連冠,王楚欽生日捧杯

      上觀新聞
      2026-05-11 05:06:17
      被朱元璋抹黑的梟雄陳友諒:他若贏,中國歷史將徹底改寫

      被朱元璋抹黑的梟雄陳友諒:他若贏,中國歷史將徹底改寫

      老達子
      2026-03-24 06:10:03
      電纜線高速掉落被撿走,成都小伙:懇請歸還,一年工資都賠不起丨云求助

      電纜線高速掉落被撿走,成都小伙:懇請歸還,一年工資都賠不起丨云求助

      封面新聞
      2026-05-11 10:16:02
      2026-05-11 12:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12965文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      手機
      親子
      本地
      游戲
      公開課

      手機要聞

      榮耀600系列開啟全渠道預約 幸運星設計實錘了

      親子要聞

      孩子心疼父母,反而是對家的傷害?

      本地新聞

      用蘇繡的方式,打開江西婺源

      曝索尼正調整PS游戲地區價格!從此告別568港元?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产午夜av秒播在线观看| 三上悠亚在线精品二区| 四虎亚洲国产成人久久精品| 人妖91| 中文字幕av高清片| 中文无码AV一区二区三区| 国产乱子伦精品免费女| 亚洲中文字幕无线| 久久精品国产只有精品66| 精品视频一区二区三区在线播| 三级国产99久久| 亚洲欧美国产国产一区二区三区| 伊人久久大香线蕉av一区| 精品久久一区二区三区毛片| 国产成人91高清精品免费| 国内精品久久久久影院蜜芽| 中国CHINA体内裑精亚洲日本| 一本一道人人妻人人妻αV| 男人猛躁进女人免费播放 | 无码免费午夜福利看片| 国产999久久高清免费观看| 麻豆国产成人av在线播放| 日韩亚洲一区二区精品成人| 在线观看国产成人无码| 中文亚洲爆乳av无码专区| 人人妻人人狠人人爽天天综合网| 国产69精品在线| av性色av久久无码ai换脸| 最新av一区二区三区| 亚洲欧美日韩国产国产a| 大肉大捧一进一出好爽| 国产成人一区二区三区视频免费| 中文字幕无线精品亚洲乱码一区| 最新国产福利在线观看精品| 无码专区aaaaaa免费视频| 精品国产AⅤ无码一区二区| 最新无码a∨在线观看| 久久黄色精品网站| 酒店大战丝袜高跟鞋人妻| 亚洲精品少妇被粗大猛进| V一区无码内射国产|