<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      業界首個視覺世界模型綜述:邁向更高智能的視覺范式

      0
      分享至



      AI 真的理解世界嗎?

      當一個杯子從桌面掉落,大語言模型可以告訴你 “它會碎”,卻無法推演這個過程:它如何下落?碎片如何飛散?液體如何濺開?

      這揭示了一個關鍵問題:語言只是對世界的抽象描述,它可以表達結果,卻無法刻畫過程。真實世界并不是符號組成的,而是連續變化的物理系統。

      相比之下,視覺直接記錄了世界的演化 —— 物體的結構、運動以及背后的因果關系,都體現在視覺信號中。這使得視覺成為 AI 學習世界變化最直接、最完整的信息來源。



      圖 1:語言只能對事件結果進行抽象概括,而視覺才能呈現世界變化的連續過程。

      這也是為什么越來越多研究者如 Yann LeCun,Fei-Fei Li 等開始重新思考:如果世界模型是通向通用智能的關鍵,那么它的起點不應該是語言,而應該是視覺。

      人類理解世界,不只是 “說出結論”,而是 “看見變化”。視覺世界模型的目標,正是讓 AI 通過視覺學習世界的運行規律,并據此推演未來。

      為了理清視覺與世界模型之間的深層聯系,并為該領域的未來研究提供一張清晰的脈絡圖,北京交通大學靳瀟杰、魏云超、趙耀等學者聯合新加坡國立大學、騰訊、字節等國內外研究機構知名學者,發布了首篇視覺世界模型長篇綜述:From Seeing to Knowing the World: A Survey of Vision World Models。

      這項工作提出了一次關鍵的概念轉變:視覺不應僅僅被視為一種輸入模態,而應成為塑造世界模型表征方式、學習機制以及評估體系的核心驅動力。 在這一 “以視覺為中心” 的視角下,研究團隊不僅首次系統性定義了視覺世界模型,還構建了一個貫通 “表征 - 學習 - 模擬” 的統一分析框架,在同一框架下重組四大技術路線、厘清評測體系,并進一步提出面向下一代世界模型的關鍵研究方向。調研的最新進展截止至 2026 年 4 月 1 日。



      • 論文標題: From Seeing to Knowing the World: A Survey of Vision World Models
      • 項目主頁:https://aiworldlab.github.io/survey/
      • 論文鏈接:https://aiworldlab.github.io/survey/preprint.pdf
      • 代碼 / 資源整理:https://github.com/AIWorldLab/Awesome-Vision-World-Model

      1. 為什么現在需要一篇視覺世界模型綜述?

      世界模型已經成為當前 AI 研究中最受關注的話題之一,該方向的發展跨視頻生成、表征學習、具身智能、自動駕駛等多個研究社區。這些路線普遍開始依賴視覺信號,但在多數范式中,視覺仍更多被視為一種觀測輸入:視頻生成方法更關注未來內容的視覺逼真度與時空一致性,表征預測方法強調在潛在空間中捕捉世界演化的預測結構,而狀態轉移和具身智能相關方法則更重視基于緊湊狀態進行長時程推演與決策支持。



      圖 2:視覺世界模型研究技術路線。上半部分梳理主流模型架構,下半部分歸納不同領域中的數據集與評測基準。

      雖然這些路線都在嘗試回答 “AI 如何從視覺中建立對世界變化的內部模型” 這一核心問題,但它們長期沿著各自的范式獨立發展,存在定義不統一、分類彼此割裂、評測標準難以對齊等問題。

      也正因如此,當前迫切需要一篇真正以視覺為中心、能夠在統一框架下重新組織這一領域的系統綜述。相比于單純匯總已有工作,這篇綜述更重要的地方在于提出了一次關鍵的視角轉換:視覺不應僅僅被視為世界模型的輸入模態,而應成為定義模型如何表征世界、學習規律與評估能力的核心出發點。

      2. 視覺世界模型統一框架

      團隊首先給出了 VWM 簡潔且明確的定義:視覺世界模型能夠從視覺數據中學習世界知識,并基于交互條件生成未來世界狀態。

      并將 VWM 的研究統一為一個框架內的三個核心組件:

      • 視覺編碼 (Vision Encoding): 如何將各類原始視覺信號(圖像、視頻、點云、光流信息等)轉化為利于建模世界變化的表征。
      • 知識學習 (Knowledge Learning): 模型需要從視覺中到底學到了什么?我們將其歸納為三個遞進的層次:時空連貫性(Spatio-temporal Coherence)、物理動力學(Physical Dynamics)以及因果機制(Causal Mechanisms)。具體而言,時空連貫性要求物體在空間與時間上的持續性,其位置和形態變化保持連貫;物理動力學為物體在重力、接觸、運動等物理約束下的變化規律,保證未來演化的物理合理性;而因果機制則表示動作、事件與結果之間的因果關系,使模型能夠理解 “做什么會導致什么”。
      • 可控模擬 (Controllable Simulation): 基于學到的知識,模型在交互條件(如機器人動作、文本指令)的引導下,對未來的潛在狀態進行推演。



      圖 3:視覺世界模型統一框架。從視覺編碼、知識學習到可控模擬,系統刻畫 VWM 如何從觀測中學習世界規律,并在交互條件下推演未來,實現閉環模擬。

      這個框架的重要性在于,它第一次比較系統地回答了:一個視覺世界模型到底應該學什么,靠什么學,又該如何被控制和評估。

      3. 當前視覺世界模型,主要分成哪幾條技術路線?

      依據上述統一框架,現有方法可被歸納成四大代表性范式,包含七種子范式。研究團隊不再把這些路線割裂開,而是放到同一套框架下進行比較。



      圖 4:視覺世界模型方法架構圖。每類范式上半部分展示模型架構,下半部分給出其如何實現視覺編碼、知識學習和可控模擬的過程。

      1. 序列生成(Sequential Generation)

      通常會把圖像或視頻轉成 token 序列,然后像語言模型一樣一步一步預測未來。它的優勢是可擴展性強、適合長上下文,缺陷是長時預測易出現誤差累積和漂移,對精細幾何、物理交互的模擬效果有限。子范式包括基于視覺自回歸的世界模型(visual autoregressive model),以及與大語言模型對齊的多模態自回歸世界模型(MLLM-guided multimodal autoregressive model)。



      圖 5:視覺自回歸視覺世界模型代表方法總覽。每個方法分析其視覺編碼器、所學習的世界知識、交互輸入和模擬輸出類型。

      2. 擴散生成(Diffusion-based Generation)

      通常在連續潛空間中通過迭代去噪生成未來。在視覺質量上更強,也更適合生成連貫、逼真的未來片段,但代價是推理開銷更大。子范式包括經典的潛空間擴散世界模型(latent diffusion)和當前的主流思路自回歸擴散世界模型(Autoregressive Diffusion)。



      圖 6:擴散生成視覺世界模型代表方法總覽。

      3. 表征預測(Embedding Prediction)

      不執著于生成完整視頻,而是直接預測未來的 embedding。這樣的好處是能把重點放在 “學規律” 而不是 “畫細節” 上,更適合規劃、推理和效率優先的場景。但其缺點是可解釋性相對較弱。該范式的典型代表是 JEPA 系列。

      4. 狀態轉移(State Transition)

      將視覺輸入壓縮為緊湊的隱狀態,通過遞歸狀態轉移建模世界隨時間的演化。該類范式在潛空間 rollout 高效,遞歸狀態能夠持續保留歷史信息,是早期世界模型的主流思路。子范式包括經典的狀態空間世界模型(State Space Modeling)和具有組合泛化能力的基于對象的世界模型(Object-centric Modeling)。

      4. 評估指標與基準:視覺世界模型怎么評?用什么評?

      如果說前面的章節回答的是視覺世界模型是如何設計的,那么評測部分回答的就是另一個更關鍵的問題:什么樣的視覺世界模型才算得上好?



      圖 7:視覺世界模型評估體系概覽。包含三類評估指標和兩組數據集與基準分析。

      首先是怎么評。團隊給出的答案很明確:僅僅生成出清晰、逼真的畫面還遠遠不夠。一個可靠的視覺世界模型,至少要同時滿足三層要求:看起來真實、演化過程合理、并且能夠真正支持任務決策。 基于這一判斷,團隊將現有評估指標統一整理為三大類:

      • 視覺質量(Visual Quality):生成的畫面或視頻是否清晰、流暢、逼真。
      • 物理合理性(Physical Plausibility):模型是否遵循客觀物理規律。例如,預測的運動軌跡是否符合運動學?3D 空間結構是否會憑空坍塌?多視角下的一致性如何?
      • 任務表現(Task Performance):模型能否支持下游任務的成功。例如,能否幫機器人提升抓取成功率?能否讓自動駕駛車輛安全避障?



      圖 8:三類評估指標總覽。

      接下來是用什么評。如何測試這些能力呢?團隊系統梳理了視覺世界模型常用的數據集和基準,并把它們分成兩大組:基礎世界建模(Foundational World Modeling)和針對特定領域的世界建模(Domain-specific World Modeling)。

      基礎世界建模旨在考察模型對通用物理世界法則的掌握程度,不局限于特定任務:

      1. 通用世界預測與模擬(General World Prediction and Simulation),這部分更強調長時程預測、可控生成和一般性的世界理解能力;
      2. 物理與因果基準(Physics and Causality Benchmark),關注的不是畫面是否逼真,而是模型是否真正遵守物理約束、能否區分合理與不合理事件,以及是否具備一定的反事實和因果判斷能力。



      圖 9:基礎世界建模數據集與基準總覽。

      針對特定領域的世界建模則關注模型在具體應用場景中的實際表現:

      1. 具身智能與機器人(Embodied AI and Robotics):關注模型是否能夠支持機器人在真實或仿真環境中完成操作任務;
      2. 自動駕駛(Autonomous Driving):需要模型具備強感知能力,也要求它能夠在交互和控制條件下穩定推演交通場景;
      3. 交互環境與游戲(Interactive Environments and Gaming):測試重點是模型能否作為 “神經渲染引擎”,在玩家輸入各種離散控制信號時,實時反饋出正確、一致的游戲畫面。



      圖 10:針對特定領域的世界建模數據集與基準總覽。

      5. 下一代世界模型,何去何從?

      盡管目前的 VWM 已經能生成令人驚艷的視覺畫面,但只要遇到復雜的物理交互、罕見的邊緣場景或是需要嚴謹因果推理的任務,它們往往產生違背常理的幻覺。

      從 “生成逼真畫面” 走向 “支撐 AGI 的基礎設施”,下一代世界模型路在何方?團隊在綜述中指出了三個至關重要的突破口:3R 路線圖(Re-grounding, Re-evaluation, Re-scaling)。



      圖 11:下一代世界模型核心挑戰與未來方向。

      1. 夯實知識基礎(Re-grounding):走出簡單的物理模擬和畫面生成,去面對真實世界的復雜性。

      1. 拓寬知識邊界: 真實世界并不只由簡單的牛頓運動和剛體碰撞構成。除了重力、接觸、運動等基礎物理規律,還存在柔性材料形變、復雜摩擦、流體運動等更高階的物理過程;與此同時,現實環境中的世界演化還常常受到社會規范、行為約定和人類意圖的影響(例如:救護車闖紅燈)。模型必須學會理解這些超越純粹物理的社會因果關系。
      2. 架構升級: 純神經網絡在面對分布外數據時極其脆弱。因此,新的架構設計必須引入更強的歸納偏置與約束機制:一方面需要強化幾何感知能力(Geometry-aware Modeling)。讓模型不僅生成 2D 像素,更能在底層維持 3D 空間的一致性;另一方面需要顯式地建模物理規律與因果先驗。例如,可以引入神經符號混合架構(Neuro-symbolic),將嚴格的物理引擎或因果邏輯融入神經網絡,用顯式的規則約束隱式的生成。

      2. 重構評估體系(Re-evaluation):用實戰和反事實檢驗真偽。

      1. 裁判模型與實戰評估: 訓練專門的裁判模型(Judge Models)來評估生成結果的物理規律。進一步地把 VWM 塞進機器人的大腦里去執行任務。如果在模擬規劃中機械臂抓取失敗了,那這就是模型物理理解存在缺陷的最鐵證。
      2. 反事實推理測試: 真正的懂因果,意味著能回答 What-if 問題。比如,給模型同樣的 “種下一粒種子” 的初始畫面,條件 A 是干旱,條件 B 是澆水,模型必須能推演出截然不同的生長結局。

      3. 重塑 Scaling Law(Re-scaling):邁向更通用的世界模型。

      • 預訓練縮放(Pretraining Scaling): 在預訓練階段,我們需要更高效的時空 Encoder 和統一的建模接口,用海量的、包含復雜因果的交互數據,訓練出跨領域的通用視覺世界模型。
      • 推理時縮放(Inference-time Scaling): 未來的視覺世界模型在生成一段未來演化之前,不應該是一次性盲目吐出畫面,而是應該在內部進行思考,提出多種可能的結果、檢查是否違背物理約束、在內心進行試錯和修正,然后再給出最合理的推演結果。

      大語言模型構建的知識,本質上是對人類文本經驗的概率總結;而真實世界的運轉,遵循的是連續的物理法則與因果鏈條。視覺世界模型的使命,正是打破符號的局限,直擊物理現實的演化規律。

      從 “基于語義關聯得出結論” 到 “基于世界常識模擬未來”,這不僅是世界模型研究的一次范式推進,也可能是 AI 走向更強預測、交互與決策能力的關鍵一步。

      完整文獻整理與歸納、詳細架構對比與技術路線圖,歡迎前往我們的論文與項目主頁詳細閱讀!

      作者介紹


      余蕭



      北京交通大學計算機學院博士生。獲得國家獎學金兩次,發表 CCF-A 類論文一篇,曾參與 VideoWorld 2 項目。研究方向為視覺世界模型,遵循物理與因果規律的世界模型等。

      靳瀟杰



      北京交通大學計算機學院教授 / 博導,國家高層次青年人才,曾任字節跳動美國研究院創始成員和技術負責人。研究方向為多模態智能、世界模型、高效深度學習等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      打破慣例!訪華前特朗普再做新安排,美專家嘆氣:是他主動要訪華

      打破慣例!訪華前特朗普再做新安排,美專家嘆氣:是他主動要訪華

      知法而形
      2026-05-11 13:26:39
      斯諾克巨星邀請賽:小特不敗奪冠!進賬462萬獎金,吳宜澤險墊底

      斯諾克巨星邀請賽:小特不敗奪冠!進賬462萬獎金,吳宜澤險墊底

      劉姚堯的文字城堡
      2026-05-11 07:57:47
      男子駕駛摩托車國道上逆行致1死,西安交警通報

      男子駕駛摩托車國道上逆行致1死,西安交警通報

      界面新聞
      2026-05-11 15:33:38
      華為乾崑的首款旗艦大六座,奕境X9正式入局!

      華為乾崑的首款旗艦大六座,奕境X9正式入局!

      Autolab
      2026-04-30 19:35:53
      曝華為“白嫖”開源團隊技術方案?踢了開發者跟第三方公司合作

      曝華為“白嫖”開源團隊技術方案?踢了開發者跟第三方公司合作

      爆角追蹤
      2026-05-11 09:54:53
      慘遭國乒男團3:0橫掃!張本智和賽后與賽前采訪對比,狠狠被打臉

      慘遭國乒男團3:0橫掃!張本智和賽后與賽前采訪對比,狠狠被打臉

      田先生籃球
      2026-05-11 06:20:39
      武大聲明翻車,是因為它在不該精明的地方太精明

      武大聲明翻車,是因為它在不該精明的地方太精明

      牛角說
      2026-05-11 10:20:34
      傳來大消息,暴漲開啟

      傳來大消息,暴漲開啟

      隔壁老投
      2026-05-11 14:23:42
      伊朗:已將高濃縮鈾送往第三國!若談判失敗,伊朗會將其取回

      伊朗:已將高濃縮鈾送往第三國!若談判失敗,伊朗會將其取回

      AI商業論
      2026-05-11 08:36:11
      出售公民信息千元一條,國家反詐平臺成內鬼搖錢樹

      出售公民信息千元一條,國家反詐平臺成內鬼搖錢樹

      高恒說
      2026-05-10 16:58:40
      被伊朗羞辱的特朗普,急需來中國“沖喜”

      被伊朗羞辱的特朗普,急需來中國“沖喜”

      觀察者網
      2026-05-11 13:22:08
      王曼昱哭了登熱搜第一!兩度致謝莎莎情真意切 陳熠何卓佳都哭了

      王曼昱哭了登熱搜第一!兩度致謝莎莎情真意切 陳熠何卓佳都哭了

      顏小白的籃球夢
      2026-05-11 07:50:35
      老板電器2025財報,一個龍頭的尋路樣本

      老板電器2025財報,一個龍頭的尋路樣本

      一點財經
      2026-05-07 17:14:07
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      悲哀!見義勇為英雄韋兆安,因無錢治療,從醫院19樓一躍而下

      悲哀!見義勇為英雄韋兆安,因無錢治療,從醫院19樓一躍而下

      莫地方
      2026-05-09 00:55:03
      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      戶外阿毽
      2026-05-10 19:24:43
      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      飯小妹說歷史
      2026-05-11 10:25:07
      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個女兒!

      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個女兒!

      閱微札記
      2026-05-11 09:40:53
      外交部:為維護相關決議嚴肅性和權威性,中方決定不同意臺灣地區參加今年世衛大會

      外交部:為維護相關決議嚴肅性和權威性,中方決定不同意臺灣地區參加今年世衛大會

      澎湃新聞
      2026-05-11 15:32:33
      中共中央批準,開除他們黨籍!合肥市委書記任上被查,兩虎貪腐上億元被判死緩

      中共中央批準,開除他們黨籍!合肥市委書記任上被查,兩虎貪腐上億元被判死緩

      上觀新聞
      2026-05-11 12:38:08
      2026-05-11 17:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12969文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:中美元首即將北京會晤 美方一細節耐人尋味

      頭條要聞

      媒體:中美元首即將北京會晤 美方一細節耐人尋味

      體育要聞

      尼克斯橫掃費城:唐斯恩比德的命運與角色

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      數碼
      房產
      家居
      本地
      公開課

      數碼要聞

      小米“米家保溫杯口袋版”新增三色可選,42.9元

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      家居要聞

      多元生活 此處無聲

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美女视频久久久| 亚洲AV免费一区二区三区| 欧美做受又硬又粗又大视频| 人妻综合第一页| 国产日产精品久久久久久| 一区二区三区黄色一级片| 色88久久久久高潮综合影院| 亚洲国产欧洲精品路线久久| 久久久噜噜噜久久中文字幕色伊伊| 91avpro| 欧美a在线| 又粗又长又大又黄的日本视频| 国产精品自拍实拍在线看| 99偷拍| 国产精品一区波多野结衣| 人妻无码vs中文字幕久久av爆 | 亚洲aV色图一区二区| 欧美黑人激情性久久| 少妇无码精油按摩专区| 国产精品国色综合久久| 亚洲最大成人网 色香蕉| 亚洲综合香蕉| 国产精品秘?国产A级| 国产乱人伦精品| 欧美日韩高清在线| 麻豆国产传媒精品视频| 大帝AV| 免费无码又爽又刺激高潮的视频网站 | 黑人又大又粗又硬XXXXX| 99热在线精品国产观看| 亚洲国产激情五月色丁香小说| 暖暖 在线 日本 免费 中文| 久久午夜夜伦鲁鲁片免费无码| 国产在线不卡免费播放| 欧美成人动态图| 国产欧美精品一区二区色综合| 欧美另类人妻制服丝袜| 久久国内精品自在自线观看 | 国产一级妓女av网站| 亚洲欧洲∨国产一区二区三区| av片免费播放|