網易首頁 > 網易號 > 正文申請入駐

VEGA-3D：釋放視頻生成模型中的隱式3D知識，重塑3D場景

2026-04-29 14:57:53　來源: 機器之心Pro

河北舉報

分享至

研究團隊：本工作由華中科技大學（Huazhong University of Science and Technology）與百度（Baidu Inc.）聯合完成。

作者列表：Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。

論文標題：Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
論文鏈接：https://arxiv.org/abs/2603.19235
倉庫鏈接：https://github.com/H-EmbodVis/VEGA-3D

核心問題：視頻生成模型真的理解世界嗎？

生成模型，到底能不能理解世界，或者說，它們能否促進對世界的理解？這是我們在推進 Generation Models Know Space 這項研究時，最核心的出發點。

過去在 3D 場景理解這個領域，我們往往習慣于一種思維定勢：如果要讓模型懂空間，就必須給它顯式的 3D 數據，比如點云，或者在系統里硬塞進復雜的幾何重建模塊。這就導致整個理解鏈路非常沉重，而且嚴重受限于高質量的三維標注數據。

但當我們觀察這兩年飛速發展的視頻生成模型時，我們意識到了一個常常被忽視的事實。當一個模型能夠自然地生成一段視角切換、包含復雜遮擋關系的視頻時，它其實已經在內部默默處理了深度、透視和物理距離。如果它不懂三維幾何，生成的畫面早就崩塌成了一堆混亂的像素。

所以Motivation變得非常清晰且直接：既然這些在大規模無標注視頻上訓練出的生成模型，為了造出逼真的畫面，已經偷偷掌握了物理世界的空間邏輯，我們為什么還要舍近求遠，去重新教理解模型學幾何？

這篇論文提出了VEGA-3D，旨在釋放深藏于生成大模型內部的 3D 先驗知識。研究表明，生成模型不僅是一個高超的“畫師”，更像是一個開箱即用的“空間知識庫”。它將物理規律與幾何結構壓縮進參數之中，由生成任務催生出的隱式空間表征，具有很強的遷移能力，并能夠直接服務于理解任務。

這不僅是一次技術路線的替換，更是一種研究范式的轉變。我們不再將“生成”和“理解”視作彼此平行的兩條軌道。尤其在具身智能場景下，當機器人需要在復雜物理空間中完成感知、推理與交互時，模型對三維環境的尺度感、幾何直覺和空間一致性的把握，往往正是關鍵瓶頸。而借助生成模型反哺理解，則為突破這一瓶頸提供了一條極具潛力的新路徑。

基于這一思路，來自華中科技大學與百度的聯合團隊設計了VEGA-3D框架，用于系統挖掘并利用生成模型中的空間先驗，從而提升模型在場景理解、空間推理與具身任務中的表現。

它把物理法則壓縮在了自己的參數里，這種為了生成而被迫建立的隱式空間表征極其強大，且可以直接遷移到理解任務中。在具體實現上，VEGA-3D將視頻生成模型（如 Wan2.1）作為 “潛在世界模擬器”，通過自適應門控機制，將生成模型在中間去噪階段展現出的純粹 3D 結構先驗，與原有的語義特征進行優雅融合。

Figure 1 摒棄復雜的 3D 依賴和幾何監督，VEGA-3D 開創了生成先驗增強的新范式。

為什么視頻生成模型能懂 3D？因為要生成一段符合常理、時間連貫的視頻，生成模型在內部必然學會了物體遮擋、相機運動帶來的視差以及交互物理法則。VEGA-3D 的核心創新就在于如何 “榨干” 這股隱式力量：

1. 將視頻生成模型作為 “潛在世界模擬器”

摒棄了只用生成模型 “畫圖” 的常規思路，VEGA-3D 將凍結的視頻擴散模型引入視覺流。為了徹底激活其內部的幾何結構認知，研究團隊通過在其前向過程中注入特定水平的噪聲（Noise Injection），提取其在中間去噪階段和中間網絡層（如 DiT layer 20）的時空特征。此時的特征，完美平衡了底層紋理與高層抽象，蘊含著最純粹的 3D 結構先驗。

Figure 2 可視化證明，Wan2.1 在不同視角下展現出驚人的多視角幾何一致性。結合 VEGA-3D，大模型的注意力圖瞬間精準鎖定了目標物體，徹底告別 “空間盲區”。

2. Token 級自適應門控融合

連續的物理生成特征與離散的語義特征天然存在 “語義 - 幾何鴻溝”。如果簡單粗暴地相加，只會導致信號沖突。 VEGA-3D 獨創了自適應門控融合機制：對于每一個空間 Token，網絡會動態計算一個權重門控，讓模型在回答 “這是什么”（依賴語義先驗）和 “它在哪里”（依賴生成空間先驗）時，自適應地調節兩股特征的比例，實現真正的優勢互補。

Figure 3VEGA-3D 極簡而優雅的架構設計，即插即用，雙流視覺編碼。

深度剖析：為什么 “多視角一致性”

是解鎖空間認知的密鑰？

評價一個模型是否真正理解真實物理世界，關鍵在于其能否在不同視角下保持幾何結構的一致性。為了揭示這一底層邏輯，我們對特征域進行了深入分析。

實驗表明，多視角一致性得分與下游 3D 理解任務的歸一化綜合得分（NOS）呈現出極其顯著的正相關。傳統的判別式模型在應對 3D 任務時往往會遇到瓶頸：例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分別為 61.90% 和 72.00%。即便是專門針對 3D 提取的判別模型 VGGT，其一致性得分也僅達到 77.21%。這說明傳統的降維壓縮過程不可逆地丟失了密集的物理與幾何細節。

相反，以 Wan2.1 為代表的視頻生成大模型展現出了降維打擊般的空間理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多視角一致性得分分別飆升至驚人的 97.04% 和 96.88%。這意味著，為了 “不穿幫” 地生成連貫視頻，DiT 架構被迫在腦海中構建了極其魯棒的 3D 物體結構。當 VEGA-3D 將這股強大的隱式先驗釋放出來時，它為多模態大模型提供了一個堅實的 “空間錨點”，直接驅動了下游性能的暴漲。

Figure 4 多視角一致性得分與下游 3D 理解性能呈強正相關，DiT 架構的生成模型完勝傳統判別式模型

實驗結果：

依靠這套機制，VEGA-3D 展現出了出色下游任務統治力，并且這一切提升都不需要任何額外的 3D 標注數據：

3D 場景理解全面領先：在 ScanRefer（視覺定位）、ScanQA（空間問答）等 5 個基準測試中，VEGA-3D 將原有基線模型（Video-3D LLM）的定位精度和準確率拉升至全新高度，ScanRefer Acc@0.5 從 51.7 大幅提升至 56.2。
空間推理無死角：在專門診斷模型視覺 - 空間技能的 VSI-Bench 上，引入 VEGA-3D 后的 Qwen2.5VL-7B 在相對距離、相對方向和路線規劃等子任務上獲得一致性暴漲。
賦能具身智能 (Embodied AI)：更硬核的是，在 LIBERO 機器人仿真操作基準中，將生成先驗注入到 OpenVLA 視覺流后，機器人在復雜物體交互和長視野（Long-horizon）任務上的成功率突破原有瓶頸，平均成功率達到 97.3%。

Figure 5 3D 場景理解中， ScanRefer 和 ScanQA 數據集等空間定位與問答任務全面領先

總結與展望：探索 3D 推理的下一個前沿

VEGA-3D 不僅僅是一個性能卓越的系統，它更向整個社區傳遞了一個重要的設計思路：大模型 3D 空間推理的下一個突破口，也許不在于繼續堆疊海量且昂貴的 3D 數據，而在于如何釋放生成式基礎模型體內早已沉睡的 “物理先驗”。作為一種高擴展性、數據高效的基礎設施，隨著未來視頻生成模型（如 Sora、Wan 等）的進一步進化，VEGA-3D 的上限將被無限拉高。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.