<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      VEGA-3D:釋放視頻生成模型中的隱式3D知識,重塑3D場景

      0
      分享至



      研究團隊: 本工作由華中科技大學(Huazhong University of Science and Technology)與百度(Baidu Inc.)聯合完成。

      作者列表:Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai。



      • 論文標題:Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
      • 論文鏈接:https://arxiv.org/abs/2603.19235
      • 倉庫鏈接:https://github.com/H-EmbodVis/VEGA-3D

      核心問題:視頻生成模型真的理解世界嗎?

      生成模型,到底能不能理解世界,或者說,它們能否促進對世界的理解?這是我們在推進 Generation Models Know Space 這項研究時,最核心的出發點。

      過去在 3D 場景理解這個領域,我們往往習慣于一種思維定勢:如果要讓模型懂空間,就必須給它顯式的 3D 數據,比如點云,或者在系統里硬塞進復雜的幾何重建模塊。這就導致整個理解鏈路非常沉重,而且嚴重受限于高質量的三維標注數據。

      但當我們觀察這兩年飛速發展的視頻生成模型時,我們意識到了一個常常被忽視的事實。當一個模型能夠自然地生成一段視角切換、包含復雜遮擋關系的視頻時,它其實已經在內部默默處理了深度、透視和物理距離。如果它不懂三維幾何,生成的畫面早就崩塌成了一堆混亂的像素。

      所以Motivation變得非常清晰且直接:既然這些在大規模無標注視頻上訓練出的生成模型,為了造出逼真的畫面,已經偷偷掌握了物理世界的空間邏輯,我們為什么還要舍近求遠,去重新教理解模型學幾何?

      這篇論文提出了VEGA-3D,旨在釋放深藏于生成大模型內部的 3D 先驗知識。研究表明,生成模型不僅是一個高超的“畫師”,更像是一個開箱即用的“空間知識庫”。它將物理規律與幾何結構壓縮進參數之中,由生成任務催生出的隱式空間表征,具有很強的遷移能力,并能夠直接服務于理解任務。

      這不僅是一次技術路線的替換,更是一種研究范式的轉變。我們不再將“生成”和“理解”視作彼此平行的兩條軌道。尤其在具身智能場景下,當機器人需要在復雜物理空間中完成感知、推理與交互時,模型對三維環境的尺度感、幾何直覺和空間一致性的把握,往往正是關鍵瓶頸。而借助生成模型反哺理解,則為突破這一瓶頸提供了一條極具潛力的新路徑。

      基于這一思路,來自華中科技大學與百度的聯合團隊設計了VEGA-3D框架,用于系統挖掘并利用生成模型中的空間先驗,從而提升模型在場景理解、空間推理與具身任務中的表現。

      它把物理法則壓縮在了自己的參數里,這種為了生成而被迫建立的隱式空間表征極其強大,且可以直接遷移到理解任務中。在具體實現上,VEGA-3D將視頻生成模型(如 Wan2.1)作為 “潛在世界模擬器”,通過自適應門控機制,將生成模型在中間去噪階段展現出的純粹 3D 結構先驗,與原有的語義特征進行優雅融合。



      Figure 1 摒棄復雜的 3D 依賴和幾何監督,VEGA-3D 開創了生成先驗增強的新范式。

      為什么視頻生成模型能懂 3D?因為要生成一段符合常理、時間連貫的視頻,生成模型在內部必然學會了物體遮擋、相機運動帶來的視差以及交互物理法則。VEGA-3D 的核心創新就在于如何 “榨干” 這股隱式力量:

      1. 將視頻生成模型作為 “潛在世界模擬器”

      摒棄了只用生成模型 “畫圖” 的常規思路,VEGA-3D 將凍結的視頻擴散模型引入視覺流。為了徹底激活其內部的幾何結構認知,研究團隊通過在其前向過程中注入特定水平的噪聲(Noise Injection),提取其在中間去噪階段和中間網絡層(如 DiT layer 20)的時空特征。此時的特征,完美平衡了底層紋理與高層抽象,蘊含著最純粹的 3D 結構先驗。



      Figure 2 可視化證明,Wan2.1 在不同視角下展現出驚人的多視角幾何一致性。結合 VEGA-3D,大模型的注意力圖瞬間精準鎖定了目標物體,徹底告別 “空間盲區”。

      2. Token 級自適應門控融合

      連續的物理生成特征與離散的語義特征天然存在 “語義 - 幾何鴻溝”。如果簡單粗暴地相加,只會導致信號沖突。 VEGA-3D 獨創了自適應門控融合機制:對于每一個空間 Token,網絡會動態計算一個權重門控,讓模型在回答 “這是什么”(依賴語義先驗)和 “它在哪里”(依賴生成空間先驗)時,自適應地調節兩股特征的比例,實現真正的優勢互補。



      Figure 3VEGA-3D 極簡而優雅的架構設計,即插即用,雙流視覺編碼。

      深度剖析:為什么 “多視角一致性”

      是解鎖空間認知的密鑰?

      評價一個模型是否真正理解真實物理世界,關鍵在于其能否在不同視角下保持幾何結構的一致性。為了揭示這一底層邏輯,我們對特征域進行了深入分析。

      實驗表明,多視角一致性得分與下游 3D 理解任務的歸一化綜合得分(NOS)呈現出極其顯著的正相關。傳統的判別式模型在應對 3D 任務時往往會遇到瓶頸:例如 DINOv3-Large 和 V-JEPA v2 的一致性得分分別為 61.90% 和 72.00%。即便是專門針對 3D 提取的判別模型 VGGT,其一致性得分也僅達到 77.21%。這說明傳統的降維壓縮過程不可逆地丟失了密集的物理與幾何細節。

      相反,以 Wan2.1 為代表的視頻生成大模型展現出了降維打擊般的空間理解力。Wan2.1-VACE 和 Wan2.1-T2V 的多視角一致性得分分別飆升至驚人的 97.04% 和 96.88%。這意味著,為了 “不穿幫” 地生成連貫視頻,DiT 架構被迫在腦海中構建了極其魯棒的 3D 物體結構。當 VEGA-3D 將這股強大的隱式先驗釋放出來時,它為多模態大模型提供了一個堅實的 “空間錨點”,直接驅動了下游性能的暴漲。



      Figure 4 多視角一致性得分與下游 3D 理解性能呈強正相關,DiT 架構的生成模型完勝傳統判別式模型

      實驗結果:

      依靠這套機制,VEGA-3D 展現出了出色下游任務統治力,并且這一切提升都不需要任何額外的 3D 標注數據:

      • 3D 場景理解全面領先:在 ScanRefer(視覺定位)、ScanQA(空間問答)等 5 個基準測試中,VEGA-3D 將原有基線模型(Video-3D LLM)的定位精度和準確率拉升至全新高度,ScanRefer Acc@0.5 從 51.7 大幅提升至 56.2。
      • 空間推理無死角:在專門診斷模型視覺 - 空間技能的 VSI-Bench 上,引入 VEGA-3D 后的 Qwen2.5VL-7B 在相對距離、相對方向和路線規劃等子任務上獲得一致性暴漲。
      • 賦能具身智能 (Embodied AI):更硬核的是,在 LIBERO 機器人仿真操作基準中,將生成先驗注入到 OpenVLA 視覺流后,機器人在復雜物體交互和長視野(Long-horizon)任務上的成功率突破原有瓶頸,平均成功率達到 97.3%。



      Figure 5 3D 場景理解中, ScanRefer 和 ScanQA 數據集等空間定位與問答任務全面領先

      總結與展望:探索 3D 推理的下一個前沿

      VEGA-3D 不僅僅是一個性能卓越的系統,它更向整個社區傳遞了一個重要的設計思路:大模型 3D 空間推理的下一個突破口,也許不在于繼續堆疊海量且昂貴的 3D 數據,而在于如何釋放生成式基礎模型體內早已沉睡的 “物理先驗”。作為一種高擴展性、數據高效的基礎設施,隨著未來視頻生成模型(如 Sora、Wan 等)的進一步進化,VEGA-3D 的上限將被無限拉高。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事態升級!三亞海鮮商戶集體憤怒,官方協會發聲,游客仍有條退路

      事態升級!三亞海鮮商戶集體憤怒,官方協會發聲,游客仍有條退路

      觀察鑒娛
      2026-05-10 09:44:36
      入戶調查全面鋪開,挨家挨戶上門登記,到底查什么?一文講清楚

      入戶調查全面鋪開,挨家挨戶上門登記,到底查什么?一文講清楚

      健身狂人
      2026-05-10 15:17:47
      “我家三個兒子都不見了,小的才9歲”,臺州一家長急瘋深夜報警!凌晨3點被警察找到后,仨娃撒腿就跑……

      “我家三個兒子都不見了,小的才9歲”,臺州一家長急瘋深夜報警!凌晨3點被警察找到后,仨娃撒腿就跑……

      環球網資訊
      2026-05-10 15:25:11
      澎湃回聲丨圣羅蘭解封杭州被“拉黑”街道,未回應是否調整設置

      澎湃回聲丨圣羅蘭解封杭州被“拉黑”街道,未回應是否調整設置

      澎湃新聞
      2026-05-10 17:50:27
      第1現場|俄烏對峙下的紅場閱兵:36年來首次未見坦克

      第1現場|俄烏對峙下的紅場閱兵:36年來首次未見坦克

      澎湃新聞
      2026-05-09 21:40:28
      中央定調!2026年養老金迎來好消息,養老金1500元漲6%難不難?

      中央定調!2026年養老金迎來好消息,養老金1500元漲6%難不難?

      云鵬敘事
      2026-05-10 13:22:19
      套路一模一樣!2026 年漢坦病毒剛露頭,西方又準備好了老劇本

      套路一模一樣!2026 年漢坦病毒剛露頭,西方又準備好了老劇本

      魔都姐姐雜談
      2026-05-09 20:58:28
      這才是現場攝影師該干的事!

      這才是現場攝影師該干的事!

      貴圈真亂
      2026-05-10 09:38:47
      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      大風新聞
      2026-05-10 15:28:26
      歌手黃霄雲在演出現場暈倒,工作室回應:已前往醫院就診,確診為由缺少睡眠、疲勞和壓力引起的耳石癥復發,現已強制藝人進入休息狀態

      歌手黃霄雲在演出現場暈倒,工作室回應:已前往醫院就診,確診為由缺少睡眠、疲勞和壓力引起的耳石癥復發,現已強制藝人進入休息狀態

      瀟湘晨報
      2026-05-10 12:03:10
      打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

      打過科興疫苗的朋友,最近一定要提高警惕!千萬不要被騙!

      網絡易不易
      2026-05-10 11:34:41
      37死51傷!瀏陽煙花廠爆炸原因查明,公司實際控制人被扒,后續!

      37死51傷!瀏陽煙花廠爆炸原因查明,公司實際控制人被扒,后續!

      眼光很亮
      2026-05-10 05:50:27
      閱兵式結束后襲擊烏克蘭,拒絕交換俘虜,俄羅斯拿捏澤連斯基!

      閱兵式結束后襲擊烏克蘭,拒絕交換俘虜,俄羅斯拿捏澤連斯基!

      山河路口
      2026-05-10 14:01:37
      他套現百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      他套現百億,留下27萬股民和一張ST廢紙,聞泰科技給投資者上了一課

      A活著
      2026-05-09 20:47:26
      廣東一男子加滿640元的油后,拒不付款強行逃離現場,同行人對監控囂張“比耶”,警方:已將嫌疑人抓獲

      廣東一男子加滿640元的油后,拒不付款強行逃離現場,同行人對監控囂張“比耶”,警方:已將嫌疑人抓獲

      揚子晚報
      2026-05-10 10:28:16
      比核彈更致命?伊朗海底7條光纜,扼住全球經濟命脈

      比核彈更致命?伊朗海底7條光纜,扼住全球經濟命脈

      網易新聞出品
      2026-05-07 19:33:27
      英國政壇地震,斯塔默“首相生涯面臨終結”?

      英國政壇地震,斯塔默“首相生涯面臨終結”?

      上觀新聞
      2026-05-10 15:27:19
      皇馬武斗細節曝光:巴爾韋德3次惡鏟,欲廢楚阿梅尼

      皇馬武斗細節曝光:巴爾韋德3次惡鏟,欲廢楚阿梅尼

      體壇周報
      2026-05-10 15:57:53
      僅退款榴蓮后續,商家向誤傷女孩道歉,店鋪銷量爆增,漲粉近5萬

      僅退款榴蓮后續,商家向誤傷女孩道歉,店鋪銷量爆增,漲粉近5萬

      夜深愛雜談
      2026-05-09 23:33:25
      國家力挺!張雪機車獲200畝用地+2.4億授信,研發占比9.33%!

      國家力挺!張雪機車獲200畝用地+2.4億授信,研發占比9.33%!

      世界圈
      2026-05-10 08:51:12
      2026-05-10 19:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142647關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      家居
      教育
      親子
      公開課
      軍事航空

      家居要聞

      菁英人居 全能豪宅

      教育要聞

      小升初必考!梯形面積的計算技巧!

      親子要聞

      我有的是辦法

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费可以在线看a∨网站| 国产精品色内内在线播放| 亚洲色大成网站www在线观看| 97碰成人国产免费公开视频 | 日韩三级片网站| 亚洲 欧洲 无码 在线观看| 综合Av| 少妇久久久久久被弄到高潮| 亚洲AV在线免费观看| 含羞草亚洲AV无码久久精品| 亚洲国产人成自久久国产| 国产又黄又爽又刺激的免费网址| 日本中文一区二区三区亚洲| 综合色久| 久久人妻乱| 成人区男人天堂av网| 成人午夜免费无码福利片| 无码中文字幕av免费放| 亚洲人成人日韩中文字幕| 夜夜干影院| 国产午夜精品理论大片| 色猫咪av在线网址| 在线中文一区字幕对白 | 亚洲av无码精品蜜桃| 欧美a在线播放| 永久免费mv入口| 裸体美女无遮挡免费网站| 国产精品久久久久尤物| 老司机午夜精品网站在线观看 | 欧美一级高清片久久99| 人人做人人妻人人精| 国产二级一片内射视频插放| 久久成人亚洲香蕉草草| 少妇激情AV一区二区三区| 18禁黄污吃奶免费看网站| 亚洲小视频| 国产成人欧美一区二区三区| 伊人久久大香线蕉精品| 97久久超碰极品视觉盛宴| 国产白丝喷水娇喘视频 | 人妻精品成人|