![]()
大模型正在進入 “Agent 時代”
大模型正在從 “會說會寫” 走向 “會規劃、會執行” 的 Agent 時代。對具身智能來說,這種變化尤其關鍵。因為真正限制機器人和智能體能力上限的,很多時候并不是算法本身,而是現實世界中過高的試錯成本:一次抓取失敗、一次路徑規劃失誤,代價都遠高于在虛擬環境中的反復迭代。也正因如此,一個物理合理、結構真實、能夠支撐交互和仿真的 3D 世界,正變得越來越重要。
從一句文本描述直接生成一個真正 “能用” 的三維場景,遠比生成幾張好看的圖片更難。一個場景是否可用,不僅取決于里面有沒有桌子、椅子和書架,而且取決于這些物體之間的關系是否合理:杯子能不能真正放在桌面上,書能不能被擺進書架里,椅子是不是面向一個符合使用常識的位置,整個空間會不會出現穿插、漂浮和不穩定支撐。換句話說,3D 場景生成最難的地方,從來不是 “生成資產”,而是讓空間關系看起來像真實世界,并且真的能夠服務于交互、仿真和具身智能任務。
圍繞這一問題,來自英偉達 Cosmos Lab 與普渡大學的研究者提出了 Scenethesis(ICLR 2026)。與其過擬合小樣本的 3D 場景數據,他們換了一個思路:把語言、視覺和物理約束組織成一個可以自我迭代的 Agent 閉環系統,讓文本生成 3D 場景這件事,不再只是一次性的 “生成”,而更像一個不斷規劃、檢查、修正的過程。
![]()
- 論文標題:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
- 文章鏈接:https://arxiv.org/pdf/2505.02836
- 英偉達網站:https://research.nvidia.com/labs/dir/scenethesis/
可交互三維場景生成的兩個長期困境
過去幾年里,可交互 3D 場景生成大致沿著兩條路線發展。
第一類方法依賴 3D-FRONT 等室內數據集訓練模型,在室內布局上已經取得了不少進展,但它們的能力往往也被訓練分布牢牢鎖住了:會擺客廳和臥室,不代表能自然泛化到其他室內布局,甚至街道、海灘或公園等室外場景;能處理常見家具關系,也不意味著能穩定建模 “小物體放置于大物體中” 這類更細粒度、更長尾的空間關系。
另一類方法則開始借助大語言模型做開放式布局規劃。語言模型的優勢是組合能力強、語義覆蓋廣,能夠根據文本描述快速搭出場景框架,但它畢竟運行在符號空間里,不在幾何空間里。于是我們經常看到這樣的結果:物體類別是對的,關系描述也大體沒錯,可一旦落到真實三維空間,就會出現椅子朝墻、柜子擋窗、物體浮空甚至彼此穿插等不符合常識的現象。
核心問題:如何有效生成 “空間物理真實的 3D 場景”?
Scenethesis 的出發點,正是在這兩類路線之間找到一個新的結合方式。研究者注意到,語言模型擅長的是語義規劃,卻缺少對真實空間的直覺;而視覺模型雖然不會直接 “理解” 場景邏輯,卻天然攜帶大量現實世界的空間統計先驗。
因此,這項工作的核心并不是把幾個模塊簡單拼起來,而是讓它們在一個閉環里各司其職:先由語言模型做粗粒度規劃,再借助視覺模塊把抽象的語義關系落到更真實的空間布局中,隨后引入物理優化去消除穿模和不穩定支撐,最后再由判斷模塊檢查整個場景是否滿足常識與一致性要求,不滿足就繼續修復。
![]()
系統流程圖
Scenethesis:四階段 Agent 系統
Scenethesis 是一個無需重新訓練場景生成模型的系統框架,其流程包含四個階段。
第一階段:語義模型進行粗粒度規劃
在具體流程上,Scenethesis 會先根據文本提示識別場景類型、挑選關鍵錨點物體,并構建一個初步的層級布局。這個階段更像 “構思”,會理解用戶輸入的場景類型,然后推理場景里應該有什么、哪些物體之間會有空間關系,確保資產庫中有規劃好的物體,最后以 JSON 格式輸出選中的物體以及擴充過的場景描述。
![]()
第二階段:視覺模塊進行空間落地
真正讓這項工作區別于很多語言規劃方法的是視覺模塊的介入和物理優化的過程:系統先生成參考圖像,再通過實例分割和深度估計恢復場景結構,估計物體的初始 3D 大小,從而把原本停留在語言層面的描述,轉化為更加貼近真實世界的空間線索。到了這一步,系統已經不再是憑語言 “腦補” 布局,而是在借助視覺先驗讓場景變得更像現實空間。
![]()
第三階段:物理參與生成過程
為了讓場景生成不僅僅是 “視覺上看起來不錯”,還需要確保生成的場景符合物理規律。傳統布局方法常常只在 3D 包圍盒層面做碰撞檢查,這對于復雜物體關系來說過于粗糙,既難以表達精細接觸,也很難處理 “放進書架里” 這類更復雜的支撐關系。Scenethesis 采用有符號距離場 (SDF),用更細粒度的幾何對齊與物理約束,讓優化過程直接考慮接觸、支撐和穩定性。這樣一來,小物體不只是 “看起來” 靠近某個大物體,而是真正被放進了合理的位置;整個場景也因此顯著減少了漂浮、穿插和不穩定現象。
![]()
第四階段:自檢與修復機制
系統最后還加入了 judge 模塊,對物體類別、空間關系和整體結構進行一致性判斷。如果場景沒有通過檢查,系統就會重新規劃和修復。這種 “生成 — 檢查 — 修復 — 再生成” 的閉環,讓 3D 場景生成第一次更接近 Agent 式工作流。它不是一次性吐出結果,而是在多模態反饋中不斷把結果推向更合理的狀態。實驗顯示:第一輪生成通過率約 72%,引入自檢機制后提升至 91%。
![]()
實驗結果:空間關系不僅更真實,而且 “物理” 合理
從結果上看,這種路線帶來的提升并不只是視覺上的 “更像”,而是空間關系和物理合理性的同步改善。論文顯示,加入這套閉環后,場景生成在碰撞率從 6.1% 降至 0.8%,同時還能更穩定地處理上方、內部、下方等更豐富的空間關系。更重要的是,這種方法并沒有被室內數據分布鎖死,在海灘、街道、公園等戶外環境中,同樣能夠生成開放性的結構更自然、物理更可信的可交互場景。對于虛擬內容創作、仿真環境搭建以及具身智能訓練來說,這一點尤其關鍵:研究者真正需要的,從來不是一套只能擺拍的三維世界,而是一個能夠被操作、被編輯、被反復試驗的空間環境。
![]()
Scenethesis 與其他方法生成的場景對比
![]()
只需要給一段文字描述,Scenethesis 就能生成對應的可交互三維場景
未來方向
當然,Scenethesis 也并不是終點。它仍然受到資產庫多樣性、遮擋場景下對應精度以及可動結構資產支持能力的影響。但這項工作的價值在于,它提供了一種很有代表性的方向:當文本到 3D 不再只是 “生成一個結果”,而是變成一個由語言、視覺和物理共同驅動的閉環過程,我們也許才真正開始逼近 “可交互世界生成” 這件事的核心。對于正在走向空間智能和具身智能的大模型來說,這或許比再做一個更會擺家具的生成器,更接近下一階段真正重要的問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.