網易首頁 > 網易號 > 正文申請入駐

港科大（廣州）開源首個無需訓練的開放詞匯3D占據地圖構建系統

2026-05-15 12:50:10　來源: 機器之心Pro

河北舉報

分享至

從第一視角觀測中持續重構三維世界，并理解空間中的幾何結構與開放語義信息，是機器人具身感知領域的核心問題。語義占據預測（Semantic Occupancy Prediction）通過將空間劃分為三維體素網格，并為每個體素估計 “空閑、占據、未知” 狀態及其語義類別，為機器人的空間推理、導航避障與交互操作提供統一的基礎場景表達。

然而，現有三維占據預測方法仍高度依賴大規模三維占據標注、語義標注以及精確相機位姿等訓練數據。在真實開放環境中，這些假設往往難以成立：當機器人進入全新場景時，通常不存在預先標注好的三維幾何與語義真值，也缺乏可靠的全局相機軌跡，更不可能針對每個新環境重新采集數據并訓練模型。因此，構建具備強泛化能力、能夠在開放真實環境中實現語義占據預測的感知系統，已成為推動具身智能體從 “被動感知” 邁向 “主動理解” 的關鍵基礎。

近期，香港科技大學（廣州）陳昶昊教授團隊聯合穆罕默德?本?扎耶德人工智能大學（MBZUAI ）研究者提出FreeOcc。該工作已被機器人領域旗艦會議 Robotics: Science and Systems (RSS 2026) 接收，源代碼和數據集均已開源。

FreeOcc 是首個無需訓練（training-free）的開放詞匯三維占據預測系統，僅基于單目或 RGB-D 圖像序列，在線構建全局一致的開放詞匯三維占據地圖。在 EmbodiedOcc-ScanNet 數據集上，FreeOcc 無需任務特定訓練，單目版本達到 31.29 IoU / 13.86 mIoU，RGB-D 版本達到 34.40 IoU / 15.84 mIoU，相較現有自監督學習方法在 IoU 與 mIoU 指標上均實現超過兩倍提升。在團隊進一步構建的跨數據集泛化基準 ReplicaOcc 上，FreeOcc 的 RGB-D 版本取得了 55.65 IoU / 20.90 mIoU 的性能，而現有監督與自監督方法幾乎無法實現零樣本泛化。

論文標題：FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction
論文地址：https://arxiv.org/abs/2604.28115
項目主頁：https://the-masses.github.io/freeocc-web/
項目代碼：https://github.com/the-masses/FreeOcc
數據鏈接：https://huggingface.co/datasets/the-masses/ReplicaOcc

實現具身場景中 “無需訓練” 的開放詞匯語義占據預測，其核心難點在哪里？

近年來，基于端到端模型的語義占據預測在引入占據真值監督后，已經能夠在特定場景中取得較高的幾何與語義精度。然而，在 LegoOcc (CVPR-2026) 提出之前，大多數方法仍只能在預定義的封閉類別集合中進行推理。LegoOcc 將開放詞匯能力引入室內單目占據預測，使模型能夠響應任意自然語言查詢，從而讓端到端占據預測具備了初步的語言理解能力。

基于監督學習的端到端占據預測方法依然存在瓶頸：它們高度依賴高質量三維占據真值標注，并且在場景發生變化時泛化能力顯著下降。一旦進入未見過的新場景，模型的幾何與語義預測性能往往會迅速退化。而當前具備高質量占據真值標注的室內具身場景數據集，仍主要局限于基于 ScanNet 構建的 OccScanNet 與 EmbodiedOcc-ScanNet，數據資源極為稀缺。

因此，監督學習范式下的端到端占據預測，始終面臨兩座難以跨越的大山：

1.三維標注成本極高：高質量占據真值需要經過三維重建、體素化與逐體素語義標注等復雜流程，其成本遠高于傳統二維圖像標注，難以大規模擴展。

2.跨環境泛化能力不足：監督學習方法容易過擬合特定數據集中的相機內參、尺度分布、外觀風格以及標簽體系。一旦遷移到新的場景或傳感器配置，語義與幾何預測都會出現明顯退化。

FreeOcc 的核心思想正是：不再訓練一個面向特定數據集的占據預測神經網絡模型，而是構建一個能夠讓智能體 “無需訓練” 即可在任意環境中在線預測占據地圖與開放詞匯語義的通用感知系統。

作為首個無需訓練的通用開放詞匯占據預測框架，FreeOcc 在系統設計與評估過程中面臨一系列挑戰：

1.3DGS 表達與占據預測目標之間存在較大差異：FreeOcc 采用 SLAM 作為定位與建圖主干。現有耦合式 3DGS-SLAM 方法在效率與建圖精度之間往往難以兼顧，而繼承點云 SLAM 全局一致性的解耦式 3DGS-SLAM，則更關注多視角渲染質量，而非體素空間中的幾何一致性。若直接將現有 3DGS 表示用于體素級占據預測，會出現幾何邊界不穩定、局部結構漂移以及全局拓撲不規整等問題。如何將面向渲染的 3DGS 表達轉化為面向空間推理的三維占據表示，成為一個新的研究問題。

2.缺乏適用基于占據的 SLAM 系統的統一評估機制：基于 SLAM 的系統評估通常需要進行 Sim (3) 或 SE (3) 對齊。然而，在標準 3DGS 優化過程中，系統會聯合更新位置 (x,y,z)、旋轉、尺度、透明度、顏色、球諧系數（SH）以及 densify / split / prune 等參數。優化后的高斯場幾何已經不再是單純 “由相機位姿驅動” 的剛性或相似結構，而是被優化器不斷局部重塑的自由場。當軌跡、尺度或坐標系發生變化時，僅施加群變換雖然在數學上成立，卻往往無法完全吸收訓練過程中累積的局部補償誤差，通常仍需進一步重優化。

3.缺乏能夠評估開放世界泛化能力的數據基準：目前具身場景中的占據預測評測主要依賴 EmbodiedOcc-ScanNet 與 OccScanNet。然而，OccScanNet 在構建過程中將大量類別合并為 “furniture” 與 “objects”，導致現有評測難以真正量化開放詞匯場景中的語義理解能力，尤其難以準確評估開放類別下的 mIoU。僅依賴傳統數據集與封閉類別評測，已經無法衡量下一代開放詞匯占據系統的真實能力。

為此，FreeOcc 建立了統一框架：既能夠繼承 SLAM 的全局一致性幾何，又能夠利用 3DGS 的稠密表達能力，同時融合開放詞匯語義理解，并支持可對齊、可泛化、可量化的評估機制。

FreeOcc 框架介紹

FreeOcc 將在線開放詞匯占據預測拆解為四層模塊化地圖表示，并在機器人觀測過程中持續進行聯合更新：

1.點云地圖：基于視覺定位與建圖系統（SLAM），從單目或 RGB-D 圖像序列中估計相機位姿，并構建全局一致的半稠密點云。

2.3DGS 地圖：以 SLAM 點云為幾何錨點初始化并更新 3D 高斯，通過連續場表示補充稀疏幾何結構。

3.語義地圖：利用預訓練視覺語言模型提取開放詞匯語義特征，并將語言對齊特征關聯到高斯基元（Gaussian primitives）。

4.占據地圖：通過概率式高斯至占據（Gaussian-to-Occupancy）投影，將帶語義的高斯表達轉換為稠密體素占據地圖，從而支持任意文本查詢。

（1）SLAM 提供全局一致的幾何錨點

FreeOcc 首先利用 SLAM 系統處理輸入圖像序列，實時估計相機位姿并重建三維點云。正文采用 DROID-SLAM，利用其在單目輸入條件下較強的全局幾何一致性。補充實驗中還進一步驗證了 MASt3R-SLAM 與 VGGT-SLAM 作為骨干模型時的性能表現。SLAM 輸出的相機軌跡與點云，為后續高斯地圖提供統一坐標系，為占據地圖的長期一致性構建幾何基礎。

（2）幾何一致的 3D 高斯構建

傳統 3DGS-SLAM 方法更擅長把圖像渲染正確，卻未必真正把幾何結構建精準。由于 3DGS 的優化目標主要服務于新視角渲染，只要最終渲染出的 RGB 與深度結果足夠合理，高斯的位置、尺度與透明度往往可能存在多種等價解。這種幾何歧義在新視角合成任務中并不明顯，但一旦用于三維占據預測，就會直接導致幾何邊界模糊、薄結構漂移、全局空間結構不穩定以及體素語義分布不連續等問題。

針對這一挑戰，FreeOcc 提出了幾何感知初始化（Geometry-aware Initialization，G-ini）與幾何錨定高斯更新（Geometrically Anchored Gaussian Updates，GAGU）。不再允許高斯在優化過程中自由漂移，而是始終將高斯的幾何中心錨定在 SLAM 重建得到的三維點上。在初始化階段，系統進一步沿觀測射線方向對高斯進行各向異性展開，使其形狀天然符合真實成像幾何，而不僅僅服務于渲染誤差最小化。通過這一設計，FreeOcc 構建出的高斯地圖能夠實現高質量渲染，更能夠保持長期穩定的幾何一致性，從而適用于體素級空間推理與開放詞匯占據預測。

（3）開放詞匯語義關聯

FreeOcc 并不訓練固定類別的語義分類頭，直接利用預訓練開放詞匯視覺語言模型，從二維圖像中提取語言對齊語義特征。系統基于 SLAM 提供的幾何對應關系，將二維像素級語義嵌入提升到三維高斯基元（Gaussian primitives）上，從而形成攜帶語言信息的語義高斯基元（language-embedded Gaussians）。

因此，每一個高斯基元不僅包含位置、尺度、不透明度和顏色等幾何與外觀屬性，同時還攜帶開放詞匯語義特征。當用戶輸入任意文本類別時，系統即可通過文本編碼器生成對應的查詢語義向量（query embedding），并與三維空間中的語言特征進行相似度匹配，實現文本驅動的三維語義定位。

（4）高斯基元到占據地圖的概率投影

FreeOcc 將連續的高斯地圖投影到離散體素網格中，從而生成最終的三維占據地圖。對于每一個體素位置，系統都會檢索其鄰域范圍內的高斯體，并根據高斯體的空間支持范圍計算該體素被占據的概率。同時，系統通過局部高斯混合模型（Gaussian mixture）的后驗責任傳播語義特征，使語義信息能夠穩定映射到三維體素空間。

最終輸出同時包含兩個部分：1）幾何占據概率，即該體素是否被物體占據；2）開放詞匯語義分數，即該體素與任意文本類別之間的匹配程度。FreeOcc 最終生成一張能夠被任意自然語言查詢的開放詞匯三維占據地圖。

實驗結果

論文從 EmbodiedOcc-ScanNet、ReplicaOcc、三維高斯潑濺 SLAM 主干對比、組件消融實驗、開放詞匯查詢以及真實機器人部署等多個角度，對 FreeOcc 的性能進行了系統驗證。

（1）在 EmbodiedOcc-ScanNet 上，無需訓練即可超過自監督方法兩倍以上

在 EmbodiedOcc-ScanNet 數據集上，現有自監督方法 GaussianOcc 與 GaussTR 雖不依賴語義占據監督，但仍需要真實相機位姿作為輸入，分別取得 10.17/4.34 與 15.63/4.95 的 IoU/mIoU 性能。FreeOcc 在完全不使用占據真值標注、語義標注以及真實相機位姿作為輸入的情況下，依然取得更好性能：單目輸入達到 31.29 IoU / 13.86 mIoU，RGB-D 輸入達到 34.40 IoU / 15.84 mIoU。無論在幾何 IoU 還是語義 mIoU 指標上，均超過現有自監督基線兩倍以上，展示了無需訓練（training-free）范式在開放世界占據預測中的潛力。

（2）構建 ReplicaOcc 基準數據集，驗證跨數據集零樣本泛化能力

為了進一步驗證模型是否真正具備跨環境泛化能力，論文構建了 ReplicaOcc Benchmark。該數據集基于 Replica 場景構建，采用與 ScanNet 類似的 RGB-D 序列組織方式，并提供全局占據真值，用于評估開放詞匯具身占據預測。

與 EmbodiedOcc-ScanNet 中僅包含 11 個粗粒度類別不同，ReplicaOcc 引入了更加細粒度的語義類別體系，因此能夠更有效地檢驗模型的開放詞匯語義理解能力。論文展示了 8 個 ReplicaOcc 場景的可視化結果。

（3）在 ReplicaOcc 上，學習式方法遷移失敗，而 FreeOcc 保持強泛化能力

在零樣本（Zero-shot）跨數據集遷移設定下，學習式方法從 EmbodiedOcc-ScanNet 遷移到 ReplicaOcc 后出現明顯性能崩潰。監督方法 EmbodiedOcc 的語義 mIoU 幾乎降為 0，而自監督方法 GaussianOcc 與 GaussTR 幾乎無法生成有效語義占據結果。

相比之下，FreeOcc 由于不依賴特定數據集訓練，能夠直接遷移至全新環境，并保持穩定性能。其中，單目輸入達到 46.81 IoU / 16.93 mIoU，RGB-D 輸入達到 55.65 IoU / 20.90 mIoU。說明，FreeOcc 減少了三維標注成本，避免了學習式占據預測模型對單一數據集、固定標簽體系以及特定場景分布的過擬合。

（4）幾何一致高斯更新優于現有 3DGS SLAM

為便于對比，將不同 3DGS-SLAM 系統生成的高斯地圖統一轉換為占據體，并在 ReplicaOcc 和 EmbodiedOcc-ScanNet-mini 上評估幾何 IoU。FreeOcc 在單目和 RGB-D 設置下均取得最佳平均 IoU：

單目平均 IoU：39.34，優于 Photo-SLAM、MonoGS、DROID-Splat；
RGB-D 平均 IoU：45.24，優于 SplaTAM、GS-ICP、RTG-SLAM、MonoGS、DROID-Splat 等方法。

FreeOcc 的高斯更新策略并不是簡單復用 3DGS-SLAM，圍繞 “占據預測” 這一目標，重新設計了更加穩定且適用于空間推理的高斯幾何表示。

（5）消融實驗

消融實驗顯示，如果移除幾何錨定高斯更新（GAGU）和幾何感知初始化（G-ini），系統在精度和效率上都出現明顯下降。在 RGB-D 設置下：

無 GAGU、無 G-ini：27.98 IoU / 11.20 mIoU / 8.8 FPS
加入 GAGU：40.18 IoU / 16.03 mIoU / 25.0 FPS
完整 FreeOcc：45.03 IoU / 18.37 mIoU / 24.6 FPS

這表明GAGU 提升了長期幾何一致性以及建圖效率，使 FPS 從8.8 提升到 25.0；而G-ini進一步改善高斯初始化質量，在幾乎不犧牲運行速度的情況下，將占據預測精度進一步提升到45.03 IoU / 18.37 mIoU。

（6）開放詞匯查詢，支持任意文本的三維目標定位

FreeOcc 具備三維場景開放詞匯查詢能力，能響應任意自然語言文本，并在三維占據地圖中定位對應目標。例如，在 ReplicaOcc 場景中，系統可以根據 “籃子”“時鐘”“室內綠植”“掛畫” 等文本查詢，在三維占據地圖中準確定位對應區域。這些尺寸較小、語義粒度細、類別開放的目標，而傳統封閉類別的占據預測方法難以覆蓋。

進一步在 ReplicaOcc 數據集上進行定量評估。FreeOcc 在開放詞匯 top-10 類別上取得了 31.06 mIoU；當詞匯表進一步擴展到 top-20、top-30 和 top-40 類別時，仍達到 23.02、16.57 和 12.01 mIoU。隨著語義類別規模不斷擴大，FreeOcc 依然能保持較好的開放詞匯語義理解能力，展現更強的可擴展性。

（7）可視化結果：幾何和語義預測更完整

可視化結果顯示，跨數據集時，現有學習式占據預測方法往往會生成不完整、破碎，甚至接近空白的占據地圖；而 FreeOcc 則能夠保持更加連貫的房間結構、更穩定的空間邊界以及更加合理的語義占據分布。相較于現有 3DGS SLAM 方法，FreeOcc 在物體邊界、薄結構恢復以及整體空間完整性方面也展現更強的穩定性。

真實場景部署

FreeOcc 直接部署到真實 RGB-D 傳感器數據流中。使用 Intel RealSense D435i 深度相機進行在線數據采集，在 Intel i9-14900KF + RTX 5090 平臺上運行完整系統。整套系統直接接收實時 RGB-D 數據流，無需預錄軌跡、真實相機位姿、封閉類別標簽或離線優化。

在真實室內與室外場景中，FreeOcc 能夠持續構建三維高斯地圖，并將開放詞匯語義穩定投影到占據地圖中。為獲得場景級開放詞匯標簽，在真實部署過程中進一步引入 Qwen3-VL 多模態視覺語言模型，從輸入 RGB 圖像中自動生成可見物體類別，再將這些語義線索接入 FreeOcc 系統重，實現開放詞匯語義地圖構建。

細粒度真實場景實驗，面對桌面上外觀相似但顏色不同的多個杯子，FreeOcc 能夠根據 “紅色杯子”“黃色杯子”“藍色杯子” 等自然語言查詢，準確區分并定位對應目標。

在線增量建圖過程

隨著機器人持續觀測，FreeOcc 不斷更新的多層地圖表示。論文展示了 ScanNet 與真實室外場景中的在線增量建圖過程：隨著輸入圖像不斷增加，點云地圖逐漸補全，三維高斯地圖變得更加稠密，語義地圖持續融合新的開放詞匯特征，最終占據地圖逐步形成更加完整、全局一致的三維空間表達。

展望與意義

FreeOcc 開創了一條不同于傳統端到端學習占據預測模型的新路線。FreeOcc 不依賴大規模三維占據標注，也不要求推理階段輸入真實相機位姿，而是有效結合 SLAM 幾何與位姿、連續三維高斯表示、開放詞匯視覺語言模型以及體素占據投影，使機器人能夠從第一視角觀測中持續構建全局一致的開放詞匯三維占據地圖。

FreeOcc 的開放詞匯占據地圖不僅讓機器人看見環境幾何結構，更進一步支持機器人理解環境。例如，當用戶提出 “臺燈在哪里”“紅色杯子在哪里” 等自然語言問題時，機器人能夠直接在三維空間中定位目標區域，并進一步將結果用于導航、避障、抓取以及人機交互等下游任務。未來，當機器人進入一個全新房間時，不再需要重新訓練或調整占據預測模型權重，而是直接依靠自身傳感器，在線增量構建三維占據地圖，并逐步理解環境中的物體與空間關系。

作者與機構

江澤宇：香港科技大學（廣州）博士生，主要研究方向為高效的空間物理智能體，專注于將通用空間智能注入現實開放環境的具身應用場景。

周常青：香港科技大學（廣州）博士生，致力于高效且穩定的三維場景理解方法研究，當前重點關注端到端軌跡生成模型，以及面向導航任務的高效世界模型構建。

左星星：阿聯酋穆罕默德?本?扎耶德人工智能大學（MBZUAI）機器人系助理教授。研究方向為移動機器人感知、3D 計算機視覺、具身智能、多傳感器融合等。受邀當選為機器人領域頂刊 T_RO 和著名期刊 RA-L 的編委（Associate Editor），和機器人頂會 RSS, IROS, ICRA 的編委。

陳昶昊（通訊作者）：香港科技大學（廣州）智能交通學域和人工智能學域助理教授，博士生導師，香港科技大學跨學科學院聯署助理教授，從事具身智能感知、導航與交互研究，組建港科大（廣州）PEAK-Lab 課題組并擔任獨立 PI。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.