<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      橫掃室內3D場景,港科大(廣州)打造單目開放詞匯占據預測新SOTA

      0
      分享至



      在具身智能研究中,如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息,始終是具身感知的核心難題。近年來,語義占據預測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統一到三維體素網格中,用于構建 3D 語義占據地圖,為機器人的空間推理、導航與交互操作提供了場景表達基礎。

      然而,現有方法大多建立在封閉詞匯(Closed-vocabulary) 設定下,模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統占據預測方法而言,超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。

      近期,香港科技大學(廣州)陳昶昊教授團隊聯合香港中文大學(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。

      LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統一的三維表示,在僅使用幾何標簽(二值占據標簽) 訓練的情況下,便能支持任意文本描述的目標類別查詢,實現開放詞匯的三維語義占據預測。

      在 Occ-ScanNet 數據集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據預測精度也超越了多種封閉詞匯方法,展現出極強的性能與泛化能力。



      • 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
      • 論文地址:https://arxiv.org/abs/2602.22667

      為什么具身場景的開放語義占據預測更困難?

      傳統的占據預測模型像僅僅背過單詞書,只能認出學過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據文本描述進行推理。下圖展示了這一差異:

      • 封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
      • 開放詞匯模型(LegoOcc)- 可以響應任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應區域的熱力圖。



      Figure 1 閉集 vs 開集 3D 占據預測

      此外,室內具身環境與戶外車輛駕駛場景也有不同:

      1. 室內場景的幾何更稠密、結構更復雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
      2. 室內場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓練數據中只出現寥寥幾次。

      因此,直接將室外開放詞匯占據預測模型遷移到室內,會出現性能下降,已有的少數室內占據預測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

      LegoOCC 框架介紹



      Figure 2 LegoOcc 整體算法框架

      LegoOcc 將問題拆解為兩部分:幾何學習決定空間里哪里「被占據」,語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統一的中間表示:每個高斯同時攜帶幾何參數(位置、協方差、不透明度)與一個語言對齊的語義嵌入。

      (1)從單目圖像生成語言嵌入的 3D 高斯

      給定輸入圖像,LegoOcc 首先通過前饋網絡預測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數,還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。

      (2)泊松視角的高斯到占據轉換

      在僅有二值占據監督的設定下,進一步研究如何將高斯表示穩定地聚合為體素占據結果。現有方法在這一環節易出現訓練不穩定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據聚合時卻可能忽略不透明度信息,導致二維渲染監督與三維占據監督之間存在優化沖突。

      為此,LegoOcc 提出了基于泊松過程的高斯到占據轉換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監督條件下更穩定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學習階段的穩定性與可優化性。



      (3)漸進溫度衰減減少沿光線的特征混合

      在語義學習部分,LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合,然而室內場景對象密集、投影重疊多,易導致監督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。

      因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數控制不透明度,并在訓練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續梯度(區別于硬 Top?k 的離散選擇),提升語言監督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。



      實驗結果

      論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。

      (1)開放詞匯設定下 mIoU 超過此前最佳方法 2 倍

      論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應類別的三維語義占據結果,實現文本驅動的任意語義類別定位。

      在 Occ-ScanNet 數據集上,LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



      (2)Poisson 聚合的作用驗證

      本工作對提出的泊松式高斯到占據轉換(Poisson-based G2O)進行了消融實驗。

      在開放詞匯設定下,當使用 GaussianFormer2 風格聚合時,結果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。



      (3)漸進溫度衰減緩解特征混合問題

      本文對溫度控制策略進行了消融實驗:若訓練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學習仍受特征混合影響;若訓練時用高溫、測試時突然切換到低溫,則會出現訓練測試不匹配(Train-test Mismatch);若從訓練一開始就使用低溫,則優化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓練穩定性與最終語義判別性,取得最佳結果。



      (4)推理速度具備優勢,更適合機器人平臺部署

      在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。



      (5)可視化結果

      1. 閉集評測結果

      在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預測結果與真實標簽更為一致,幾何和語義預測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



      圖 3 Occ-ScanNet 閉集測試結果(Closed-vocabulary Results on Occ-ScanNet)

      2. 開放詞匯測試結果

      進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別,能夠根據自然語言描述進行三維空間中的目標識別,實現了文本驅動的開放詞匯三維查詢。



      圖 4 開放詞匯測試結果(Open-vocabulary Results)

      展望與意義

      面向具身室內場景,本文提出 LegoOcc ,一種單目開放語義占據預測框架,采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練,語義側用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現了文本驅動的三維語義占據預測。

      未來的家用機器人能夠高效地將三維場景表達為體素網格,只需一句「幫我找一下茶幾上的遙控器」,即可在復雜空間中精準定位目標物體,而無需預先「學習」過遙控器這一類別。

      作者介紹

      周常青:香港科技大學(廣州)博士生,致力于高效且穩定的三維場景理解方法研究,當前重點關注端到端軌跡生成模型,以及面向導航任務的高效世界模型構建。

      張涵:香港科技大學(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現階段重點探索三維視覺語義定位方法,以及適配導航任務的高效世界模型構建。

      江澤宇:香港科技大學(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現實開放環境的具身應用場景。

      陳昶昊(通訊作者):香港科技大學(廣州)智能交通學域和人工智能學域助理教授,博士生導師,香港科技大學跨學科學院聯署助理教授,從事具身智能感知、導航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔任獨立 PI。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      7萬億砸向“六張網”!舊基建落幕,新一輪造富機會在哪里?

      7萬億砸向“六張網”!舊基建落幕,新一輪造富機會在哪里?

      柏年說政經
      2026-05-10 18:00:03
      國家德比2-0!11.7億豪門無解聯賽11連勝 完爆死敵奪冠第29次加冕

      國家德比2-0!11.7億豪門無解聯賽11連勝 完爆死敵奪冠第29次加冕

      狍子歪解體壇
      2026-05-11 04:56:31
      俄羅斯警告亞美尼亞若加入歐盟將招致和烏克蘭一樣的后果

      俄羅斯警告亞美尼亞若加入歐盟將招致和烏克蘭一樣的后果

      山河路口
      2026-05-10 23:28:46
      真就交易補償?連續兩年交易得到濃眉的球隊最終收獲狀元簽

      真就交易補償?連續兩年交易得到濃眉的球隊最終收獲狀元簽

      懂球帝
      2026-05-11 04:24:17
      奪冠發布會太暖!現場送蛋糕給王楚欽慶生,滿臉驚喜并帶走蛋糕

      奪冠發布會太暖!現場送蛋糕給王楚欽慶生,滿臉驚喜并帶走蛋糕

      籃球資訊達人
      2026-05-11 03:54:13
      兒子被前夫帶走時10個月大,她不知道兒子會不會喊媽媽了:“他生活在陜西”,是她唯一確定的事

      兒子被前夫帶走時10個月大,她不知道兒子會不會喊媽媽了:“他生活在陜西”,是她唯一確定的事

      新京報
      2026-05-10 19:15:49
      是誰在偷換了世界杯轉播權之爭的邏輯?

      是誰在偷換了世界杯轉播權之爭的邏輯?

      魯先生的筆
      2026-05-10 21:12:47
      教育“特權”全清零,9月起上學再也不需要拼爹拼房了

      教育“特權”全清零,9月起上學再也不需要拼爹拼房了

      輝哥說動漫
      2026-05-10 18:18:32
      實至名歸,孫穎莎榮膺倫敦世乒賽最佳女運動員

      實至名歸,孫穎莎榮膺倫敦世乒賽最佳女運動員

      懂球帝
      2026-05-10 22:35:27
      事態升級!三亞海鮮商戶集體憤怒,官方協會發聲,游客仍有條退路

      事態升級!三亞海鮮商戶集體憤怒,官方協會發聲,游客仍有條退路

      觀察鑒娛
      2026-05-10 09:44:36
      0-2!國家德比完敗 13.4億豪門目送死敵奪冠 四線爭冠變四大皆空

      0-2!國家德比完敗 13.4億豪門目送死敵奪冠 四線爭冠變四大皆空

      狍子歪解體壇
      2026-05-11 04:58:21
      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      大風新聞
      2026-05-10 15:28:26
      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      一問到底丨世界杯轉播費談判為何陷入僵局,中國球迷還能愉快地看球嗎?

      上游新聞
      2026-05-10 15:45:20
      女團奪冠發布會!孫穎莎安撫蒯曼,王曼昱致謝莎莎,另2將笑開花

      女團奪冠發布會!孫穎莎安撫蒯曼,王曼昱致謝莎莎,另2將笑開花

      籃球資訊達人
      2026-05-11 00:46:56
      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯播》

      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯播》

      IT之家
      2026-05-10 22:51:11
      烏克蘭的“機器狗”們已實戰,單次俘虜多名俄士兵,摧毀俄軍坦克

      烏克蘭的“機器狗”們已實戰,單次俘虜多名俄士兵,摧毀俄軍坦克

      網易新聞出品
      2026-05-09 11:37:34
      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      影視高原說
      2026-05-10 13:09:18
      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      善惡有報!許家印剛認罪1天,子女近況曝光,大兒子的安排全白費

      歷史偉人錄
      2026-05-10 22:06:40
      陳若儀曬和Kimi合照慶母親節,公開13年前齙牙照坦言不敢公開社群

      陳若儀曬和Kimi合照慶母親節,公開13年前齙牙照坦言不敢公開社群

      小椰的奶奶
      2026-05-11 03:51:11
      林詩棟搶王楚欽風頭!險被逆轉卻跳球桌狂歡,把自己演成關鍵英雄

      林詩棟搶王楚欽風頭!險被逆轉卻跳球桌狂歡,把自己演成關鍵英雄

      三十年萊斯特城球迷
      2026-05-11 01:58:15
      2026-05-11 06:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      教育
      房產
      家居
      游戲
      公開課

      教育要聞

      男孩為了拼中考體育滿分,每天堅持猛跑1小時,卻把骨頭跑斷了

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      家居要聞

      菁英人居 全能豪宅

      LPL第二賽段:拒絕讓一追二!JDG三局戰勝AL,挺進前三

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产日产免费高清欧美一区| 中文字幕A片免费观看| 一级做a爱视频在线播放| 国模无码大尺度一区二区三区| 日本亲近相奷中文字幕| 精品合集播放| 国产三级精品三级在线区| 成人免费视频试看120秒| 国产成人亚洲综合图区| 精品人妻一区介绍| 国内精品久久人妻无码不卡| 久久精品国产中国久久| 国产露脸150部国语对白| 91精品乱码一区二区三区| 九九热精品视频在线| 鱼台县| 亚洲综合免费| 国产亚洲一卡2卡3卡4卡新区| 国产成人av在线影院| 亚洲乱码尤物193yw| 东光县| 午夜在线观看成人av| 亚洲天堂在线播放| 少妇伦子伦精品无吗| 影音先锋在线资源网| 777人体大胆中国人体哦哦| 国产色爱av资源综合区| 亚洲av日韩在线资源| 91资源站| 中文字幕精品亚洲一区| 中文字幕无码免费久久9| 欧美激情视频一区| 亚洲区日韩| 末发育娇小性色xxxxx视频| 国产在线精品成人一区二区三区| 伊人久久大香线蕉av五月天| 免费看小12萝裸体视频国产| 亚洲亚洲人成综合网络| 国产精品亚洲丝袜专区| 久久精品人妻av一区二区| 精品素人AV无码不卡在线观看|