<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      突破模型瓶頸:QDepth-VLA讓機器人擁有更精準的3D空間感知

      0
      分享至



      視覺-語言-動作模型(VLA)在機器人操控領域展現出巨大潛力。通過賦予預訓練視覺-語言模型(VLM)動作生成能力,機器人能夠理解自然語言指令并在多樣化場景中展現出強大的泛化能力。然而,這類模型在應對長時序或精細操作任務時,仍然存在性能下降的現象。

      這種現象的根源在于,模型雖具備語義理解能力,卻缺乏對三維空間的幾何感知與推理能力,導致其難以準確捕捉如機械臂夾爪與物體之間相對位置關系等關鍵三維信息。

      為此,由中國科學院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA—— 一種結合量化深度預測(Quantized Depth Prediction) 的 3D 信息增強型 VLA 模型。它通過獨立的Depth Expert模塊來學習離散化的深度表示。這種設計在保持原有語義對齊能力的同時,顯著提升了機器人在復雜操作場景下的空間推理與操控精度。



      • 論文標題:QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models
      • 論文鏈接:https://arxiv.org/pdf/2510.14836

      研究背景

      如何讓模型具備真實三維空間理解能力,一直是視覺 - 語言 - 動作領域面臨的關鍵挑戰。盡管 VLA 模型在語義理解與指令跟隨方面取得了顯著進展,但其空間感知能力仍然有限。當任務涉及精細化或長時程多步驟操作時,模型往往難以建立穩定的三維幾何關聯,導致定位誤差和操作失敗。

      為填補二維視覺語義理解與 3D 空間感知之間的鴻溝,研究者近年開始探索將三維信息融入 VLA 模型的多種路徑。主流方向可分為三類:

      1. 直接注入 3D 特征。這類方法通常將點云或深度圖編碼為三維特征,再與 VLM 主干網絡或動作專家模塊融合,從而顯式引入幾何信息。盡管能夠提供更豐富的空間線索,但這種方式顯著增加了模型復雜度,并可能破壞大規模 VLM 預訓練中形成的二維視覺先驗。

      2.3D 特征投影方法。另一類方法將三維特征投影為多視角二維圖像,再輸入原有視覺 - 語言結構。該策略在最大程度上保持了 VLM 的視覺語言能力,但投影過程不可避免地造成信息損失,難以保留細粒度的空間幾何特征。

      3. 輔助 3D 視覺預測任務。相比直接融合 3D 特征,最新的趨勢是通過引入輔助任務(如深度估計或未來場景預測)來隱式強化模型的三維空間理解。這種方式無需額外傳感器輸入,具有更好的兼容性與可擴展性,是一條更具潛力的研究路線。

      然而,已有工作表明,這類基于深度預測的輔助監督并非總能帶來性能提升。例如,DreamVLA 等研究發現,直接以像素級深度圖作為輔助任務可能引入噪聲監督或冗余信號,反而削弱模型的策略學習穩定性。因此,如何設計更高效、語義一致的深度監督機制,使 VLA 在保持二維視覺語義理解的同時獲得穩健的三維感知能力,仍然是當前研究的核心難題。

      方法設計

      為解決深度預測輔助任務存在的監督噪聲和信號冗余問題,中國科學院自動化研究所與靈寶 CASBOT 共同提出了QDepth-VLA,通過引入量化深度預測機制與混合注意力結構,使模型在保持語義一致性的同時,獲得穩健的三維空間感知與動作決策能力。整體方法包括三部分 (如圖):



      1.深度圖標注

      首先采用 Video-Depth-Anything 對視頻幀進行高精度深度標注,顯著提升了時空一致性,從源頭上減少了噪聲和漂移。

      2.深度量化與 Depth Expert

      為了避免直接預測像素級深度圖的噪聲干擾,首先分別利用標注好的數據集分別訓練對應的 VQ-VAE,之后使用 VQ-VAE 對深度圖進行離散化編碼,將其轉化為結構化的深度 token。模型優化目標如下:





      設計了獨立的 Depth Expert 模塊,其結構與 Action Expert 相似,均基于 Transformer 架構,用于預測深度 token,從而在不干擾視覺 - 語言主干的前提下提供穩定的幾何感知信號。

      3.混合注意力機制

      為實現跨模態融合,減小深度模態可能存在的噪聲干擾,團隊還設計了Hybrid Attention Mask,在不同模態間調控信息流:

      • 文本與圖像 token 僅在各自模態內自注意,保持語義一致性;
      • 深度 token 同時關注圖像與文本,獲得語義上下文;
      • 動作 token 則融合前述所有模態,實現視覺 — 深度 — 動作一體化建模。

      這種塊狀注意力設計有效防止深度噪聲干擾動作生成,同時保持不同模態之間的對齊能力。

      4.聯合優化目標

      整體訓練目標整合動作與深度兩類監督信號:





      通過上述設計,QDepth-VLA 實現了視覺語義、空間幾何與動作策略的協同學習,在多任務、多場景中展現出更強的泛化與穩定性。

      實驗驗證

      為全面評估 QDepth-VLA 的性能,團隊在兩個主流機器人仿真環境 (SimplerLIBERO) 與真實環境下進行了測試,涵蓋多種物體抓取、空間定位與多步操作任務。結果顯示,QDepth-VLA 在不同測試平臺上均取得了顯著提升。

      這些結果驗證了該方法能夠有效提升模型在長時程、多場景操作任務中的任務完成能力。

      1. Simpler 仿真結果

      在 Simpler 任務中,分別基于 Bridge V2 與 Fractal 數據集從頭訓練了 QDepth-VLA。實驗結果表明,在 Simpler 仿真器 的 WidowX250 與 Google Robot 任務上,相比基礎模型 Open π0,平均成功率分別提升了8.5% 與 3.7%





      2. LIBERO 仿真結果

      而在 LIBERO 任務中,QDepth-VLA 則在 Fractal 數據集小規模預訓練得到的權重基礎上,進一步在對應的 LIBERO 數據集上進行微調。如下圖所示,在 LIBERO 仿真器上,相較于基于深度圖輸入的 3D-CAVLA,QDepth-VLA 依然保持領先,平均提升約 2.8%。



      3. 真機實驗結果



      • Task1 : pick the banana into the yellow basket
      • Task2 : put the chili into the bowl
      • Task3 : put the green block into the bowl
      • Task4 : stack the green block ontop of the yellow block



      4. 消融實驗

      為了驗證 QDepth-VLA 各組件的實際貢獻,團隊還在 Simpler 任務上進行了系統的消融實驗。

      當團隊將深度損失權重設為 0,僅保留模型結構時,平均成功率由 68.5% 降至 65.6%,尤其在 Carrot(-9.6%)和 Eggplant(-12.5%)任務上下降明顯,表明深度監督確實提供了有意義的空間幾何先驗。相反,移除 Depth Expert 后,性能下降最為顯著(-8.5%),在需要精準三維對齊的 Stack Block 任務中跌幅高達 - 23.8%,驗證了顯式深度分支對立體空間感知的關鍵作用。

      此外,將潛在深度預測替換為像素級回歸導致平均性能下降至 64.6%,說明量化深度表征更能捕捉抽象幾何信息。而移除混合注意力機制(Hybrid Attention)后,模型在 Carrot 任務中的表現顯著下降(-15.8%),表明該機制能有效協調深度感知與動作生成。

      總體來看,深度監督與混合注意力的協同作用是 QDepth-VLA 取得高性能的關鍵,它們共同強化了模型的空間理解與動作一致性,為復雜操控任務提供了穩定的三維感知基礎。



      總結與展望

      QDepth-VLA 作為一種將量化深度預測引入視覺 - 語言 - 動作建模的機制,旨在增強機器人在三維空間中的感知與推理能力。基于 Simpler、LIBERO 以及真實環境的系統實驗結果顯示,引入量化深度監督能夠在長程與精細操作任務中帶來顯著的成功率提升,說明三維幾何先驗在機器人穩定操控中具有重要價值。

      未來的研究方向可主要圍繞以下兩點展開:

      • 面向未來的深度預測:在當前深度推斷基礎上擴展至未來時刻的空間結構預測,以支持更長時程的策略規劃;
      • 更高效的深度表征學習:通過改進 VAE 編碼與表征壓縮方式,進一步提升深度信息的精確度、可泛化性與推理穩定性。

      總體來看,QDepth-VLA 為增強 VLA 模型的空間理解能力提供了一條兼具語義一致性與工程可落地性的路徑。從具身智能的發展趨勢來看,具備真實三維空間理解能力的策略模型,是機器人從 “可演示” 邁向 “可長期實際工作” 的關鍵基礎。QDepth-VLA 強化的三維幾何感知與動作一致性能力,將作為核心能力模塊逐步融入靈寶 CASBOT 的多產品序列中:

      • CASBOT 02:用于支持桌面級與生活化任務中的穩定抓取、遞交、精細放置;
      • CASBOT W1:用于工業與商服場景下的多步驟、多對象柔性操作;
      • Handle-L1 靈巧手:用于更高精度、多接觸點的結構化操控與協作。

      在此路徑中,深度量化表征、跨模態一致性建模與在線自適應學習將持續協同演進,支撐靈寶 CASBOT 構建從模型 — 本體 — 場景 — 部署的長期閉環能力,推動具身智能走向可規模化、可復制、可持續的真實應用階段。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄羅斯超大艦隊進入東海

      俄羅斯超大艦隊進入東海

      烽火觀天下
      2026-05-14 10:58:42
      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      重磅宣布!你好,崔永熙!中國男籃等了整整2年

      籃球實戰寶典
      2026-05-15 19:22:06
      驚現夜市鬧劇!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      驚現夜市鬧劇!30歲高顏值少婦當眾脫內褲套男子嘴,丈夫全程目睹

      老貓觀點
      2026-05-15 07:34:04
      選調才是“官”,考公只是“吏”!湖南省2026年選調生名單火了

      選調才是“官”,考公只是“吏”!湖南省2026年選調生名單火了

      妍妍教育日記
      2026-05-16 09:50:07
      套路深啊!浙江女子每月請同事吃喝不低5000,私下高息借款1.8億

      套路深啊!浙江女子每月請同事吃喝不低5000,私下高息借款1.8億

      火山詩話
      2026-05-16 16:19:22
      1.1億美元拿下,世界杯離不開中國!央視獲得2026世界杯版權!

      1.1億美元拿下,世界杯離不開中國!央視獲得2026世界杯版權!

      海浪星體育
      2026-05-15 14:50:47
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經濟報道
      2026-05-13 23:28:25
      互利共贏!中方購波音飛機后,C919適航證前景如何?

      互利共贏!中方購波音飛機后,C919適航證前景如何?

      楓塵余往逝
      2026-05-16 08:02:25
      波特蘭媒體人:開拓者嚴重高估楊瀚森即戰力 換帥將帶來全新機會

      波特蘭媒體人:開拓者嚴重高估楊瀚森即戰力 換帥將帶來全新機會

      羅說NBA
      2026-05-16 17:34:52
      曾靠一首歌狂賺上億,坐擁五輛豪車,如今為何賣房賣車負債累累?

      曾靠一首歌狂賺上億,坐擁五輛豪車,如今為何賣房賣車負債累累?

      妙娛連珠
      2026-05-15 15:39:23
      黃金暴跌,潑天富貴來了

      黃金暴跌,潑天富貴來了

      今綸財經
      2026-05-15 18:28:23
      A股:大家系好安全帶了,不出意外的話,A股或將迎來黑色星期一?

      A股:大家系好安全帶了,不出意外的話,A股或將迎來黑色星期一?

      趨勢清風俠
      2026-05-16 11:02:29
      它是“菜中人參”5月遇到別手軟,全身是寶,隨手一泡,隨吃隨取

      它是“菜中人參”5月遇到別手軟,全身是寶,隨手一泡,隨吃隨取

      阿龍美食記
      2026-05-14 14:55:22
      國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

      國宴的頂級國風,盡顯東方之美!卻被外國元首的兒媳旗袍裝驚艷

      阿郎娛樂
      2026-05-16 00:55:50
      越過山丘!新華社點贊U17男足時隔22年重返亞洲杯四強

      越過山丘!新華社點贊U17男足時隔22年重返亞洲杯四強

      澎湃新聞
      2026-05-16 14:04:23
      挖走洛夫頓?廣東隊有望截胡上海男籃,盧偉被迫完成“3選2”!

      挖走洛夫頓?廣東隊有望截胡上海男籃,盧偉被迫完成“3選2”!

      緋雨兒
      2026-05-16 11:22:46
      僅售15.68萬!蔚來新車官宣,正式上市!

      僅售15.68萬!蔚來新車官宣,正式上市!

      新浪財經
      2026-05-16 09:51:24
      文班首進西決:19+6+3帽提前打卡 率馬刺時隔9年進分區決賽

      文班首進西決:19+6+3帽提前打卡 率馬刺時隔9年進分區決賽

      醉臥浮生
      2026-05-16 12:08:46
      古巴爆發大規模抗議!能源危機徹底點燃怒火,居民深夜暴動

      古巴爆發大規模抗議!能源危機徹底點燃怒火,居民深夜暴動

      策前論
      2026-05-15 15:08:53
      估值1.25萬億!全球史上最大IPO

      估值1.25萬億!全球史上最大IPO

      大碗科技
      2026-05-16 10:33:04
      2026-05-16 18:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142650關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      26歲警察因急性白血病引發腦出血 從確診到離世僅11天

      頭條要聞

      26歲警察因急性白血病引發腦出血 從確診到離世僅11天

      體育要聞

      馬刺2號,少年老成,這集看過?

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      藝術
      教育
      旅游
      手機

      《深海迷航2》揭示初代主角去向:并未退休享受生活

      藝術要聞

      19位當代畫家油畫作品欣賞

      教育要聞

      家長破除科學焦慮,孩子建立科學興趣

      旅游要聞

      【海上記憶】匯龍潭的水,有至剛之德

      手機要聞

      W19周份額出爐,OPPO、vivo、小米等全沒變位

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品成AV无在线观看| 精品人妻av一区二区三区不卡| 一级毛片免费不卡在线| 亚洲第1色电影。| 人妻网站成熟人妻VA网站| 国产亚洲中文字幕在线制服| 99re国产| 日韩精品高清自在线| 亚洲aⅴ无码专区在线观看春色| 国产成人午夜福利在线播放| 18禁久久| 特级无码毛片免费视频尤物| 新丰县| 国产精品色悠悠在线观看| 福利一区二区| 亚洲人成在线免费观看| 国产日韩亚洲不卡高清在线观看| 精品国产91爱| 日本精品一区在线| 久久久一本波多野结衣| 免费观看无遮挡WWW的视频| 久久综合精品国产二区无码| AV无码不卡| 无码吃奶揉捏奶头高潮视频| 国产精品视频色尤物yw| 久草热8精品视频在线观看| 性感美女久久久| 特黄大片又粗又大又暴| 18禁无遮挡国产免费观看 | 欧美日韩无套内射另类| 在线观看污网站| 精品国产乱码久久久久夜深人妻| 国产精品久久久久久ai换脸综合| 北条麻妃在线一区二区| 久久国产精品麻豆映画| 永久免费AV无码国产网站| 手机看片欧美| 最近中文字幕完整版hd| 欧美成a人片在线播放 | 亚洲AV成人无码久久精品黑人| 日韩综合在线观看|