<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      物理AI的「原生」時刻:原力靈機發(fā)布具身大模型DM0

      0
      分享至



      當(dāng)前,大語言模型(LLMs)和視覺語言模型(VLMs)在語義領(lǐng)域的成功未能直接遷移至物理機器人,歸根結(jié)底在于其互聯(lián)網(wǎng)原生的基因。主流的 “預(yù)訓(xùn)練 - 后適配”(Pretrain-then-Adapt)的范式依賴互聯(lián)網(wǎng)靜態(tài)數(shù)據(jù),導(dǎo)致模型先天缺失物理基礎(chǔ)(Physical Grounding),在落地時往往顧此失彼:要么導(dǎo)致操作與導(dǎo)航的模塊割裂,要么引發(fā)災(zāi)難性遺忘,在追求控制精度的過程中丟失了核心的通用推理能力。



      圖 1:DM0 在異構(gòu)語料庫上進行預(yù)訓(xùn)練 —— 無縫整合互聯(lián)網(wǎng)、自動駕駛和具身操作數(shù)據(jù)。

      為了打破這一局限,原力靈機聯(lián)合階躍星辰提出一種名為 DM0 的具身原生(Embodied-Native) VLA 模型,其工作核心在于「從 0 開始」:從訓(xùn)練的最初階段,就采用統(tǒng)一的視角,將具身傳感器與運動數(shù)據(jù)視為與語言、視覺數(shù)據(jù)同等重要的一等公民。

      作為一個端到端模型,DM0 可以無縫統(tǒng)一機器人的精細(xì)操作(Manipulation)與移動導(dǎo)航(Navigation)。在 RoboChallenge 真實世界基準(zhǔn)測試 Table 30 中,DM0 在單任務(wù)(Specialist)和多任務(wù)(Generalist)兩種設(shè)置下均以顯著優(yōu)勢領(lǐng)先現(xiàn)有 SOTA 模型,展現(xiàn)出極其強大的物理世界泛化與執(zhí)行能力。



      • 論文名稱: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
      • 論文鏈接:https://arxiv.org/html/2602.14974v1
      • DM0 GitHub : https://github.com/Dexmal/dexbotic
      • DM0 Hugging Face: https://huggingface.co/collections/Dexmal/dm0

      方法與架構(gòu):多源混合訓(xùn)練與空間腳手架

      真正的通用機器人需要一個具身原生模型,這要求模型必須調(diào)和異構(gòu)數(shù)據(jù)源 —— 涵蓋互聯(lián)網(wǎng)語料、自動駕駛?cè)罩疽约皺C器人操作軌跡,學(xué)習(xí)既具有豐富語義又具備物理可執(zhí)行性的表征。為此,DM0 并未采用簡單的端到端多層感知機映射,而是設(shè)計了一套精妙的多源混合訓(xùn)練與具身空間腳手架(Embodied Spatial Scaffolding)架構(gòu)。

      整體模型架構(gòu)



      圖 2:DM0 架構(gòu)圖,包含 VLM 主干和基于流匹配(Flow Matching)的動作專家。

      DM0 的核心架構(gòu)由兩個主要組件構(gòu)成:

      1.VLM 主干網(wǎng)絡(luò): 基于 Qwen3-1.7B 大語言模型構(gòu)建,并增加了一個強大的感知編碼器 PE,負(fù)責(zé)多模態(tài)感知、語義理解以及在機器人環(huán)境中的具身推理。輸入的多視角圖像會被調(diào)整為 728×728 的高分辨率,經(jīng)過感知編碼器處理后,提取出細(xì)粒度的視覺特征。

      2. 動作專家: 這是一個基于流匹配的連續(xù)控制模塊。它不直接從圖像提取特征,而是接收來自 VLM 主干網(wǎng)絡(luò)提取的鍵值(KV)緩存作為條件輸入,從而生成平滑、精確的連續(xù)控制動作。

      在推理時,DM0 支持兩種模式:既可以直接從多模態(tài)觀察和指令中預(yù)測連續(xù)動作;也可以先通過 VLM 生成文本形式的具身推理過程,隨后將這些推理文本作為條件,引導(dǎo)動作專家輸出動作。

      多源混合訓(xùn)練

      聯(lián)合優(yōu)化語言目標(biāo)與連續(xù)控制目標(biāo)往往會破壞預(yù)訓(xùn)練 VLM 中保存的語義表征。為了解決這個問題,DM0 采用了一種受知識隔離(Knowledge Insulation)啟發(fā)的混合梯度策略。

      具體而言,在針對具身機器人數(shù)據(jù)進行訓(xùn)練時,動作專家的梯度不會回傳給 VLM 主干網(wǎng)絡(luò)。這種解耦操作有效防止機器人動作數(shù)據(jù)對 VLM 通用常識的侵蝕。與此同時,VLM 仍然會繼續(xù)使用非具身數(shù)據(jù)進行更新,不斷優(yōu)化其通用語言和視覺理解能力。此外,VLM 還被監(jiān)督預(yù)測離散的動作 Token,促使它編碼出有利于下游連續(xù)動作預(yù)測的動作相關(guān)語義。

      具身空間腳手架

      為進一步彌合高級語言推理與低級動作控制之間的鴻溝,本文創(chuàng)新性提出一套分層預(yù)測框架 —— 具身空間腳手架。在訓(xùn)練中,模型被要求順序執(zhí)行以下輔助任務(wù),構(gòu)建出空間維度的思維鏈(Spatial CoT):

      1. 子任務(wù)預(yù)測: 將復(fù)雜的總指令分解為一系列可解釋、易管理的子步驟。

      2. 目標(biāo)邊界框預(yù)測: 在視覺觀察中預(yù)測出目標(biāo)物體或目標(biāo)區(qū)域的 2D 邊界框。

      3. 末端執(zhí)行器軌跡預(yù)測: 預(yù)測機器臂末端在主攝像機視圖下的未來 2D 軌跡。

      4. 離散動作預(yù)測: 預(yù)測代表機器人控制命令的離散 Token。

      這種設(shè)計如同為模型搭建一層層腳手架,引導(dǎo)其從抽象的語義意圖,逐步過渡到以物體為中心的空間定位,再到動作相關(guān)的幾何軌跡,最終落地為底層控制。這種信息瓶頸機制不僅過濾了任務(wù)無關(guān)的噪聲,還極大地限制了動作策略的解空間。

      三階段訓(xùn)練配方:從互聯(lián)網(wǎng)原生走向具身原生



      圖 4:預(yù)訓(xùn)練、中期訓(xùn)練、后期訓(xùn)練的數(shù)據(jù)混合比例。

      DM0 的強大不僅源于架構(gòu),更歸功于其精心設(shè)計的三階段訓(xùn)練 pipeline,總計消耗了高達(dá) 1.2T Token 的數(shù)據(jù)。預(yù)訓(xùn)練階段在大規(guī)模的互聯(lián)網(wǎng)、自動駕駛和具身數(shù)據(jù)上建立強大的多模態(tài)感知;中訓(xùn)練階段加入動作預(yù)測,并在跨多種機器人平臺的具身數(shù)據(jù)上把模型錨定為可執(zhí)行的控制,同時保留通用對話能力;后訓(xùn)練階段則收窄所使用的本體與數(shù)據(jù)范圍,以便在少數(shù)目標(biāo)平臺上穩(wěn)定視覺 - 運動對齊。

      Pretraining

      這個階段,模型在一套極其豐富的異構(gòu)語料庫上進行聯(lián)合優(yōu)化,參數(shù)全部解凍。數(shù)據(jù)不僅包含傳統(tǒng)的網(wǎng)頁文本、教育文獻(xiàn)、OCR 數(shù)據(jù)和通用 VQA,還極具前瞻性地引入 GUI 界面數(shù)據(jù)、自動駕駛深度檢測數(shù)據(jù)以及大量的具身數(shù)據(jù)。通過 1.13T Token 的大規(guī)模洗禮,模型在獲得語義知識的同時,隱式地掌握了物理先驗(如空間關(guān)系、深度結(jié)構(gòu)、物理動力學(xué))。

      Mid-Training

      中期訓(xùn)練階段引入了動作預(yù)測模塊,數(shù)據(jù)規(guī)模約為 200M 樣本。此時,混合梯度策略(知識隔離)開始生效。數(shù)據(jù)混合了跨形態(tài)的單臂 / 雙臂機器人軌跡(如 Franka、UR5、ALOHA)、仿真環(huán)境數(shù)據(jù)以及視覺 - 語言指令微調(diào)數(shù)據(jù)(如 Cambrian-10M、LLaVA-OV)。為了增強模型的長程規(guī)劃能力,本文還專門構(gòu)建了具身推理(ER)數(shù)據(jù)集,包含任務(wù)分解、進度估計等訓(xùn)練項。

      Post-Training

      后期訓(xùn)練階段旨在將模型對齊到實際部署的硬件上。使用約 50M 樣本,將目標(biāo)縮小至少數(shù)特定的真實機器人平臺。減少不同形態(tài)機器人的分布方差,使得模型能在目標(biāo)機械臂上建立極其穩(wěn)定的視覺 - 運動映射。

      實驗結(jié)果:在 RoboChallenge 上的碾壓級表現(xiàn)

      為全面驗證 DM0 的物理世界交互能力,DM0 在極具挑戰(zhàn)性的 RoboChallenge 真實世界基準(zhǔn) Table30 上進行評估。該基準(zhǔn)包含 30 個需要多步推理和精確連續(xù)控制的長視野桌面操作任務(wù)。

      單任務(wù)(Specialist)評估



      表 1:RoboChallenge Table30 上 SOTA 開源 VLA 模型的對比結(jié)果。

      如表 1 所示,DM0-Specialist 模型在僅有 2.4B 參數(shù)量的情況下,在 UR5、Franka、ARX5、ALOHA 等多個機器人平臺上,全面超越參數(shù)量更大的 Spirit-v1.5 (4B)、GigaBrain-0.1 (3B) 、pi0.5 (3B) 等 SOTA 開源模型,取得了 62.00% 的平均成功率。

      值得注意的是,在諸如 “在籃子中整理水果”、“插網(wǎng)線” 和 “掃垃圾” 這類長時序、強交互的復(fù)雜任務(wù)中,DM0 甚至取得了 100% 或 80% 這樣接近完美的成績,而其他基準(zhǔn)模型在這些任務(wù)上經(jīng)常徹底失敗(0%)。

      多任務(wù)(Generalist)評估



      表 2:RoboChallenge Table30 上當(dāng)前最佳的開源 VLA 多任務(wù)模型的對比結(jié)果。

      在更考驗?zāi)P涂缛蝿?wù)適應(yīng)能力的多任務(wù)中(一個模型同時掌握某平臺下的所有任務(wù)),DM0-Generalist 同樣展現(xiàn)出壓倒性優(yōu)勢,取得了 37.3% 的平均成功率和 49.08 的任務(wù)得分,大幅超越了之前最強的 pi0.5 模型的 17.67% 和 31.27;特別是在 “堆疊彩色方塊”、“將鞋子放在鞋架上” 等需要高精度空間理解的任務(wù)中,DM0 依然能夠打出滿分。



      表 5:DM0 具備在具身場景中預(yù)測子任務(wù)的思維鏈(CoT)能力。

      除了卓越的動作執(zhí)行能力,由于實施了知識隔離,處于 Mid-Training 階段的 DM0 依然完美保留了多模態(tài)對話能力。在具身場景的物體檢測、復(fù)雜圖表 OCR 識別、甚至是作為手機智能體(Mobile Agent)識別外賣按鈕的任務(wù)中,它也能對答如流。

      結(jié)論與未來展望

      DM0 從根本上重新思考了通用機器人策略的開發(fā)路徑。它證明了與其讓純語義的大語言模型在事后去適應(yīng)機器人身體,不如在預(yù)訓(xùn)練的萌芽期,就將物理世界的感知與多源數(shù)據(jù)相融合,構(gòu)建一個真正意義上的具身原生 VLA 模型;其獨創(chuàng)的混合梯度訓(xùn)練保護了認(rèn)知不退化,而具身空間腳手架則賦予了模型三維空間的推理直覺。

      盡管 DM0 已經(jīng)樹立了一個強大的基準(zhǔn),但這僅僅是 Physical AI 邁出的一小步。論文的最后,作者團隊也指出了幾個極具潛力的演進方向:

      1. 具身原生的 Scaling Laws: DM0 目前依然是一個 2B 級別的輕量化模型。未來,團隊計劃將其擴展至 7B 甚至 30B 規(guī)模,并吞吐更為龐大的仿真 + 真實的混合數(shù)據(jù)集,以期觀察到在物理推理層面的涌現(xiàn)能力。

      2. 更廣闊的多模態(tài)感知: 現(xiàn)實世界的物理交互絕不僅限于看和說。DM0 的預(yù)訓(xùn)練階段未來有望直接整合觸覺反饋、音頻以及純深度信息,讓機器人即便在視野受限的動態(tài)環(huán)境中依然游刃有余。

      3. 長程推理與世界模型: 現(xiàn)有的空間腳手架雖然解決了部分規(guī)劃問題,但跨越超長時間維度的任務(wù)仍是業(yè)界難題。未來,若能將世界模型整合進 DM0 ,賦予機器人在腦海中預(yù)演動作后果并進行長期規(guī)劃的能力,真正的全能型 Physical AI 將不再遙遠(yuǎn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      2分!1球!哈蘭德每天都想冠軍,阿森納三步登頂,第一步最難

      2分!1球!哈蘭德每天都想冠軍,阿森納三步登頂,第一步最難

      嗨皮看球
      2026-05-10 14:26:05
      進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

      進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

      網(wǎng)絡(luò)易不易
      2026-04-19 14:59:01
      5月9日閱兵的俄羅斯,走向垃圾時間

      5月9日閱兵的俄羅斯,走向垃圾時間

      黔有虎
      2026-05-09 16:22:09
      “萬人迷”豆包,這回踢到鐵板上了

      “萬人迷”豆包,這回踢到鐵板上了

      金錯刀
      2026-05-08 09:40:44
      1965年,見到楊尚昆時,彭德懷落淚:我只是對主席的思想跟不上

      1965年,見到楊尚昆時,彭德懷落淚:我只是對主席的思想跟不上

      涼州辭
      2026-05-10 10:55:03
      貔貅認(rèn)主不看財富,這四個生肖千萬別碰,戴了反而會破財

      貔貅認(rèn)主不看財富,這四個生肖千萬別碰,戴了反而會破財

      紙鳶奇譚
      2026-04-13 16:06:54
      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      足球大腕
      2026-05-10 11:48:48
      倫敦世乒賽暖心一幕:王楚欽、梁靖崑、林詩棟場上拼搏,馬龍、許昕場邊觀賽助威!

      倫敦世乒賽暖心一幕:王楚欽、梁靖崑、林詩棟場上拼搏,馬龍、許昕場邊觀賽助威!

      生活新鮮市
      2026-05-10 13:44:01
      丑鞋出海賣爆了,賣家狂賺400萬

      丑鞋出海賣爆了,賣家狂賺400萬

      跨境派Pro
      2026-05-09 14:14:21
      奶奶剛死3天,瞎子上門討飯,臨走時說:明天你們家要多一口棺材

      奶奶剛死3天,瞎子上門討飯,臨走時說:明天你們家要多一口棺材

      千秋文化
      2026-04-27 20:12:24
      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      史政先鋒
      2026-05-09 10:50:10
      一滴也違法!內(nèi)蒙古7人鉆進大興安嶺,在樹上打孔收集汁液被抓

      一滴也違法!內(nèi)蒙古7人鉆進大興安嶺,在樹上打孔收集汁液被抓

      萬象硬核本尊
      2026-05-09 20:05:57
      曬太陽被關(guān)注!醫(yī)生發(fā)現(xiàn):曬得越久,壽命越長?告訴你答案

      曬太陽被關(guān)注!醫(yī)生發(fā)現(xiàn):曬得越久,壽命越長?告訴你答案

      橘子約定
      2026-05-09 20:46:06
      擺拍!“賓利車主高速救新人”全是假 賬號被封

      擺拍!“賓利車主高速救新人”全是假 賬號被封

      看看新聞Knews
      2026-05-09 17:24:03
      劉濤在媽祖誕辰1066周年盛典現(xiàn)場,攙扶一名突然摔倒的攝影師

      劉濤在媽祖誕辰1066周年盛典現(xiàn)場,攙扶一名突然摔倒的攝影師

      韓小娛
      2026-05-10 09:26:39
      西班牙、英國宣布發(fā)現(xiàn)漢坦病毒疑似病例,張文宏最新發(fā)聲

      西班牙、英國宣布發(fā)現(xiàn)漢坦病毒疑似病例,張文宏最新發(fā)聲

      21世紀(jì)經(jīng)濟報道
      2026-05-10 09:45:48
      爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

      爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

      青青會講故事
      2025-04-21 14:09:37
      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰(zhàn)吉爾吉斯斯坦

      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰(zhàn)吉爾吉斯斯坦

      我愛英超
      2026-05-10 02:56:29
      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      李將平老師
      2026-05-08 09:42:27
      女子稱凌晨在出租屋疑遭陌生人闖入 床上出現(xiàn)不明液體 警方已立案

      女子稱凌晨在出租屋疑遭陌生人闖入 床上出現(xiàn)不明液體 警方已立案

      紅星新聞
      2026-05-09 19:45:20
      2026-05-10 14:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12957文章數(shù) 142647關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      中國在德7名精英組群性侵女性手段殘忍 群主哈工大畢業(yè)

      頭條要聞

      中國在德7名精英組群性侵女性手段殘忍 群主哈工大畢業(yè)

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      旅游
      數(shù)碼
      教育

      房產(chǎn)要聞

      低價甩賣!海口這個地標(biāo)商業(yè),無人接盤!

      干細(xì)胞能讓人“返老還童”嗎

      旅游要聞

      新華視點|城鄉(xiāng)文旅創(chuàng)新業(yè)態(tài) 體驗經(jīng)濟激發(fā)消費新活力

      數(shù)碼要聞

      銘瑄新板,小身材大能量?

      教育要聞

      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 无码精品人妻 中文字幕| 人人妻人人澡人人爽精品日本| 亚洲一级毛片在线观播放| 亚洲欧美精品在线| 中文字av| 人妻综合第一页| 亚洲熟女WWW一区二区三区| 欧洲一区在线观看| 精品国产乱码一区二| 亚洲免费人妻| 欧美在线看片a免费观看| 日韩精品亚洲人旧成在线| 日韩一区二区中文| 熟女丝袜潮喷内裤视频网站| 亚洲成在人线免费观看| 国产情侣一区二区| 熟女无套内射线观56| 99re在线| 国产午夜精品视频免费不卡| 国产成人亚洲综合二区| 久久精品国产亚洲av品| 超碰97人妻| 秘色aⅴ一区二区三区| 国内少妇偷人精品视频| 人妻丰满熟妇av无码区波多野| 一个人看的www片| 欧美亚洲另类制服卡通动漫 | 国产女人18毛片精品18水| 韩国一区二区三区精品| 美女裸体黄网站18禁止免费下载| 欧美野外伦姧在线观看| 91在线观看| 无码国产精品一区二区免费16| 国产女主播福利一区在线观看| 久久久久亚洲Av片无码一区| av电影一区| 色偷偷噜噜噜亚洲男人| 尤物tv.2722| 国产精品久久久久久日本| 精品国产粉嫩一区二区三区| 亚色91|