網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

高德發(fā)布全球首個(gè)面向AGI的全棧具身技術(shù)體系“ABot”

2026-04-19 12:08:50　來源: 大力TMT

山東舉報(bào)

分享至

4月19日消息，在2026北京亦莊機(jī)器人半程馬拉松上，阿里巴巴旗下高德正式公開全球首款開放環(huán)境全自主具身機(jī)器人"高德途途"，這款四足機(jī)器人成功協(xié)助視障人士完成復(fù)雜避障、人群穿行等實(shí)戰(zhàn)挑戰(zhàn)。

途途能夠應(yīng)對(duì)導(dǎo)盲等嚴(yán)苛場景的底層依托，正是高德全新發(fā)布的ABot全棧具身技術(shù)體系。該體系基于上萬種真實(shí)場景與千萬級(jí)多模態(tài)Clip數(shù)據(jù)，將高德沉淀的空間智能資產(chǎn)高效轉(zhuǎn)化為具身核心訓(xùn)練資源，打造出全球首個(gè)面向AGI的全棧具身技術(shù)體系。

ABot體系，從架構(gòu)上突破了傳統(tǒng)具身智能“單點(diǎn)拼湊、封閉驗(yàn)證”的碎片化路徑，以AGI為核心目標(biāo)，首次將數(shù)據(jù)引擎、基座模型與執(zhí)行中樞耦合為統(tǒng)一系統(tǒng)。目前，高德ABot系列模型已經(jīng)在全球15項(xiàng)權(quán)威基準(zhǔn)測試中拿到SOTA。

ABot體系：三層飛輪式設(shè)計(jì) 構(gòu)建持續(xù)進(jìn)化的具身智能閉環(huán)

ABot體系采用閉環(huán)飛輪式設(shè)計(jì)，涵蓋數(shù)據(jù)、模型、應(yīng)用三層，架構(gòu)并非簡單堆疊，而是深度咬合、互為引擎，實(shí)現(xiàn)“數(shù)據(jù)驅(qū)動(dòng)模型、模型服務(wù)應(yīng)用、應(yīng)用反哺數(shù)據(jù)“，精準(zhǔn)擊穿數(shù)據(jù)稀缺、仿真鴻溝與技能泛化三大行業(yè)瓶頸，形成持續(xù)自我進(jìn)化的完整閉環(huán)。

數(shù)據(jù)是具身智能的核心“燃料”，直接決定其泛化能力的天花板。不同于大語言模型，傳統(tǒng)真機(jī)采集難以規(guī)模化，成本呈指數(shù)級(jí)攀升。

作為數(shù)據(jù)層的核心， ABot-World通過批量合成 Video、Depth、Point Cloud、Trajectory 四類訓(xùn)練數(shù)據(jù)，配合RL Training Engine在虛擬環(huán)境里定義獎(jiǎng)懲、反復(fù)試錯(cuò)。模型以高保真仿真替代高昂的真機(jī)采集，從而彌合Sim-to-Real鴻溝，將數(shù)據(jù)成本壓縮數(shù)個(gè)數(shù)量級(jí)。

模型層重點(diǎn)解決具身操作的通用性和導(dǎo)航的長程性，其核心是感知與決策。其中ABot-M負(fù)責(zé)操作，ABot-N負(fù)責(zé)導(dǎo)航，兩個(gè)模型分工訓(xùn)練、通過 Model Skill機(jī)制組合調(diào)用，完成長程復(fù)雜任務(wù)。

應(yīng)用層的核心是具身版“龍蝦”ABot-Claw，通過將異構(gòu)機(jī)器人統(tǒng)一于共享認(rèn)知框架之下，打造具備調(diào)度、記憶、分層控制與社會(huì)對(duì)齊能力的“執(zhí)行中樞”，以應(yīng)對(duì)長程任務(wù)閉環(huán)難、知識(shí)不共享等問題。

ABot體系的設(shè)計(jì)邏輯，直接沿襲自高德的空間智能飛輪：依托近10億月活場景產(chǎn)生的海量時(shí)空數(shù)據(jù)與實(shí)時(shí)反饋，算法在閉環(huán)中持續(xù)迭代，推動(dòng)模型對(duì)物理世界的認(rèn)知不斷加深，飛輪每日在真實(shí)世界中自動(dòng)演進(jìn)，從根本上界定了高德的體系化優(yōu)勢：不依賴單點(diǎn)技術(shù)突破，而是依靠飛輪在真實(shí)場景中持續(xù)運(yùn)轉(zhuǎn)的“轉(zhuǎn)速”。

ABot-World：在物理合規(guī)性、動(dòng)作可控性、零樣本泛化三大維度均達(dá)SOTA

當(dāng)主流世界模型仍受困于“視覺幻覺”與動(dòng)力學(xué)脫節(jié)時(shí)，ABot-World率先突破，成為全球首個(gè)將物理定律深度嵌入生成全流程的可微分、可進(jìn)化動(dòng)力學(xué)引擎。作為ABot體系的底層仿真基座，它直接決定了上層模型的物理一致性與泛化上限。正是以該引擎為核心，ABot體系徹底打通“虛擬訓(xùn)練-真實(shí)部署”閉環(huán)。

架構(gòu)上，ABot-World專為具身智能設(shè)計(jì)了14B DiT架構(gòu)，以觀測與動(dòng)作為輸入，在潛空間直接生成符合時(shí)空動(dòng)力學(xué)的未來狀態(tài)序列，并基于千萬級(jí)真實(shí)數(shù)據(jù)與多層級(jí)采樣治理，突破單一任務(wù)的泛化制約。

場景構(gòu)建上，3DGS冷啟動(dòng)空間基座面向手機(jī)拍攝、航測圖等稀疏輸入，通過"粗建模、高保真修復(fù)再到蒸餾回環(huán)"的自動(dòng)化流程，將低質(zhì)量視頻轉(zhuǎn)化為高質(zhì)量3D場景，大幅拉低數(shù)據(jù)成本。

訓(xùn)練方面，模型首創(chuàng) Diffusion-DPO物理偏好對(duì)齊框架，由 VLM生成物理規(guī)則清單并獨(dú)立判別，構(gòu)建優(yōu)劣樣本對(duì)，驅(qū)動(dòng)模型主動(dòng)抑制違反物理規(guī)律的行為。同時(shí)，拉格朗日動(dòng)力學(xué)與 3DGS重建的融合使得每一幀畫面都成為包含質(zhì)量、摩擦、接觸力等屬性的可微分物理快照。

除此之外，ABot-World還構(gòu)建了"訓(xùn)練+數(shù)據(jù)"雙引擎并行架構(gòu)，實(shí)現(xiàn)模型自進(jìn)化。依托自有地圖與脫敏數(shù)據(jù)，結(jié)合3DGS技術(shù)實(shí)現(xiàn)厘米級(jí)重建與光照一致性，系統(tǒng)已累計(jì)生產(chǎn)萬級(jí)3D真實(shí)場景、百萬級(jí)推理數(shù)據(jù)與千萬級(jí)訓(xùn)練軌跡，覆蓋99%的典型生活場景。通過接入VLA閉環(huán)，模型實(shí)現(xiàn)"預(yù)測即訓(xùn)練，演練即學(xué)習(xí)"的持續(xù)進(jìn)化，并經(jīng)由跨形態(tài)動(dòng)作映射，統(tǒng)一支持多種機(jī)械形態(tài)的精確控制。

在PBench、EZSbench、WorldArena、Agibot World Challenge等主流評(píng)測中ABot-World持續(xù)領(lǐng)先，并成為唯一在物理合規(guī)性、動(dòng)作可控性、零樣本泛化三大維度均達(dá)SOTA的模型。

ABot-N& ABot-M：ABot體系的“運(yùn)動(dòng)雙核”跨本體導(dǎo)航與操作基座斬獲11項(xiàng)SOTA

若將ABot全棧體系視為具身智能的“運(yùn)行大腦”，ABot-N與ABot-M便是其“運(yùn)動(dòng)雙核”，分別掌管機(jī)器人的“雙腿”與“雙手”，直接響應(yīng)物理世界中“去哪里”與“做什么”的基礎(chǔ)指令。依托統(tǒng)一架構(gòu)設(shè)計(jì)，高德打造出可解耦和協(xié)同的專用基座模型，突破跨形態(tài)適配與跨任務(wù)泛化的技術(shù)瓶頸。

作為全球首個(gè)實(shí)現(xiàn)五大核心導(dǎo)航任務(wù)"大一統(tǒng)"的VLA基座模型，ABot-N具備意圖理解、自主決策與持續(xù)進(jìn)化能力，是途途走向開放世界的核心導(dǎo)航引擎。其采用層級(jí)式“大腦-動(dòng)作”架構(gòu)，通過多模塊協(xié)同實(shí)現(xiàn)單一模型導(dǎo)航任務(wù)全覆蓋，打破傳統(tǒng)專用架構(gòu)的泛化天花板。

ABot-N推出后，迅速在VLN-CE（R2R/RxR）、HM3D-OVON、EVT-Bench等7大權(quán)威基準(zhǔn)上全面刷新SOTA，并在導(dǎo)航精度、社會(huì)合規(guī)性、zero-shot泛化實(shí)現(xiàn)斷層式領(lǐng)先。

ABot-M是全球首個(gè)統(tǒng)一架構(gòu)的具身操作基座模型，其可實(shí)現(xiàn)一個(gè)“通用大腦”適配多種形態(tài)的機(jī)器人，大幅提升操作模型在異構(gòu)機(jī)器人形態(tài)和任務(wù)場景下的泛化能力。

ABot-M提出了全球首個(gè)動(dòng)作流形學(xué)習(xí)，將學(xué)習(xí)目標(biāo)由去噪重構(gòu)轉(zhuǎn)為流形投影，顯著提升動(dòng)作生成的穩(wěn)定性與解碼效率，在高自由度全身控制等復(fù)雜場景中展現(xiàn)出更強(qiáng)的可擴(kuò)展性。并且在感知端，采用語義流和動(dòng)作流雙流并行的架構(gòu)，提升精細(xì)操作的執(zhí)行精度。

在LIBERO、LIBERO-Plus、RoboCasa GR1、RoboTwin 2.0等主流評(píng)測中，ABot-M全面超越π0.5、UniVLA、OpenVLA-OFT等強(qiáng)基線，在泛化能力、魯棒性與跨形態(tài)遷移三個(gè)維度實(shí)現(xiàn)系統(tǒng)性領(lǐng)先。

不僅如此，ABot-N、ABot-M的多項(xiàng)子成果入選 ICLR、CVPR等頂會(huì)，成為精確、高效、安全的機(jī)器人導(dǎo)航、操作的范式參考。

ABot-Claw：首創(chuàng)“Map as Memory”的通用集中式Harness架構(gòu)

記憶是機(jī)器人跨越認(rèn)知與執(zhí)行鴻溝的底層基石。傳統(tǒng)機(jī)器視覺受限于“視野之外即荒原”，記憶呈場景碎片化，嚴(yán)重制約泛化能力。

為突破這一瓶頸，ABot-Claw首創(chuàng)“Map as Memory”理念，重構(gòu)具身智能的記憶機(jī)制。作為ABot體系的“執(zhí)行中樞”，ABot-Claw采用集中式Harness架構(gòu)，將高德地圖與用戶私有地圖設(shè)為全局認(rèn)知錨點(diǎn)，把多模態(tài)感知數(shù)據(jù)統(tǒng)一映射至共享語義空間，形成可動(dòng)態(tài)刷新、持久沉淀的“世界記憶”。新終端接入后，僅需讀取全局上下文即可零成本繼承環(huán)境認(rèn)知，徹底粉碎場景孤島。

另外，ABot-Claw采用"云端大腦—邊緣響應(yīng)"兩級(jí)設(shè)計(jì)，兼顧智能深度與執(zhí)行可靠性。在調(diào)度層面，該架構(gòu)還支持多種異構(gòu)機(jī)器人的并行協(xié)作與任務(wù)接力，故障時(shí)自動(dòng)接續(xù)，實(shí)現(xiàn)任務(wù)上下文無縫移交與跨形態(tài)協(xié)作，這標(biāo)志著機(jī)器人系統(tǒng)從“單體智能”向“體系智能”的演進(jìn)，機(jī)器人不再是孤立個(gè)體，而是共享記憶、統(tǒng)一調(diào)度、協(xié)同進(jìn)化的智能網(wǎng)絡(luò)節(jié)點(diǎn)。

ABot-Claw還首創(chuàng)閉環(huán)反饋與糾錯(cuò)機(jī)制，在模糊指令理解、跨機(jī)導(dǎo)引等復(fù)雜場景中充分驗(yàn)證其魯棒性與泛化性。

伴隨高德途途的全球首秀，高德同步宣布將開源ABot全體系，此舉不僅是對(duì)“AMAP AI Inside”核心理念的深度踐行，更將重塑具身智能的研發(fā)范式，加速AGI時(shí)代的全面到來。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.