網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

走向 AGI，高德為什么要從機(jī)器導(dǎo)盲犬開始？

2026-04-19 18:54:07　來源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

“開放環(huán)境具身” 的高德答案。

文丨江思遠(yuǎn)

4 月，北京亦莊的一處紅綠燈路口，一只藍(lán)色的機(jī)器狗正在原地安靜等待。

綠燈亮起，機(jī)器狗邁步，通過身上牽引繩傳導(dǎo)，提示身后的主人跟上——那是一位視障大學(xué)生。

這是高德四足具身機(jī)器人 “途途” 第一次公開上路。可能也是具身智能行業(yè)，第一次用這樣的方式面對公眾——不是表演，不是展示，而是一場真實(shí)的導(dǎo)盲檢驗(yàn)，只有真實(shí)的道路、人流，和身后的視障同伴。

機(jī)器導(dǎo)盲，很難嗎？

當(dāng)天，除了過紅綠燈，途途的腳步還引領(lǐng)著他的主人，完成了一系列挑戰(zhàn)：規(guī)避動靜態(tài)障礙，連續(xù)繞行穿越狹窄通道；實(shí)時(shí)預(yù)判、靈活避讓突然出現(xiàn)的干擾；穿行密集人群，自主尋找補(bǔ)給站等。

近兩年來，對很多人來說，具身智能最典型的畫面發(fā)生在封閉空間，或者人工預(yù)設(shè)遙控的場景里：在屋里疊衣服，彎腰提起一個(gè)杯子；或者走到空地上，沿著預(yù)先安排好的路線，完成一段展示和表演。

但它們有一個(gè)共同前提。機(jī)器人所處的環(huán)境被事先周密地整理過，背景干凈、變量有限、任務(wù)邊界清晰，偶發(fā)因素被壓到了最低。

而 “導(dǎo)盲” 幾乎和上面所有 “可控要素” 背離：

在一個(gè)無限開放、持續(xù)變化的世界里，機(jī)器要同時(shí)判斷空間、障礙，以及每一步的風(fēng)險(xiǎn)。人會突然停下來、自行車會斜著穿過路口、盲道被占……還有低垂下來的樹枝、臺階、積水——所有這些時(shí)刻變動的要素，都不會提前打招呼。同封閉環(huán)境的 Demo 相比，這是完全不同的難度級別。

高德工作人員在接觸視障用戶和相關(guān)機(jī)構(gòu)之后，一個(gè)明顯的感受是：很多普通人默認(rèn)成立的通行條件，對視障者來說并不成立。普通人把 “到達(dá)” 理解為從 A 點(diǎn)到 B 點(diǎn)；視障者面對的卻是另一套問題：這個(gè)路口能不能過？有什么？怎么過？安不安全？很多靠經(jīng)驗(yàn)和直覺就能完成的判斷，到了這里都變成了門檻。

對視障者來說，獨(dú)立出門是極其困難的一關(guān)；其實(shí)對機(jī)器人來說，也是如此。 “走出家門” 意味著機(jī)器要有極高的開放環(huán)境導(dǎo)航能力，對物理空間有持續(xù)且深入的理解，同時(shí)和人的步速配合，理解人的指令，最后還要滿足近乎苛刻的安全標(biāo)準(zhǔn)——一旦失誤，可能危及用戶人身安全。

因此對具身行業(yè)來說，導(dǎo)盲不是一個(gè)偏門場景，而是把問題提得更尖銳了：行，還是不行？不會給任何容錯(cuò)空間，沒法靠后期剪輯回避問題，那些在實(shí)驗(yàn)室里還勉強(qiáng)能成立的 demo ，都會在現(xiàn)實(shí)世界露餡。

行業(yè)里早已不缺生產(chǎn)出來的機(jī)器人，越來越多人開始對各種漂亮 demo 發(fā)出疑問：它到底是在理解世界，還是只是在表演一套排練過很多遍的流程？

高德挑選了一個(gè)幾乎不允許出錯(cuò)的場景。就是想要驗(yàn)證：具身智能，到底能不能真正融入現(xiàn)實(shí)世界？

一條狗的使命：全自主走向開放世界

在我們和高德具身業(yè)務(wù)負(fù)責(zé)人誠卿、具身算法負(fù)責(zé)人徐牧的交流中，他們把目前具身智能面臨的問題概括為：數(shù)據(jù)缺乏、泛化能力不足，以及模型和產(chǎn)品之間的斷層。

這也是具身智能和語言智能最大的不同。語言模型可以靠互聯(lián)網(wǎng)語料快速擴(kuò)張能力邊界，哪怕有噪音和偏差，也能在海量試錯(cuò)中摸索出一些穩(wěn)定運(yùn)行的范式；具身智能則不同，機(jī)器人和世界打交道，需要對物體、空間、動作、時(shí)間、意圖之間的復(fù)雜交互關(guān)系有深刻理解，容錯(cuò)率更低，也更難標(biāo)準(zhǔn)化。

高德給 “途途” 的定義是 “開放環(huán)境全自主具身機(jī)器人”。其實(shí)拆開來看，重點(diǎn)不在 “具身機(jī)器人”，而在 “開放環(huán)境” 和 “全自主”。前者意味著它面對的并非一個(gè)被規(guī)劃好的空間，后者意味著它不能依賴遙控和預(yù)設(shè)路線。這兩個(gè)詞，差不多劃出了和行業(yè)內(nèi)多數(shù)產(chǎn)品的的邊界。

根據(jù)高德官方的表述，途途有三層遞進(jìn)的能力：能出門、會思考、會導(dǎo)盲（即能干活）。從整個(gè)行業(yè)來看，過去并沒有具身產(chǎn)品能夠同時(shí)做到這三點(diǎn)。

“能出門” 不只是能邁開腿走路。今天很多機(jī)器人已經(jīng)能在室內(nèi)環(huán)境里完成導(dǎo)航，也能在小范圍內(nèi)避障；但只要走到開放環(huán)境中，各種突發(fā)隨機(jī)要素會讓一套在實(shí)驗(yàn)室控制下的流暢系統(tǒng)，迅速崩潰。

而地圖導(dǎo)航一直以來長期處理的，正是 “開放” 問題：這種能力需要海量豐富、多元、精準(zhǔn)的物理世界動靜態(tài)數(shù)據(jù)和解析能力支撐，平時(shí)不太會被當(dāng)作前沿技術(shù)談?wù)摚坏┍环诺骄呱韴鼍袄铮闹匾跃屯癸@出來——機(jī)器人要能出門，它需要應(yīng)對真實(shí)開放世界的各種突發(fā)狀況，更加精準(zhǔn)無誤地抵達(dá)目的地。

“會思考” 則是更高一維度的能力。如今的很多具身系統(tǒng)，更像一種被觸發(fā)的執(zhí)行器：收到命令，完成動作，任務(wù)隨之立刻結(jié)束。它們能做的事確實(shí)越來越多，但很少真的像在 “理解” 一個(gè)場景。

高德認(rèn)為機(jī)器人在動作之前，需要先對環(huán)境、空間和用戶意圖形成一個(gè)判斷。例如用戶對機(jī)器人說 “我渴了”，那么機(jī)器人能意識到其背后的言外之意，這是一個(gè)待完成的真實(shí)需求：去哪里買水？如何規(guī)劃路線？先嘗試什么？如果失敗了怎么辦……這些問題需要成為思考鏈路的一部分。

這種鏈路和第三層 “能導(dǎo)盲” 緊密銜接。而 “導(dǎo)盲” 這一極高難度場景背后對應(yīng)的，則是具身機(jī)器人在執(zhí)行通用泛化任務(wù)方面的超高要求。

很多機(jī)器人都愛秀單項(xiàng)能力，因?yàn)檫@樣最直觀，也最容易做出效果。但用戶需要的從來不是單項(xiàng)能力，而是一整個(gè)連貫操作：從接受一個(gè)不那么精確描述的需求開始，到在環(huán)境變化中不斷修正路徑和動作，直到最后把目標(biāo)完成。

這和現(xiàn)實(shí)世界里人的決策類似，任務(wù)幾乎從來不是一次性完成的，它總帶著偏差、意外和中途變化。

如果說 “能出門” 解決的是移動能力，“會思考” 解決的是認(rèn)知水平，那么 “能導(dǎo)盲” 就代表更廣泛的產(chǎn)品場景落地。只有這三點(diǎn)成立，機(jī)器人才有可能從封閉場景里的展示品，變成現(xiàn)實(shí)生活中的實(shí)用助手。

三位一體，全棧具身智能體系

如果只把途途理解成 “另一個(gè)機(jī)器人產(chǎn)品”，很容易低估高德做具身智能的決心。

高德真正想展示的并不只是硬件，而是一整套把地圖導(dǎo)航能力、空間環(huán)境數(shù)據(jù)和機(jī)械執(zhí)行操作連接起來的全棧具身技術(shù)架構(gòu)——無論場景和本體形態(tài)如何變幻，其背后的架構(gòu)應(yīng)該是統(tǒng)一的。

根據(jù)他們對晚點(diǎn)的介紹，支撐途途的是一套名為 “ABot” 的完整具身技術(shù)架構(gòu)，大體分成三層：數(shù)據(jù)與世界模型層、模型與 skill 層、Agent 操作系統(tǒng)層。

其中，數(shù)據(jù)是高德沉淀更深、優(yōu)勢更明顯的地方。多年來，高德積累了大量物理世界數(shù)據(jù)：道路、路口、建筑、交通流等素材，以及在地圖服務(wù)中積累的各類異常反饋與糾錯(cuò)數(shù)據(jù)。這些多源數(shù)據(jù)最終融合衍生出一個(gè)足夠復(fù)雜、也更接近真實(shí)世界的訓(xùn)練底座——ABot-World。

作為一套可交互的世界模型，ABot-World 不僅能讓模型學(xué)到幾何軌跡，還能理解各種復(fù)雜的物理環(huán)境語義，比如 “前方是人行橫道”，或者 “左側(cè) 50 米是停車場出口”，從而成為了接近物理世界的訓(xùn)練環(huán)境，機(jī)器人可以在里面反復(fù)練習(xí)。

最近在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流評測中，ABot-World 均已實(shí)現(xiàn)登頂。

第二層是模型層。以 ABot-NO 與 ABot-M0 為核心，其中 ABot-N0 是導(dǎo)航基座模型，解決的是開放環(huán)境里的移動問題；ABot-M0 則更偏向操作與執(zhí)行。它們在各種評測中同樣取得了 SOTA （state-of-the-art）的表現(xiàn)。

在這一層里，不同模型被視為 Skill，導(dǎo)航、移動、操作等技能模塊：一個(gè)機(jī)器人從接受用戶指令，到導(dǎo)航行走，再到進(jìn)入室內(nèi)找到目標(biāo)位置，這個(gè)過程理應(yīng)是多種技能需求的混合。

再往上，是名為 ABot-Claw 的 Agent 操作系統(tǒng)層，也是整這套技術(shù)架構(gòu)實(shí)與物理世界交互的關(guān)鍵。

模型能力再強(qiáng)，如果缺少一個(gè)中樞把意圖理解、空間記憶、任務(wù)拆解、工具調(diào)用、執(zhí)行監(jiān)控和糾錯(cuò)重規(guī)劃串聯(lián)起來，系統(tǒng)依舊只能停留在 “有勁使不出” 的階段。ABot-Claw 就可以持續(xù)組織信息、排列能力優(yōu)先級，它的規(guī)劃器以端云一體的大模型為推理引擎，甚至具備閉環(huán)反思與自我糾錯(cuò)能力。

高德還提出了一個(gè)概念：Map as Memory。

傳統(tǒng)機(jī)器人往往只有局部感知，看到什么處理什么，視野之外的信息很快變成空白。高德的思路是，先給機(jī)器人一張持續(xù)存在的世界底圖，再把視覺、感知、動作嵌進(jìn)這張底圖里，實(shí)現(xiàn)像人類一樣，在更長、更穩(wěn)的空間記憶里做決策。

這個(gè)三層 ABot 體系，代表了高德想要建立的 “飛輪式” 具身技術(shù)路線：涵蓋數(shù)據(jù)、模型、應(yīng)用三層，彼此深度咬合、互為引擎，實(shí)現(xiàn) “數(shù)據(jù)驅(qū)動模型、模型服務(wù)應(yīng)用、應(yīng)用反哺數(shù)據(jù)”，克服數(shù)據(jù)稀缺、仿真鴻溝與技能泛化三大行業(yè)瓶頸，形成持續(xù)自我進(jìn)化的完整閉環(huán)。

空間智能：從導(dǎo)航到具身

把具身智能放到高德自身的發(fā)展脈絡(luò)里看，這并不算一次突兀的跨界。

如果說高德過去做的，是把世界描述清楚：路在哪里，店在哪里，擁堵怎么出現(xiàn)，用戶該怎么走，怎么更準(zhǔn)確地到達(dá)……具身則是把這件事再往前推一步：不僅描述世界，還要理解世界，并最終通過機(jī)器，在這個(gè)世界里自主行動。

去年，高德對外宣布 “AMAP-AI Inside” 戰(zhàn)略、將自身發(fā)展主題升格為 “空間智能”，導(dǎo)航不再只是靜態(tài)底圖和路線規(guī)劃工具，而是具備思考和推理能力的空間智能體。只是在當(dāng)時(shí)，這種智能體還主要存在于手機(jī)和車機(jī)里，如今則是第一次擁有了途途這個(gè)身體，開始真正走進(jìn)物理世界。

多年來，那些每天在高德地圖各終端發(fā)生的導(dǎo)航糾錯(cuò)、定位漂移、路況變化、入口偏差，還有規(guī)模化的行為驗(yàn)證與反饋，匯聚成高德對物理世界的理解。這是高德具身智能業(yè)務(wù)最深的護(hù)城河，也是其選擇的空間智能路線，想要貫徹的核心理念。

高德 CEO 郭寧說，空間智能對高德而言是 “終局”，并且不是高德選擇了空間智能，而是本身就長在了這片土壤之上。

這可能也是高德和很多具身創(chuàng)業(yè)公司最大的區(qū)別。后者通常是先做機(jī)器人，再想方設(shè)法補(bǔ)上一個(gè) “理解世界的大腦”；高德是先握著一套現(xiàn)實(shí)世界數(shù)據(jù)和空間理解體系，再決定讓機(jī)器人加入其中。

很顯然，高德確實(shí)站在了一個(gè)相對稀缺的起點(diǎn)上：它不是從零開始認(rèn)識世界的。

科技向善與通向 AGI

在采訪過程中，誠卿和徐牧都說，導(dǎo)盲場景是在仔細(xì)遴選后確定的。一方面是作為公益項(xiàng)目，填補(bǔ)導(dǎo)盲服務(wù)的巨大空缺、滿足視障者的強(qiáng)烈剛需。

中國有 1700 萬視障群體，而導(dǎo)盲犬僅有約 400 只，同時(shí)導(dǎo)盲犬訓(xùn)練周期長，成本高，也會受生物本能和環(huán)境干擾——它們是視障者的好幫手，但可能還不是最理想的答案。而高德途途，不僅符合專業(yè)導(dǎo)盲犬的極高標(biāo)準(zhǔn)，還沒有情緒波動、不會疲勞生病、服役周期長且能隨著算法迭代持續(xù)進(jìn)化。

另一方面，如前文中所提到，導(dǎo)盲可能是當(dāng)下具身智能最有挑戰(zhàn)的切入點(diǎn)。高德選擇了相對務(wù)實(shí)的做法。當(dāng)行業(yè)還在反復(fù)爭論什么才是最優(yōu)先的產(chǎn)品形態(tài)（四足、輪式、人形……）時(shí)，先找到了導(dǎo)這個(gè)具體場景，縱深探索。

四足機(jī)器人是不是終極答案？可能對于高德來說并不重要。ABot 技術(shù)棧將會適配各種機(jī)器人產(chǎn)品形態(tài)，只是對于導(dǎo)盲來說，四足已經(jīng)是一個(gè)足夠合適的載體：穩(wěn)定成熟，能夠承載導(dǎo)盲和開放環(huán)境導(dǎo)航，所要求的一整套能力驗(yàn)證。

途途并非又一款具身玩具。它更像高德首次嘗試將過去系統(tǒng)性的積累，完整交付給一具具體的 “身體”。

為 “人” 導(dǎo)航的智能沉淀，也正成為引導(dǎo) “機(jī)器人” 走進(jìn)現(xiàn)實(shí)世界的操作系統(tǒng)。

除了作為唱歌跳舞、情緒消費(fèi)的娛樂產(chǎn)品外，機(jī)器人或許真的可以進(jìn)一步融入現(xiàn)實(shí)世界，改善人們的生活，哪怕從局部微小的一點(diǎn)開始。

題圖來源：《銀翼殺手》

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.