![]()
“開放環(huán)境具身” 的高德答案。
文丨江思遠(yuǎn)
4 月,北京亦莊的一處紅綠燈路口,一只藍(lán)色的機(jī)器狗正在原地安靜等待。
綠燈亮起,機(jī)器狗邁步,通過身上牽引繩傳導(dǎo),提示身后的主人跟上——那是一位視障大學(xué)生。
這是高德四足具身機(jī)器人 “途途” 第一次公開上路。可能也是具身智能行業(yè),第一次用這樣的方式面對公眾——不是表演,不是展示,而是一場真實(shí)的導(dǎo)盲檢驗(yàn),只有真實(shí)的道路、人流,和身后的視障同伴。
![]()
機(jī)器導(dǎo)盲,很難嗎?
當(dāng)天,除了過紅綠燈,途途的腳步還引領(lǐng)著他的主人,完成了一系列挑戰(zhàn):規(guī)避動靜態(tài)障礙,連續(xù)繞行穿越狹窄通道;實(shí)時(shí)預(yù)判、靈活避讓突然出現(xiàn)的干擾;穿行密集人群,自主尋找補(bǔ)給站等。
近兩年來,對很多人來說,具身智能最典型的畫面發(fā)生在封閉空間,或者人工預(yù)設(shè)遙控的場景里:在屋里疊衣服,彎腰提起一個(gè)杯子;或者走到空地上,沿著預(yù)先安排好的路線,完成一段展示和表演。
但它們有一個(gè)共同前提。機(jī)器人所處的環(huán)境被事先周密地整理過,背景干凈、變量有限、任務(wù)邊界清晰,偶發(fā)因素被壓到了最低。
而 “導(dǎo)盲” 幾乎和上面所有 “可控要素” 背離:
在一個(gè)無限開放、持續(xù)變化的世界里,機(jī)器要同時(shí)判斷空間、障礙,以及每一步的風(fēng)險(xiǎn)。人會突然停下來、自行車會斜著穿過路口、盲道被占……還有低垂下來的樹枝、臺階、積水——所有這些時(shí)刻變動的要素,都不會提前打招呼。同封閉環(huán)境的 Demo 相比,這是完全不同的難度級別。
高德工作人員在接觸視障用戶和相關(guān)機(jī)構(gòu)之后,一個(gè)明顯的感受是:很多普通人默認(rèn)成立的通行條件,對視障者來說并不成立。普通人把 “到達(dá)” 理解為從 A 點(diǎn)到 B 點(diǎn);視障者面對的卻是另一套問題:這個(gè)路口能不能過?有什么?怎么過?安不安全?很多靠經(jīng)驗(yàn)和直覺就能完成的判斷,到了這里都變成了門檻。
對視障者來說,獨(dú)立出門是極其困難的一關(guān);其實(shí)對機(jī)器人來說,也是如此。 “走出家門” 意味著機(jī)器要有極高的開放環(huán)境導(dǎo)航能力,對物理空間有持續(xù)且深入的理解,同時(shí)和人的步速配合,理解人的指令,最后還要滿足近乎苛刻的安全標(biāo)準(zhǔn)——一旦失誤,可能危及用戶人身安全。
因此對具身行業(yè)來說,導(dǎo)盲不是一個(gè)偏門場景,而是把問題提得更尖銳了:行,還是不行?不會給任何容錯(cuò)空間,沒法靠后期剪輯回避問題,那些在實(shí)驗(yàn)室里還勉強(qiáng)能成立的 demo ,都會在現(xiàn)實(shí)世界露餡。
行業(yè)里早已不缺生產(chǎn)出來的機(jī)器人,越來越多人開始對各種漂亮 demo 發(fā)出疑問:它到底是在理解世界,還是只是在表演一套排練過很多遍的流程?
高德挑選了一個(gè)幾乎不允許出錯(cuò)的場景。就是想要驗(yàn)證:具身智能,到底能不能真正融入現(xiàn)實(shí)世界?
一條狗的使命:全自主走向開放世界
在我們和高德具身業(yè)務(wù)負(fù)責(zé)人誠卿、具身算法負(fù)責(zé)人徐牧的交流中,他們把目前具身智能面臨的問題概括為:數(shù)據(jù)缺乏、泛化能力不足,以及模型和產(chǎn)品之間的斷層。
這也是具身智能和語言智能最大的不同。語言模型可以靠互聯(lián)網(wǎng)語料快速擴(kuò)張能力邊界,哪怕有噪音和偏差,也能在海量試錯(cuò)中摸索出一些穩(wěn)定運(yùn)行的范式;具身智能則不同,機(jī)器人和世界打交道,需要對物體、空間、動作、時(shí)間、意圖之間的復(fù)雜交互關(guān)系有深刻理解,容錯(cuò)率更低,也更難標(biāo)準(zhǔn)化。
高德給 “途途” 的定義是 “開放環(huán)境全自主具身機(jī)器人”。其實(shí)拆開來看,重點(diǎn)不在 “具身機(jī)器人”,而在 “開放環(huán)境” 和 “全自主”。前者意味著它面對的并非一個(gè)被規(guī)劃好的空間,后者意味著它不能依賴遙控和預(yù)設(shè)路線。這兩個(gè)詞,差不多劃出了和行業(yè)內(nèi)多數(shù)產(chǎn)品的的邊界。
根據(jù)高德官方的表述,途途有三層遞進(jìn)的能力:能出門、會思考、會導(dǎo)盲(即能干活)。從整個(gè)行業(yè)來看,過去并沒有具身產(chǎn)品能夠同時(shí)做到這三點(diǎn)。
“能出門” 不只是能邁開腿走路。今天很多機(jī)器人已經(jīng)能在室內(nèi)環(huán)境里完成導(dǎo)航,也能在小范圍內(nèi)避障;但只要走到開放環(huán)境中,各種突發(fā)隨機(jī)要素會讓一套在實(shí)驗(yàn)室控制下的流暢系統(tǒng),迅速崩潰。
而地圖導(dǎo)航一直以來長期處理的,正是 “開放” 問題:這種能力需要海量豐富、多元、精準(zhǔn)的物理世界動靜態(tài)數(shù)據(jù)和解析能力支撐,平時(shí)不太會被當(dāng)作前沿技術(shù)談?wù)摚坏┍环诺骄呱韴鼍袄铮闹匾跃屯癸@出來——機(jī)器人要能出門,它需要應(yīng)對真實(shí)開放世界的各種突發(fā)狀況,更加精準(zhǔn)無誤地抵達(dá)目的地。
“會思考” 則是更高一維度的能力。如今的很多具身系統(tǒng),更像一種被觸發(fā)的執(zhí)行器:收到命令,完成動作,任務(wù)隨之立刻結(jié)束。它們能做的事確實(shí)越來越多,但很少真的像在 “理解” 一個(gè)場景。
高德認(rèn)為機(jī)器人在動作之前,需要先對環(huán)境、空間和用戶意圖形成一個(gè)判斷。例如用戶對機(jī)器人說 “我渴了”,那么機(jī)器人能意識到其背后的言外之意,這是一個(gè)待完成的真實(shí)需求:去哪里買水?如何規(guī)劃路線?先嘗試什么?如果失敗了怎么辦……這些問題需要成為思考鏈路的一部分。
這種鏈路和第三層 “能導(dǎo)盲” 緊密銜接。而 “導(dǎo)盲” 這一極高難度場景背后對應(yīng)的,則是具身機(jī)器人在執(zhí)行通用泛化任務(wù)方面的超高要求。
很多機(jī)器人都愛秀單項(xiàng)能力,因?yàn)檫@樣最直觀,也最容易做出效果。但用戶需要的從來不是單項(xiàng)能力,而是一整個(gè)連貫操作:從接受一個(gè)不那么精確描述的需求開始,到在環(huán)境變化中不斷修正路徑和動作,直到最后把目標(biāo)完成。
這和現(xiàn)實(shí)世界里人的決策類似,任務(wù)幾乎從來不是一次性完成的,它總帶著偏差、意外和中途變化。
如果說 “能出門” 解決的是移動能力,“會思考” 解決的是認(rèn)知水平,那么 “能導(dǎo)盲” 就代表更廣泛的產(chǎn)品場景落地。只有這三點(diǎn)成立,機(jī)器人才有可能從封閉場景里的展示品,變成現(xiàn)實(shí)生活中的實(shí)用助手。
三位一體,全棧具身智能體系
如果只把途途理解成 “另一個(gè)機(jī)器人產(chǎn)品”,很容易低估高德做具身智能的決心。
高德真正想展示的并不只是硬件,而是一整套把地圖導(dǎo)航能力、空間環(huán)境數(shù)據(jù)和機(jī)械執(zhí)行操作連接起來的全棧具身技術(shù)架構(gòu)——無論場景和本體形態(tài)如何變幻,其背后的架構(gòu)應(yīng)該是統(tǒng)一的。
根據(jù)他們對晚點(diǎn)的介紹,支撐途途的是一套名為 “ABot” 的完整具身技術(shù)架構(gòu),大體分成三層:數(shù)據(jù)與世界模型層、模型與 skill 層、Agent 操作系統(tǒng)層。
其中,數(shù)據(jù)是高德沉淀更深、優(yōu)勢更明顯的地方。多年來,高德積累了大量物理世界數(shù)據(jù):道路、路口、建筑、交通流等素材,以及在地圖服務(wù)中積累的各類異常反饋與糾錯(cuò)數(shù)據(jù)。這些多源數(shù)據(jù)最終融合衍生出一個(gè)足夠復(fù)雜、也更接近真實(shí)世界的訓(xùn)練底座——ABot-World。
作為一套可交互的世界模型,ABot-World 不僅能讓模型學(xué)到幾何軌跡,還能理解各種復(fù)雜的物理環(huán)境語義,比如 “前方是人行橫道”,或者 “左側(cè) 50 米是停車場出口”,從而成為了接近物理世界的訓(xùn)練環(huán)境,機(jī)器人可以在里面反復(fù)練習(xí)。
最近在 PBench、EZSbench、WorldArena、Agibot World Challenge 等主流評測中,ABot-World 均已實(shí)現(xiàn)登頂。
第二層是模型層。以 ABot-NO 與 ABot-M0 為核心,其中 ABot-N0 是導(dǎo)航基座模型,解決的是開放環(huán)境里的移動問題;ABot-M0 則更偏向操作與執(zhí)行。它們在各種評測中同樣取得了 SOTA (state-of-the-art)的表現(xiàn)。
在這一層里,不同模型被視為 Skill,導(dǎo)航、移動、操作等技能模塊:一個(gè)機(jī)器人從接受用戶指令,到導(dǎo)航行走,再到進(jìn)入室內(nèi)找到目標(biāo)位置,這個(gè)過程理應(yīng)是多種技能需求的混合。
再往上,是名為 ABot-Claw 的 Agent 操作系統(tǒng)層,也是整這套技術(shù)架構(gòu)實(shí)與物理世界交互的關(guān)鍵。
模型能力再強(qiáng),如果缺少一個(gè)中樞把意圖理解、空間記憶、任務(wù)拆解、工具調(diào)用、執(zhí)行監(jiān)控和糾錯(cuò)重規(guī)劃串聯(lián)起來,系統(tǒng)依舊只能停留在 “有勁使不出” 的階段。ABot-Claw 就可以持續(xù)組織信息、排列能力優(yōu)先級,它的規(guī)劃器以端云一體的大模型為推理引擎,甚至具備閉環(huán)反思與自我糾錯(cuò)能力。
高德還提出了一個(gè)概念:Map as Memory。
傳統(tǒng)機(jī)器人往往只有局部感知,看到什么處理什么,視野之外的信息很快變成空白。高德的思路是,先給機(jī)器人一張持續(xù)存在的世界底圖,再把視覺、感知、動作嵌進(jìn)這張底圖里,實(shí)現(xiàn)像人類一樣,在更長、更穩(wěn)的空間記憶里做決策。
這個(gè)三層 ABot 體系,代表了高德想要建立的 “飛輪式” 具身技術(shù)路線:涵蓋數(shù)據(jù)、模型、應(yīng)用三層,彼此深度咬合、互為引擎,實(shí)現(xiàn) “數(shù)據(jù)驅(qū)動模型、模型服務(wù)應(yīng)用、應(yīng)用反哺數(shù)據(jù)”,克服數(shù)據(jù)稀缺、仿真鴻溝與技能泛化三大行業(yè)瓶頸,形成持續(xù)自我進(jìn)化的完整閉環(huán)。
空間智能:從導(dǎo)航到具身
把具身智能放到高德自身的發(fā)展脈絡(luò)里看,這并不算一次突兀的跨界。
如果說高德過去做的,是把世界描述清楚:路在哪里,店在哪里,擁堵怎么出現(xiàn),用戶該怎么走,怎么更準(zhǔn)確地到達(dá)……具身則是把這件事再往前推一步:不僅描述世界,還要理解世界,并最終通過機(jī)器,在這個(gè)世界里自主行動。
去年,高德對外宣布 “AMAP-AI Inside” 戰(zhàn)略、將自身發(fā)展主題升格為 “空間智能”,導(dǎo)航不再只是靜態(tài)底圖和路線規(guī)劃工具,而是具備思考和推理能力的空間智能體。只是在當(dāng)時(shí),這種智能體還主要存在于手機(jī)和車機(jī)里,如今則是第一次擁有了途途這個(gè)身體,開始真正走進(jìn)物理世界。
多年來,那些每天在高德地圖各終端發(fā)生的導(dǎo)航糾錯(cuò)、定位漂移、路況變化、入口偏差,還有規(guī)模化的行為驗(yàn)證與反饋,匯聚成高德對物理世界的理解。這是高德具身智能業(yè)務(wù)最深的護(hù)城河,也是其選擇的空間智能路線,想要貫徹的核心理念。
高德 CEO 郭寧說,空間智能對高德而言是 “終局”,并且不是高德選擇了空間智能,而是本身就長在了這片土壤之上。
這可能也是高德和很多具身創(chuàng)業(yè)公司最大的區(qū)別。后者通常是先做機(jī)器人,再想方設(shè)法補(bǔ)上一個(gè) “理解世界的大腦”;高德是先握著一套現(xiàn)實(shí)世界數(shù)據(jù)和空間理解體系,再決定讓機(jī)器人加入其中。
很顯然,高德確實(shí)站在了一個(gè)相對稀缺的起點(diǎn)上:它不是從零開始認(rèn)識世界的。
科技向善與通向 AGI
在采訪過程中,誠卿和徐牧都說,導(dǎo)盲場景是在仔細(xì)遴選后確定的。一方面是作為公益項(xiàng)目,填補(bǔ)導(dǎo)盲服務(wù)的巨大空缺、滿足視障者的強(qiáng)烈剛需。
中國有 1700 萬視障群體,而導(dǎo)盲犬僅有約 400 只,同時(shí)導(dǎo)盲犬訓(xùn)練周期長,成本高,也會受生物本能和環(huán)境干擾——它們是視障者的好幫手,但可能還不是最理想的答案。而高德途途,不僅符合專業(yè)導(dǎo)盲犬的極高標(biāo)準(zhǔn),還沒有情緒波動、不會疲勞生病、服役周期長且能隨著算法迭代持續(xù)進(jìn)化。
另一方面,如前文中所提到,導(dǎo)盲可能是當(dāng)下具身智能最有挑戰(zhàn)的切入點(diǎn)。高德選擇了相對務(wù)實(shí)的做法。當(dāng)行業(yè)還在反復(fù)爭論什么才是最優(yōu)先的產(chǎn)品形態(tài)(四足、輪式、人形……)時(shí),先找到了導(dǎo)這個(gè)具體場景,縱深探索。
四足機(jī)器人是不是終極答案?可能對于高德來說并不重要。ABot 技術(shù)棧將會適配各種機(jī)器人產(chǎn)品形態(tài),只是對于導(dǎo)盲來說,四足已經(jīng)是一個(gè)足夠合適的載體:穩(wěn)定成熟,能夠承載導(dǎo)盲和開放環(huán)境導(dǎo)航,所要求的一整套能力驗(yàn)證。
途途并非又一款具身玩具。它更像高德首次嘗試將過去系統(tǒng)性的積累,完整交付給一具具體的 “身體”。
為 “人” 導(dǎo)航的智能沉淀,也正成為引導(dǎo) “機(jī)器人” 走進(jìn)現(xiàn)實(shí)世界的操作系統(tǒng)。
除了作為唱歌跳舞、情緒消費(fèi)的娛樂產(chǎn)品外,機(jī)器人或許真的可以進(jìn)一步融入現(xiàn)實(shí)世界,改善人們的生活,哪怕從局部微小的一點(diǎn)開始。
題圖來源:《銀翼殺手》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.