【億邦原創(chuàng)】今年,具身智能賽道的融資和技術(shù)都指向同一個(gè)關(guān)鍵詞——“數(shù)據(jù)”。簡(jiǎn)單地說,要讓機(jī)器人學(xué)會(huì)打掃衛(wèi)生整理房間,必須有關(guān)于打掃衛(wèi)生整理房間的數(shù)據(jù),讓機(jī)器人去學(xué)習(xí)。所以,數(shù)據(jù)驅(qū)動(dòng),是具身智能通往GTP時(shí)刻的核心路徑。
那么,具身智能需要什么樣的數(shù)據(jù)?
大致可分為三層:第一層是互聯(lián)網(wǎng)上的各種視頻,尤其是人類第一視角開放場(chǎng)景的數(shù)據(jù);第二層是特定場(chǎng)景、任務(wù)下人類第一視角實(shí)操作業(yè)數(shù)據(jù);第三層是機(jī)器人本體自主或者由人類遙操執(zhí)行任務(wù)的數(shù)據(jù)。三層數(shù)據(jù)金字塔,自下而上數(shù)據(jù)量越來(lái)越小,同時(shí)采集的難度和成本也越來(lái)越大。
當(dāng)下,數(shù)據(jù)采集已成為制約具身智能發(fā)展的瓶頸:高質(zhì)量、真實(shí)交互數(shù)據(jù)的不足,硬件標(biāo)準(zhǔn)不一、數(shù)據(jù)采集流程分散、標(biāo)注與訓(xùn)練環(huán)節(jié)割裂,數(shù)據(jù)孤島現(xiàn)象突出,采集到的數(shù)據(jù)雜亂、非標(biāo),難以直接用于模型訓(xùn)練,更無(wú)法合規(guī)流通交易。
針對(duì)這一難題,京東推出全鏈路具身智能數(shù)據(jù)基礎(chǔ)設(shè)施,打通從數(shù)據(jù)采集到模型測(cè)試的全流程閉環(huán),將原始雜亂數(shù)據(jù)精煉為驅(qū)動(dòng)模型進(jìn)化的高價(jià)值“數(shù)據(jù)燃料”。
數(shù)據(jù)采集環(huán)節(jié),京東云自研的可穿戴式超高清采集終端JoyEgoCam,可在物流、零售、醫(yī)療、家庭等多種場(chǎng)景下“即戴即采”,讓快遞員、保潔員、理貨員一邊工作一邊完成專業(yè)級(jí)數(shù)據(jù)采集。
![]()
據(jù)悉,在清晰度方面,JoyEgoCam配備4K高清攝像頭,支持60幀幀率與130度超廣角拍攝,可實(shí)現(xiàn)毫秒級(jí)動(dòng)作細(xì)節(jié)捕捉,精準(zhǔn)記錄各類場(chǎng)景下的細(xì)微操作;在精準(zhǔn)度方面,重投影誤差小于0.2像素,搭配京東云自研立體校正技術(shù),能夠真實(shí)還原操作現(xiàn)場(chǎng)的空間立體感;在便攜性方面,整機(jī)僅重220克,輕于普通智能手機(jī),佩戴舒適;在穩(wěn)定性方面,內(nèi)置車規(guī)級(jí)6軸IMU與多傳感器融合單元,即使在極端抖動(dòng)場(chǎng)景下也能穩(wěn)定追蹤拍攝。
誰(shuí)來(lái)采集數(shù)據(jù)?京東利用其豐富業(yè)務(wù)場(chǎng)景的優(yōu)勢(shì),發(fā)動(dòng)內(nèi)部超過10萬(wàn)名各類職業(yè)員工,以及外部最多50萬(wàn)各行業(yè)人員,其中在宿遷就將發(fā)動(dòng)超10萬(wàn)市民參與,覆蓋家庭、辦公室、工廠到物流、商店、餐廳、醫(yī)療、環(huán)衛(wèi)等超百個(gè)細(xì)分場(chǎng)景,遍布人類真實(shí)活動(dòng)的方方面面,開展“人類歷史上規(guī)模最大的數(shù)據(jù)采集行動(dòng)”。
![]()
根據(jù)規(guī)劃,京東將在首年完成500萬(wàn)小時(shí)人類活動(dòng)視頻數(shù)據(jù)采集,兩年內(nèi)突破1000萬(wàn)小時(shí),同時(shí)積累100萬(wàn)小時(shí)機(jī)器人本體運(yùn)行數(shù)據(jù)。這一數(shù)據(jù)規(guī)模將使其成為全球最大的具身智能數(shù)據(jù)服務(wù)商。
數(shù)據(jù)經(jīng)采集后,進(jìn)入上傳和加工階段。京東云通過任務(wù)、人員、設(shè)備全流程可視化管理與SaaS化部署,實(shí)現(xiàn)視頻一鍵上云。數(shù)據(jù)匯入AI數(shù)據(jù)湖平臺(tái)后,自動(dòng)完成清洗、對(duì)齊、轉(zhuǎn)換與預(yù)標(biāo)注,轉(zhuǎn)為標(biāo)準(zhǔn)訓(xùn)練集。JoyBuilder仿真平臺(tái)批量生成高逼真仿真數(shù)據(jù),從而實(shí)現(xiàn)人類操作數(shù)據(jù)→仿真操作數(shù)據(jù)→真機(jī)操作數(shù)據(jù)的高效數(shù)據(jù)增值轉(zhuǎn)換與泛化擴(kuò)增。
治理后的數(shù)據(jù)匯聚至JoyBuilder模型開發(fā)平臺(tái),數(shù)據(jù)“開箱即訓(xùn)”、模型“一鍵部署”,模型訓(xùn)練效率提升3.5倍,大幅降低VLA大模型研發(fā)門檻。其自研AI算子矩陣貫穿始終,涵蓋去畸變、語(yǔ)義描述、深度重建等關(guān)鍵環(huán)節(jié),精煉高價(jià)值訓(xùn)練素材。目前,京東日處理數(shù)據(jù)量已達(dá)數(shù)十萬(wàn)條,數(shù)據(jù)有效率高達(dá)95%,整體處理成本降低60%。
可見,依托全鏈路基礎(chǔ)設(shè)施,京東構(gòu)建起“數(shù)據(jù)采集-模型訓(xùn)練-數(shù)據(jù)優(yōu)化”的生態(tài)閉環(huán)。以自采數(shù)據(jù)為核心訓(xùn)練的京東具身大模型JoyAI-RA,在真機(jī)實(shí)驗(yàn)上成功率達(dá)到73.5%,超過pi0.5等SOTA模型。
此外,京東上線了具身智能數(shù)據(jù)交易平臺(tái),匯聚京東豐富業(yè)務(wù)場(chǎng)景下的多模態(tài)數(shù)據(jù)資源,支持?jǐn)?shù)據(jù)方、開發(fā)者、應(yīng)用方多方協(xié)同,打通具身智能數(shù)據(jù)合規(guī)交易通道。平臺(tái)首批定向開放2000小時(shí)高精標(biāo)注數(shù)據(jù)集。
可見,京東正構(gòu)建起“硬件采集-數(shù)據(jù)處理-模型訓(xùn)練-仿真測(cè)試-合規(guī)交易-生態(tài)共建”的完整產(chǎn)業(yè)鏈條,推動(dòng)具身智能從實(shí)驗(yàn)室研發(fā)邁向規(guī)模化商業(yè)落地,形成“具身智能超級(jí)供應(yīng)鏈”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.