網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

北京AI研究院：機(jī)器人實(shí)現(xiàn)視頻動(dòng)作學(xué)習(xí)完成復(fù)雜任務(wù)能力提升

2026-05-07 20:56:07　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由北京人工智能研究院（BAAI）主導(dǎo)完成的研究，以預(yù)印本形式于2026年4月30日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.27711。研究成果被命名為"ExoActor"，代表著一種讓人形機(jī)器人無(wú)需收集真實(shí)世界操作數(shù)據(jù)，僅憑"想象執(zhí)行視頻"就能完成各類(lèi)復(fù)雜任務(wù)的全新框架。

你有沒(méi)有想過(guò)，如果一個(gè)人從來(lái)沒(méi)有練習(xí)過(guò)某個(gè)動(dòng)作，只是看了一段別人做這個(gè)動(dòng)作的視頻，他能不能就此學(xué)會(huì)并親自完成？這個(gè)問(wèn)題對(duì)人類(lèi)來(lái)說(shuō)有些勉強(qiáng)，但對(duì)機(jī)器人領(lǐng)域的研究者來(lái)說(shuō)，恰恰觸及了當(dāng)前一個(gè)最核心的難題：如何讓人形機(jī)器人在沒(méi)有大量專項(xiàng)訓(xùn)練數(shù)據(jù)的情況下，照樣完成各式各樣復(fù)雜的現(xiàn)實(shí)任務(wù)？

過(guò)去幾年，人形機(jī)器人技術(shù)飛速發(fā)展，各類(lèi)學(xué)習(xí)型控制系統(tǒng)層出不窮。然而，當(dāng)研究者真正希望機(jī)器人能在真實(shí)家庭或工作環(huán)境中與物體、環(huán)境流暢互動(dòng)時(shí)，障礙就出現(xiàn)了——要同時(shí)理解空間位置、動(dòng)作時(shí)序、任務(wù)意圖，還要能隨機(jī)應(yīng)變，對(duì)現(xiàn)有系統(tǒng)來(lái)說(shuō)實(shí)在太難了。更麻煩的是，每換一個(gè)場(chǎng)景或任務(wù)，就需要重新收集大量真實(shí)數(shù)據(jù)來(lái)"補(bǔ)課"，代價(jià)極高，效率極低。

北京人工智能研究院的團(tuán)隊(duì)給出了一個(gè)思路清奇的解法：既然大規(guī)模視頻生成模型已經(jīng)能夠根據(jù)文字描述，生成非常逼真的人類(lèi)活動(dòng)視頻，那何不讓機(jī)器人先"想象"自己如何完成一項(xiàng)任務(wù)——生成一段對(duì)應(yīng)的第三人稱視角視頻，然后再?gòu)倪@段視頻里提取動(dòng)作信息，最終驅(qū)動(dòng)機(jī)器人真正去完成這個(gè)任務(wù)？

這套系統(tǒng)的核心概念，就像是給機(jī)器人裝上了一個(gè)"腦海中的排練室"。在真正上場(chǎng)之前，機(jī)器人先在腦子里把整個(gè)動(dòng)作流程演練一遍，把演練畫(huà)面"拍"成視頻，再把視頻里的人體動(dòng)作解析成機(jī)器人能直接執(zhí)行的運(yùn)動(dòng)指令。整個(gè)過(guò)程不依賴任何任務(wù)專屬的真實(shí)操作數(shù)據(jù)，完全由生成式AI的想象力驅(qū)動(dòng)，由通用運(yùn)動(dòng)控制器負(fù)責(zé)落地執(zhí)行。

一、從"想象"到"行動(dòng)"：ExoActor的三步走流程

要理解ExoActor如何運(yùn)作，可以把整個(gè)系統(tǒng)比作一位專業(yè)導(dǎo)演在拍攝一部動(dòng)作短片的過(guò)程。導(dǎo)演拿到劇本（任務(wù)指令），先觀察一下拍攝現(xiàn)場(chǎng)（初始場(chǎng)景圖像），接著創(chuàng)作出一段完整的動(dòng)作視頻（視頻生成階段），然后把視頻里演員的每一個(gè)動(dòng)作都精確測(cè)量記錄下來(lái)（動(dòng)作估計(jì)階段），最后把這些測(cè)量數(shù)據(jù)交給真正的演員——也就是機(jī)器人——去現(xiàn)場(chǎng)還原（運(yùn)動(dòng)執(zhí)行階段）。

第一步是生成視頻，這是整個(gè)框架最具創(chuàng)意的部分。給定一個(gè)任務(wù)描述和當(dāng)前場(chǎng)景的第三人稱圖像，系統(tǒng)需要生成一段展示任務(wù)執(zhí)行過(guò)程的視頻。然而，直接讓視頻生成模型去生成機(jī)器人完成任務(wù)的畫(huà)面，往往會(huì)出現(xiàn)大量奇怪的偽影——機(jī)器人的身體變形、動(dòng)作斷斷續(xù)續(xù)、畫(huà)面前后不連貫——因?yàn)檫@類(lèi)模型幾乎所有的訓(xùn)練數(shù)據(jù)都是真實(shí)人類(lèi)的活動(dòng)畫(huà)面，對(duì)機(jī)器人外形完全不熟悉。

為了解決這個(gè)"語(yǔ)言不通"的問(wèn)題，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的預(yù)處理步驟：把場(chǎng)景圖像里的機(jī)器人，先用AI圖像編輯工具"偽裝"成一個(gè)真人。這位"替身演員"穿著緊身運(yùn)動(dòng)服，保持機(jī)器人原本的姿勢(shì)、位置和面朝方向，身體比例也特意參照了機(jī)器人的特征——身形較矮，腰部纖細(xì)，四肢修長(zhǎng)。整個(gè)場(chǎng)景的背景、光線、擺設(shè)一律保持原樣不變，只是把金屬機(jī)器人換成了看起來(lái)像真人的圖像。這個(gè)過(guò)程通過(guò)Gemini 3.1 Pro的圖像編輯功能完成，提示詞中嚴(yán)格要求保持姿勢(shì)一致性。

完成"機(jī)器人變?nèi)?的替換之后，系統(tǒng)還需要把高層次的任務(wù)指令分解成一系列具體可執(zhí)行的中間步驟。舉個(gè)例子，"把你面前的棕色箱子撿起來(lái)然后站直"這樣的指令，會(huì)被GPT-5.4 Thinking分解為：走近箱子、彎腰、抓住箱子、抬起箱子、恢復(fù)站立姿勢(shì)——每一個(gè)步驟都是肉眼可見(jiàn)、物理上可實(shí)現(xiàn)的獨(dú)立動(dòng)作。這些分解后的步驟結(jié)合場(chǎng)景描述，構(gòu)成一段詳盡的視頻生成提示詞，明確指定了攝像機(jī)視角固定、場(chǎng)景不變、動(dòng)作自然連貫、任務(wù)完成狀態(tài)清晰等要求。視頻生成則主要采用了Kling 3，這是一款在穩(wěn)定性和視覺(jué)一致性方面表現(xiàn)最優(yōu)的商用視頻生成API，對(duì)比測(cè)試中另外兩款模型Veo 3.1和Wan 2.6都因運(yùn)動(dòng)漂移、物體交互不自然等問(wèn)題而表現(xiàn)遜色。

第二步是從生成的視頻里提取動(dòng)作數(shù)據(jù)。這一步相當(dāng)于把視頻里那位"替身演員"的每一幀動(dòng)作都精確掃描成三維數(shù)字模型，然后記錄下完整的運(yùn)動(dòng)軌跡。技術(shù)上，團(tuán)隊(duì)使用了GENMO這一擴(kuò)散模型，它不是簡(jiǎn)單地逐幀預(yù)測(cè)姿勢(shì)，而是把整段視頻的特征和二維關(guān)鍵點(diǎn)作為條件信號(hào)，生成在時(shí)間上連貫、物理上合理的三維人體運(yùn)動(dòng)序列，并用SMPL人體模型參數(shù)（包括各關(guān)節(jié)旋轉(zhuǎn)角度和全局位置）來(lái)表示。對(duì)于視頻中遮擋幀，模型還會(huì)自動(dòng)進(jìn)行時(shí)間插值填補(bǔ)，確保運(yùn)動(dòng)軌跡平滑。

僅有全身動(dòng)作還不夠，機(jī)器人要拿起和放下物體，還需要精確的手部動(dòng)作數(shù)據(jù)。團(tuán)隊(duì)額外使用了WiLoR這一工具，對(duì)生成視頻逐幀分析，恢復(fù)雙手的三維姿態(tài)。每幀視頻產(chǎn)生一組手部數(shù)據(jù)，包括左右手各自的姿勢(shì)描述，以及對(duì)應(yīng)的交互狀態(tài)：完全張開(kāi)、半張開(kāi)還是握緊。這個(gè)信息隨后被轉(zhuǎn)化為機(jī)器人末端執(zhí)行器（即機(jī)械手）的控制指令。值得一提的是，針對(duì)鏡頭里人物正面朝向攝像機(jī)還是背對(duì)攝像機(jī)這兩種情況，手部左右的識(shí)別邏輯是不同的，這樣設(shè)計(jì)是為了避免"左右手認(rèn)錯(cuò)"的問(wèn)題。

第三步是讓機(jī)器人真正去執(zhí)行這些提取出來(lái)的動(dòng)作。這里的難點(diǎn)在于，從視頻中估計(jì)出的運(yùn)動(dòng)軌跡只是一堆幾何數(shù)據(jù)，并不包含力的信息——它不知道機(jī)器人的關(guān)節(jié)最大能轉(zhuǎn)多少度，也不知道保持平衡需要怎樣協(xié)調(diào)重心。團(tuán)隊(duì)采用了SONIC這一通用運(yùn)動(dòng)跟蹤控制器來(lái)解決這個(gè)問(wèn)題。SONIC的作用，類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的"動(dòng)作翻譯官"：它接收參考運(yùn)動(dòng)軌跡，同時(shí)感知機(jī)器人當(dāng)前的身體狀態(tài)，在滿足物理約束的前提下，盡可能忠實(shí)地還原參考動(dòng)作。即使參考軌跡里有一些不太自然的跳躍或抖動(dòng)，SONIC也能在不讓機(jī)器人失去平衡的情況下穩(wěn)定執(zhí)行。團(tuán)隊(duì)經(jīng)過(guò)測(cè)試發(fā)現(xiàn)，在視頻估計(jì)動(dòng)作和真實(shí)機(jī)器人執(zhí)行之間加入額外的動(dòng)作重定向步驟（即嘗試將人體比例的動(dòng)作精確地映射到機(jī)器人骨架比例上），反而會(huì)帶來(lái)明顯的空間偏差——機(jī)器人走路步幅變了，整體軌跡也偏了。于是最終方案是直接把估計(jì)動(dòng)作喂給SONIC，讓SONIC自行處理細(xì)節(jié)，這樣在精度上反而更好。

二、不同難度關(guān)卡的實(shí)戰(zhàn)檢驗(yàn)

為了驗(yàn)證ExoActor的實(shí)際能力，研究團(tuán)隊(duì)專門(mén)設(shè)計(jì)了一套由易到難的任務(wù)體系，分為B級(jí)（簡(jiǎn)單）、A級(jí)（中等）和S級(jí)（困難）三個(gè)難度檔。這套體系就像游戲里的關(guān)卡設(shè)計(jì)，每升一級(jí)，機(jī)器人需要處理的交互復(fù)雜度就會(huì)顯著提升。

B級(jí)任務(wù)主要考驗(yàn)基礎(chǔ)導(dǎo)航能力，機(jī)器人只需要走到指定地點(diǎn)或繞開(kāi)簡(jiǎn)單障礙，比如"走到白色桌子前面的籃子旁邊停下"，或者"從椅子左側(cè)繞出去"。這類(lèi)任務(wù)的核心是檢驗(yàn)系統(tǒng)能否把生成視頻里的行走軌跡準(zhǔn)確轉(zhuǎn)化為穩(wěn)定的機(jī)器人步行動(dòng)作，同時(shí)準(zhǔn)確到達(dá)目標(biāo)位置。實(shí)驗(yàn)結(jié)果表明，機(jī)器人在這類(lèi)任務(wù)上表現(xiàn)穩(wěn)定，可以可靠地向目標(biāo)物體靠近并完成定位。

A級(jí)任務(wù)在導(dǎo)航基礎(chǔ)上增加了粗粒度的物體交互，不要求精確的抓握，但需要協(xié)調(diào)全身動(dòng)作。團(tuán)隊(duì)測(cè)試了多種場(chǎng)景，包括把桌上的瓶子撥到垃圾桶里、走到椅子旁坐下、彎腰撿起箱子然后站起來(lái)、低頭鉆過(guò)警戒線、跨過(guò)障礙物，以及用布擦桌子等。這些任務(wù)要求機(jī)器人把行走和全身動(dòng)作協(xié)調(diào)起來(lái)，同時(shí)與周?chē)矬w或環(huán)境發(fā)生有意義的接觸。系統(tǒng)在這個(gè)難度檔展示出了一定的多步行為執(zhí)行能力，體現(xiàn)了視頻生成中對(duì)長(zhǎng)時(shí)程交互場(chǎng)景的理解和表達(dá)。

S級(jí)任務(wù)是整個(gè)框架面臨的最大挑戰(zhàn)，需要精細(xì)操控和多步驟的手眼協(xié)調(diào)。具體任務(wù)包括：從黑色椅子上撿起綠色瓶子并豎立放到桌上、從白色架子上拿起黑色雨傘放入桌上的籃子、把瓶子豎直放入籃子、從桌上拿起瓶子扔進(jìn)垃圾桶等。這些任務(wù)既要走到合適位置，又要用手精確地抓住特定物體并準(zhǔn)確放置。實(shí)驗(yàn)中，機(jī)器人總體上能完成這類(lèi)任務(wù)，但存在一個(gè)明顯的局限：由于運(yùn)動(dòng)估計(jì)對(duì)手部高度的判斷存在誤差，機(jī)器人有時(shí)無(wú)法準(zhǔn)確地抓到目標(biāo)物體。團(tuán)隊(duì)為此采取了一個(gè)權(quán)宜之計(jì)，在目標(biāo)物體下方墊上小支撐臺(tái)，讓物體稍微抬高一些，以補(bǔ)償這個(gè)高度偏差。

三、哪些環(huán)節(jié)容易出問(wèn)題

任何系統(tǒng)都不可能完美無(wú)缺，ExoActor也不例外。研究團(tuán)隊(duì)非常坦誠(chéng)地記錄了系統(tǒng)在三個(gè)主要階段分別可能出現(xiàn)的典型失敗案例。

視頻生成階段，最常見(jiàn)的問(wèn)題是模型"發(fā)揮過(guò)度"——它會(huì)憑空生成原本不存在的物體，或者讓原有物體的尺寸發(fā)生離譜的變化。論文中舉了一個(gè)具體例子：原本場(chǎng)景里只有一把小雨傘，視頻生成模型卻把它想象成了一把大雨傘，導(dǎo)致后續(xù)動(dòng)作估計(jì)和執(zhí)行都出現(xiàn)嚴(yán)重偏差。除此之外，動(dòng)作序列前后邏輯矛盾、場(chǎng)景配置不合常理、最終姿態(tài)物理上根本站不住等問(wèn)題也時(shí)有發(fā)生。團(tuán)隊(duì)發(fā)現(xiàn)，精心設(shè)計(jì)提示詞結(jié)構(gòu)和對(duì)任務(wù)進(jìn)行步驟分解，可以顯著降低這類(lèi)問(wèn)題的出現(xiàn)頻率。

運(yùn)動(dòng)估計(jì)階段，最突出的痛點(diǎn)是手部動(dòng)作細(xì)節(jié)的準(zhǔn)確性。當(dāng)手應(yīng)該保持某種特定方向抓握物體時(shí)——比如豎握一個(gè)瓶子——估計(jì)結(jié)果往往給出一個(gè)橫向的腕部朝向。這是因?yàn)樵趩文恳曨l（只有一個(gè)攝像機(jī)視角，沒(méi)有深度信息）中，細(xì)微的腕部旋轉(zhuǎn)提供的視覺(jué)線索非常微弱，模型難以準(zhǔn)確還原。此外，當(dāng)視頻里人物的某些身體部位被桌子、椅子等場(chǎng)景物體遮擋時(shí)，對(duì)應(yīng)的三維運(yùn)動(dòng)估計(jì)就會(huì)出現(xiàn)缺失或錯(cuò)誤。從后方視角拍攝的場(chǎng)景也會(huì)讓估計(jì)精度明顯下降，因?yàn)楸硨?duì)攝像機(jī)時(shí)的自我遮擋問(wèn)題尤為嚴(yán)重。

執(zhí)行階段，誤差主要來(lái)自運(yùn)動(dòng)數(shù)據(jù)與機(jī)器人物理約束之間的不匹配。最常見(jiàn)的表現(xiàn)就是手部高度對(duì)不準(zhǔn)——機(jī)器人伸手的位置略高或略低，無(wú)法正確接觸目標(biāo)物體。此外在需要精確走到特定位置的任務(wù)中，運(yùn)動(dòng)距離的偏差也會(huì)影響任務(wù)完成。這些問(wèn)題在需要精準(zhǔn)接觸或抓握的S級(jí)任務(wù)中尤為明顯。

四、系統(tǒng)運(yùn)行效率的真實(shí)情況

ExoActor目前是一套離線流水線系統(tǒng)，也就是說(shuō)，機(jī)器人在開(kāi)始實(shí)際行動(dòng)之前，需要等所有上游處理步驟全部完成。研究團(tuán)隊(duì)對(duì)每個(gè)模塊的平均耗時(shí)進(jìn)行了詳細(xì)測(cè)量，呈現(xiàn)了一張非常直觀的數(shù)據(jù)圖景。

機(jī)器人變?nèi)说膱D像轉(zhuǎn)換步驟，每次請(qǐng)求平均需要約10.7秒。任務(wù)分解和提示詞構(gòu)建則非?？?，每次請(qǐng)求僅需約2.5秒。視頻生成是整個(gè)流程中最耗時(shí)的瓶頸環(huán)節(jié)，每生成1秒鐘的視頻需要花費(fèi)約13.2秒的處理時(shí)間，也就是說(shuō)生成一段10秒的行動(dòng)視頻大約需要2分多鐘。全身運(yùn)動(dòng)估計(jì)相對(duì)高效，處理每秒視頻約需2.9秒。手部運(yùn)動(dòng)估計(jì)則是第二大耗時(shí)環(huán)節(jié)，處理每秒視頻需要約16.4秒，比全身估計(jì)慢了約五倍多。

這組數(shù)據(jù)說(shuō)明，在當(dāng)前版本的ExoActor中，如果要執(zhí)行一個(gè)10秒的任務(wù)，光是"想象"和"解析"這個(gè)任務(wù)就需要花費(fèi)數(shù)分鐘的準(zhǔn)備時(shí)間，然后才能真正開(kāi)始執(zhí)行。這對(duì)于需要實(shí)時(shí)響應(yīng)環(huán)境變化的場(chǎng)景來(lái)說(shuō)是明顯的限制，但對(duì)于那些可以提前規(guī)劃、場(chǎng)景相對(duì)穩(wěn)定的應(yīng)用場(chǎng)景而言，這個(gè)代價(jià)在當(dāng)前階段是可以接受的。

五、這套方法還能怎么進(jìn)化

研究團(tuán)隊(duì)在論文中詳細(xì)討論了當(dāng)前實(shí)現(xiàn)的多項(xiàng)局限，以及未來(lái)可以改進(jìn)的具體方向，這部分內(nèi)容反映了他們對(duì)整個(gè)研究路線的深度思考。

最核心的一個(gè)問(wèn)題是：當(dāng)前系統(tǒng)是完全開(kāi)環(huán)的，機(jī)器人在執(zhí)行過(guò)程中不會(huì)感知周?chē)h(huán)境的變化，只是機(jī)械地播放預(yù)先生成的動(dòng)作軌跡。一旦場(chǎng)景里出現(xiàn)了意外情況——比如物體被碰歪了、地面有個(gè)障礙——機(jī)器人完全感知不到，也無(wú)法調(diào)整。未來(lái)的改進(jìn)方向是建立閉環(huán)的、具備場(chǎng)景感知能力的全身控制機(jī)制，讓機(jī)器人在執(zhí)行時(shí)能持續(xù)觀察環(huán)境，用生成視頻提供的參考軌跡作為高層次的行為指引，同時(shí)根據(jù)實(shí)時(shí)傳感器數(shù)據(jù)隨時(shí)微調(diào)腳步位置、身體姿態(tài)和手部動(dòng)作。

另一個(gè)重要方向是讓視頻生成本身更"懂物理"。當(dāng)前模型擅長(zhǎng)生成看起來(lái)很真實(shí)的畫(huà)面，但并不真正理解物理規(guī)律——物體會(huì)穿模、接觸關(guān)系不合理、動(dòng)作違反運(yùn)動(dòng)學(xué)約束等問(wèn)題時(shí)有發(fā)生。研究團(tuán)隊(duì)認(rèn)為，未來(lái)需要把物體永恒性（物體不會(huì)憑空消失）、接觸動(dòng)力學(xué)、幾何一致性和運(yùn)動(dòng)約束等物理知識(shí)更深入地融入視頻生成模型的訓(xùn)練中，同時(shí)評(píng)估指標(biāo)也應(yīng)該轉(zhuǎn)向物理可行性和可執(zhí)行性，而不僅僅是視覺(jué)質(zhì)量。

從離線批處理邁向在線流式處理，也是一個(gè)值得期待的改進(jìn)方向。未來(lái)的系統(tǒng)可以不再等整段視頻生成完畢再開(kāi)始執(zhí)行，而是在機(jī)器人行動(dòng)的同時(shí)，持續(xù)生成短時(shí)間窗口內(nèi)的下一步預(yù)測(cè)視頻，實(shí)現(xiàn)"邊想邊做"的動(dòng)態(tài)規(guī)劃，讓機(jī)器人能夠應(yīng)對(duì)環(huán)境的實(shí)時(shí)變化。

此外，當(dāng)前系統(tǒng)要求必須有第三人稱視角的外部攝像機(jī)來(lái)拍攝初始場(chǎng)景，這在很多實(shí)際環(huán)境里并不容易滿足。研究團(tuán)隊(duì)指出，未來(lái)一個(gè)重要方向是訓(xùn)練能夠從機(jī)器人自身攜帶的第一人稱攝像頭視角，重建或推斷出第三人稱視角畫(huà)面的模型，從而擺脫對(duì)外部固定攝像機(jī)的依賴。

研究團(tuán)隊(duì)還提出了"以機(jī)器人為中心的視頻生成"這一長(zhǎng)遠(yuǎn)構(gòu)想。目前的方案先把機(jī)器人"偽裝"成人再生成視頻，這個(gè)繞路做法帶來(lái)了額外的不一致性。理想情況下，視頻生成模型應(yīng)該能夠直接以機(jī)器人本身為主角生成高質(zhì)量的動(dòng)作視頻，同時(shí)保持動(dòng)作的流暢性和物理合理性，而不是套用人類(lèi)外形生成后再反向適配。

最后，研究團(tuán)隊(duì)呼吁建立統(tǒng)一的視頻驅(qū)動(dòng)人形機(jī)器人控制基準(zhǔn)測(cè)試集。目前這個(gè)領(lǐng)域的評(píng)估十分分散——有的只測(cè)視頻生成質(zhì)量，有的只測(cè)運(yùn)動(dòng)估計(jì)精度，有的只測(cè)機(jī)器人控制效果，缺乏從頭到尾綜合評(píng)估整個(gè)流程的標(biāo)準(zhǔn)。建立這樣的基準(zhǔn)，對(duì)于衡量不同方法之間的真正差異、推動(dòng)整個(gè)領(lǐng)域快速進(jìn)步至關(guān)重要。

歸根結(jié)底，ExoActor做的這件事，是把"大腦里的排練"和"真實(shí)的行動(dòng)"之間搭了一座橋。這座橋目前還有很多顛簸之處——有時(shí)候視頻里出現(xiàn)了不該出現(xiàn)的大雨傘，有時(shí)候機(jī)器人的手高了幾厘米沒(méi)抓到東西——但它的存在本身就已經(jīng)意義重大。它證明了一件過(guò)去看起來(lái)有些離奇的事情：一臺(tái)從未見(jiàn)過(guò)某個(gè)任務(wù)的機(jī)器人，只需要讓AI"想象"一遍這個(gè)任務(wù)，再把想象的畫(huà)面解析成動(dòng)作指令，就能真正走上去、彎腰、伸手、把東西放進(jìn)籃子里。

這對(duì)整個(gè)人形機(jī)器人領(lǐng)域的意義在于，我們或許不再需要為每一個(gè)新任務(wù)、每一個(gè)新場(chǎng)景都去費(fèi)力收集大量真實(shí)操作數(shù)據(jù)了?；ヂ?lián)網(wǎng)上海量的人類(lèi)活動(dòng)視頻，加上持續(xù)進(jìn)化的視頻生成模型，可能就是機(jī)器人"學(xué)習(xí)"如何完成各類(lèi)任務(wù)的最大數(shù)據(jù)來(lái)源。至于這條路最終能走多遠(yuǎn)，能不能讓機(jī)器人在真實(shí)家庭里靈活應(yīng)對(duì)日常的各種突發(fā)情況，則是留給未來(lái)研究者去繼續(xù)探索的開(kāi)放問(wèn)題。如果你對(duì)技術(shù)細(xì)節(jié)有更深的興趣，可以在arXiv上通過(guò)編號(hào)2604.27711查閱完整論文。

Q&A

Q1：ExoActor框架為什么要把機(jī)器人圖像替換成人的圖像再生成視頻，而不是直接讓AI生成機(jī)器人動(dòng)作視頻？

A：現(xiàn)有的視頻生成模型幾乎所有訓(xùn)練數(shù)據(jù)都是人類(lèi)活動(dòng)畫(huà)面，對(duì)機(jī)器人外形非常不熟悉，直接輸入機(jī)器人圖像會(huì)導(dǎo)致生成的視頻出現(xiàn)身體變形、動(dòng)作斷續(xù)、畫(huà)面前后不一致等大量問(wèn)題。把機(jī)器人替換成穿緊身服的人形圖像，相當(dāng)于把"外語(yǔ)輸入"轉(zhuǎn)換成模型熟悉的"母語(yǔ)輸入"，能讓視頻生成更穩(wěn)定，后續(xù)從視頻中提取的人體動(dòng)作數(shù)據(jù)質(zhì)量也更高。

Q2：ExoActor系統(tǒng)在S級(jí)復(fù)雜操作任務(wù)中失敗的主要原因是什么？

A：主要原因是運(yùn)動(dòng)估計(jì)階段對(duì)手部高度的判斷存在誤差。視頻生成模型生成的畫(huà)面在視覺(jué)上看起來(lái)合理，但從單目視頻（只有一個(gè)攝像機(jī)，沒(méi)有深度感知）中還原精確的三維手部位置時(shí)，高度信息容易出現(xiàn)偏差。這導(dǎo)致機(jī)器人實(shí)際伸手的位置比目標(biāo)物體略高或略低，無(wú)法成功抓握。目前的臨時(shí)解決方案是在目標(biāo)物體下方墊高支撐臺(tái)，后續(xù)需要從算法層面改進(jìn)腕部姿態(tài)的估計(jì)精度。

Q3：ExoActor完成一個(gè)任務(wù)需要多長(zhǎng)時(shí)間準(zhǔn)備？

A：目前ExoActor是離線流水線系統(tǒng)，在機(jī)器人真正開(kāi)始行動(dòng)之前需要依次完成圖像轉(zhuǎn)換（約10.7秒）、任務(wù)分解（約2.5秒）、視頻生成（每秒視頻約13.2秒處理時(shí)間，10秒視頻約需2分多鐘）、全身運(yùn)動(dòng)估計(jì)（每秒視頻約2.9秒）和手部運(yùn)動(dòng)估計(jì)（每秒視頻約16.4秒）等步驟，總準(zhǔn)備時(shí)間從幾分鐘到更長(zhǎng)不等，目前尚不支持實(shí)時(shí)響應(yīng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.