<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      北京AI研究院:機(jī)器人實(shí)現(xiàn)視頻動(dòng)作學(xué)習(xí)完成復(fù)雜任務(wù)能力提升

      0
      分享至


      這項(xiàng)由北京人工智能研究院(BAAI)主導(dǎo)完成的研究,以預(yù)印本形式于2026年4月30日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.27711。研究成果被命名為"ExoActor",代表著一種讓人形機(jī)器人無(wú)需收集真實(shí)世界操作數(shù)據(jù),僅憑"想象執(zhí)行視頻"就能完成各類(lèi)復(fù)雜任務(wù)的全新框架。

      你有沒(méi)有想過(guò),如果一個(gè)人從來(lái)沒(méi)有練習(xí)過(guò)某個(gè)動(dòng)作,只是看了一段別人做這個(gè)動(dòng)作的視頻,他能不能就此學(xué)會(huì)并親自完成?這個(gè)問(wèn)題對(duì)人類(lèi)來(lái)說(shuō)有些勉強(qiáng),但對(duì)機(jī)器人領(lǐng)域的研究者來(lái)說(shuō),恰恰觸及了當(dāng)前一個(gè)最核心的難題:如何讓人形機(jī)器人在沒(méi)有大量專項(xiàng)訓(xùn)練數(shù)據(jù)的情況下,照樣完成各式各樣復(fù)雜的現(xiàn)實(shí)任務(wù)?

      過(guò)去幾年,人形機(jī)器人技術(shù)飛速發(fā)展,各類(lèi)學(xué)習(xí)型控制系統(tǒng)層出不窮。然而,當(dāng)研究者真正希望機(jī)器人能在真實(shí)家庭或工作環(huán)境中與物體、環(huán)境流暢互動(dòng)時(shí),障礙就出現(xiàn)了——要同時(shí)理解空間位置、動(dòng)作時(shí)序、任務(wù)意圖,還要能隨機(jī)應(yīng)變,對(duì)現(xiàn)有系統(tǒng)來(lái)說(shuō)實(shí)在太難了。更麻煩的是,每換一個(gè)場(chǎng)景或任務(wù),就需要重新收集大量真實(shí)數(shù)據(jù)來(lái)"補(bǔ)課",代價(jià)極高,效率極低。

      北京人工智能研究院的團(tuán)隊(duì)給出了一個(gè)思路清奇的解法:既然大規(guī)模視頻生成模型已經(jīng)能夠根據(jù)文字描述,生成非常逼真的人類(lèi)活動(dòng)視頻,那何不讓機(jī)器人先"想象"自己如何完成一項(xiàng)任務(wù)——生成一段對(duì)應(yīng)的第三人稱視角視頻,然后再?gòu)倪@段視頻里提取動(dòng)作信息,最終驅(qū)動(dòng)機(jī)器人真正去完成這個(gè)任務(wù)?

      這套系統(tǒng)的核心概念,就像是給機(jī)器人裝上了一個(gè)"腦海中的排練室"。在真正上場(chǎng)之前,機(jī)器人先在腦子里把整個(gè)動(dòng)作流程演練一遍,把演練畫(huà)面"拍"成視頻,再把視頻里的人體動(dòng)作解析成機(jī)器人能直接執(zhí)行的運(yùn)動(dòng)指令。整個(gè)過(guò)程不依賴任何任務(wù)專屬的真實(shí)操作數(shù)據(jù),完全由生成式AI的想象力驅(qū)動(dòng),由通用運(yùn)動(dòng)控制器負(fù)責(zé)落地執(zhí)行。

      一、從"想象"到"行動(dòng)":ExoActor的三步走流程

      要理解ExoActor如何運(yùn)作,可以把整個(gè)系統(tǒng)比作一位專業(yè)導(dǎo)演在拍攝一部動(dòng)作短片的過(guò)程。導(dǎo)演拿到劇本(任務(wù)指令),先觀察一下拍攝現(xiàn)場(chǎng)(初始場(chǎng)景圖像),接著創(chuàng)作出一段完整的動(dòng)作視頻(視頻生成階段),然后把視頻里演員的每一個(gè)動(dòng)作都精確測(cè)量記錄下來(lái)(動(dòng)作估計(jì)階段),最后把這些測(cè)量數(shù)據(jù)交給真正的演員——也就是機(jī)器人——去現(xiàn)場(chǎng)還原(運(yùn)動(dòng)執(zhí)行階段)。

      第一步是生成視頻,這是整個(gè)框架最具創(chuàng)意的部分。給定一個(gè)任務(wù)描述和當(dāng)前場(chǎng)景的第三人稱圖像,系統(tǒng)需要生成一段展示任務(wù)執(zhí)行過(guò)程的視頻。然而,直接讓視頻生成模型去生成機(jī)器人完成任務(wù)的畫(huà)面,往往會(huì)出現(xiàn)大量奇怪的偽影——機(jī)器人的身體變形、動(dòng)作斷斷續(xù)續(xù)、畫(huà)面前后不連貫——因?yàn)檫@類(lèi)模型幾乎所有的訓(xùn)練數(shù)據(jù)都是真實(shí)人類(lèi)的活動(dòng)畫(huà)面,對(duì)機(jī)器人外形完全不熟悉。

      為了解決這個(gè)"語(yǔ)言不通"的問(wèn)題,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的預(yù)處理步驟:把場(chǎng)景圖像里的機(jī)器人,先用AI圖像編輯工具"偽裝"成一個(gè)真人。這位"替身演員"穿著緊身運(yùn)動(dòng)服,保持機(jī)器人原本的姿勢(shì)、位置和面朝方向,身體比例也特意參照了機(jī)器人的特征——身形較矮,腰部纖細(xì),四肢修長(zhǎng)。整個(gè)場(chǎng)景的背景、光線、擺設(shè)一律保持原樣不變,只是把金屬機(jī)器人換成了看起來(lái)像真人的圖像。這個(gè)過(guò)程通過(guò)Gemini 3.1 Pro的圖像編輯功能完成,提示詞中嚴(yán)格要求保持姿勢(shì)一致性。

      完成"機(jī)器人變?nèi)?的替換之后,系統(tǒng)還需要把高層次的任務(wù)指令分解成一系列具體可執(zhí)行的中間步驟。舉個(gè)例子,"把你面前的棕色箱子撿起來(lái)然后站直"這樣的指令,會(huì)被GPT-5.4 Thinking分解為:走近箱子、彎腰、抓住箱子、抬起箱子、恢復(fù)站立姿勢(shì)——每一個(gè)步驟都是肉眼可見(jiàn)、物理上可實(shí)現(xiàn)的獨(dú)立動(dòng)作。這些分解后的步驟結(jié)合場(chǎng)景描述,構(gòu)成一段詳盡的視頻生成提示詞,明確指定了攝像機(jī)視角固定、場(chǎng)景不變、動(dòng)作自然連貫、任務(wù)完成狀態(tài)清晰等要求。視頻生成則主要采用了Kling 3,這是一款在穩(wěn)定性和視覺(jué)一致性方面表現(xiàn)最優(yōu)的商用視頻生成API,對(duì)比測(cè)試中另外兩款模型Veo 3.1和Wan 2.6都因運(yùn)動(dòng)漂移、物體交互不自然等問(wèn)題而表現(xiàn)遜色。

      第二步是從生成的視頻里提取動(dòng)作數(shù)據(jù)。這一步相當(dāng)于把視頻里那位"替身演員"的每一幀動(dòng)作都精確掃描成三維數(shù)字模型,然后記錄下完整的運(yùn)動(dòng)軌跡。技術(shù)上,團(tuán)隊(duì)使用了GENMO這一擴(kuò)散模型,它不是簡(jiǎn)單地逐幀預(yù)測(cè)姿勢(shì),而是把整段視頻的特征和二維關(guān)鍵點(diǎn)作為條件信號(hào),生成在時(shí)間上連貫、物理上合理的三維人體運(yùn)動(dòng)序列,并用SMPL人體模型參數(shù)(包括各關(guān)節(jié)旋轉(zhuǎn)角度和全局位置)來(lái)表示。對(duì)于視頻中遮擋幀,模型還會(huì)自動(dòng)進(jìn)行時(shí)間插值填補(bǔ),確保運(yùn)動(dòng)軌跡平滑。

      僅有全身動(dòng)作還不夠,機(jī)器人要拿起和放下物體,還需要精確的手部動(dòng)作數(shù)據(jù)。團(tuán)隊(duì)額外使用了WiLoR這一工具,對(duì)生成視頻逐幀分析,恢復(fù)雙手的三維姿態(tài)。每幀視頻產(chǎn)生一組手部數(shù)據(jù),包括左右手各自的姿勢(shì)描述,以及對(duì)應(yīng)的交互狀態(tài):完全張開(kāi)、半張開(kāi)還是握緊。這個(gè)信息隨后被轉(zhuǎn)化為機(jī)器人末端執(zhí)行器(即機(jī)械手)的控制指令。值得一提的是,針對(duì)鏡頭里人物正面朝向攝像機(jī)還是背對(duì)攝像機(jī)這兩種情況,手部左右的識(shí)別邏輯是不同的,這樣設(shè)計(jì)是為了避免"左右手認(rèn)錯(cuò)"的問(wèn)題。

      第三步是讓機(jī)器人真正去執(zhí)行這些提取出來(lái)的動(dòng)作。這里的難點(diǎn)在于,從視頻中估計(jì)出的運(yùn)動(dòng)軌跡只是一堆幾何數(shù)據(jù),并不包含力的信息——它不知道機(jī)器人的關(guān)節(jié)最大能轉(zhuǎn)多少度,也不知道保持平衡需要怎樣協(xié)調(diào)重心。團(tuán)隊(duì)采用了SONIC這一通用運(yùn)動(dòng)跟蹤控制器來(lái)解決這個(gè)問(wèn)題。SONIC的作用,類(lèi)似于一個(gè)經(jīng)驗(yàn)豐富的"動(dòng)作翻譯官":它接收參考運(yùn)動(dòng)軌跡,同時(shí)感知機(jī)器人當(dāng)前的身體狀態(tài),在滿足物理約束的前提下,盡可能忠實(shí)地還原參考動(dòng)作。即使參考軌跡里有一些不太自然的跳躍或抖動(dòng),SONIC也能在不讓機(jī)器人失去平衡的情況下穩(wěn)定執(zhí)行。團(tuán)隊(duì)經(jīng)過(guò)測(cè)試發(fā)現(xiàn),在視頻估計(jì)動(dòng)作和真實(shí)機(jī)器人執(zhí)行之間加入額外的動(dòng)作重定向步驟(即嘗試將人體比例的動(dòng)作精確地映射到機(jī)器人骨架比例上),反而會(huì)帶來(lái)明顯的空間偏差——機(jī)器人走路步幅變了,整體軌跡也偏了。于是最終方案是直接把估計(jì)動(dòng)作喂給SONIC,讓SONIC自行處理細(xì)節(jié),這樣在精度上反而更好。

      二、不同難度關(guān)卡的實(shí)戰(zhàn)檢驗(yàn)

      為了驗(yàn)證ExoActor的實(shí)際能力,研究團(tuán)隊(duì)專門(mén)設(shè)計(jì)了一套由易到難的任務(wù)體系,分為B級(jí)(簡(jiǎn)單)、A級(jí)(中等)和S級(jí)(困難)三個(gè)難度檔。這套體系就像游戲里的關(guān)卡設(shè)計(jì),每升一級(jí),機(jī)器人需要處理的交互復(fù)雜度就會(huì)顯著提升。

      B級(jí)任務(wù)主要考驗(yàn)基礎(chǔ)導(dǎo)航能力,機(jī)器人只需要走到指定地點(diǎn)或繞開(kāi)簡(jiǎn)單障礙,比如"走到白色桌子前面的籃子旁邊停下",或者"從椅子左側(cè)繞出去"。這類(lèi)任務(wù)的核心是檢驗(yàn)系統(tǒng)能否把生成視頻里的行走軌跡準(zhǔn)確轉(zhuǎn)化為穩(wěn)定的機(jī)器人步行動(dòng)作,同時(shí)準(zhǔn)確到達(dá)目標(biāo)位置。實(shí)驗(yàn)結(jié)果表明,機(jī)器人在這類(lèi)任務(wù)上表現(xiàn)穩(wěn)定,可以可靠地向目標(biāo)物體靠近并完成定位。

      A級(jí)任務(wù)在導(dǎo)航基礎(chǔ)上增加了粗粒度的物體交互,不要求精確的抓握,但需要協(xié)調(diào)全身動(dòng)作。團(tuán)隊(duì)測(cè)試了多種場(chǎng)景,包括把桌上的瓶子撥到垃圾桶里、走到椅子旁坐下、彎腰撿起箱子然后站起來(lái)、低頭鉆過(guò)警戒線、跨過(guò)障礙物,以及用布擦桌子等。這些任務(wù)要求機(jī)器人把行走和全身動(dòng)作協(xié)調(diào)起來(lái),同時(shí)與周?chē)矬w或環(huán)境發(fā)生有意義的接觸。系統(tǒng)在這個(gè)難度檔展示出了一定的多步行為執(zhí)行能力,體現(xiàn)了視頻生成中對(duì)長(zhǎng)時(shí)程交互場(chǎng)景的理解和表達(dá)。

      S級(jí)任務(wù)是整個(gè)框架面臨的最大挑戰(zhàn),需要精細(xì)操控和多步驟的手眼協(xié)調(diào)。具體任務(wù)包括:從黑色椅子上撿起綠色瓶子并豎立放到桌上、從白色架子上拿起黑色雨傘放入桌上的籃子、把瓶子豎直放入籃子、從桌上拿起瓶子扔進(jìn)垃圾桶等。這些任務(wù)既要走到合適位置,又要用手精確地抓住特定物體并準(zhǔn)確放置。實(shí)驗(yàn)中,機(jī)器人總體上能完成這類(lèi)任務(wù),但存在一個(gè)明顯的局限:由于運(yùn)動(dòng)估計(jì)對(duì)手部高度的判斷存在誤差,機(jī)器人有時(shí)無(wú)法準(zhǔn)確地抓到目標(biāo)物體。團(tuán)隊(duì)為此采取了一個(gè)權(quán)宜之計(jì),在目標(biāo)物體下方墊上小支撐臺(tái),讓物體稍微抬高一些,以補(bǔ)償這個(gè)高度偏差。

      三、哪些環(huán)節(jié)容易出問(wèn)題

      任何系統(tǒng)都不可能完美無(wú)缺,ExoActor也不例外。研究團(tuán)隊(duì)非常坦誠(chéng)地記錄了系統(tǒng)在三個(gè)主要階段分別可能出現(xiàn)的典型失敗案例。

      視頻生成階段,最常見(jiàn)的問(wèn)題是模型"發(fā)揮過(guò)度"——它會(huì)憑空生成原本不存在的物體,或者讓原有物體的尺寸發(fā)生離譜的變化。論文中舉了一個(gè)具體例子:原本場(chǎng)景里只有一把小雨傘,視頻生成模型卻把它想象成了一把大雨傘,導(dǎo)致后續(xù)動(dòng)作估計(jì)和執(zhí)行都出現(xiàn)嚴(yán)重偏差。除此之外,動(dòng)作序列前后邏輯矛盾、場(chǎng)景配置不合常理、最終姿態(tài)物理上根本站不住等問(wèn)題也時(shí)有發(fā)生。團(tuán)隊(duì)發(fā)現(xiàn),精心設(shè)計(jì)提示詞結(jié)構(gòu)和對(duì)任務(wù)進(jìn)行步驟分解,可以顯著降低這類(lèi)問(wèn)題的出現(xiàn)頻率。

      運(yùn)動(dòng)估計(jì)階段,最突出的痛點(diǎn)是手部動(dòng)作細(xì)節(jié)的準(zhǔn)確性。當(dāng)手應(yīng)該保持某種特定方向抓握物體時(shí)——比如豎握一個(gè)瓶子——估計(jì)結(jié)果往往給出一個(gè)橫向的腕部朝向。這是因?yàn)樵趩文恳曨l(只有一個(gè)攝像機(jī)視角,沒(méi)有深度信息)中,細(xì)微的腕部旋轉(zhuǎn)提供的視覺(jué)線索非常微弱,模型難以準(zhǔn)確還原。此外,當(dāng)視頻里人物的某些身體部位被桌子、椅子等場(chǎng)景物體遮擋時(shí),對(duì)應(yīng)的三維運(yùn)動(dòng)估計(jì)就會(huì)出現(xiàn)缺失或錯(cuò)誤。從后方視角拍攝的場(chǎng)景也會(huì)讓估計(jì)精度明顯下降,因?yàn)楸硨?duì)攝像機(jī)時(shí)的自我遮擋問(wèn)題尤為嚴(yán)重。

      執(zhí)行階段,誤差主要來(lái)自運(yùn)動(dòng)數(shù)據(jù)與機(jī)器人物理約束之間的不匹配。最常見(jiàn)的表現(xiàn)就是手部高度對(duì)不準(zhǔn)——機(jī)器人伸手的位置略高或略低,無(wú)法正確接觸目標(biāo)物體。此外在需要精確走到特定位置的任務(wù)中,運(yùn)動(dòng)距離的偏差也會(huì)影響任務(wù)完成。這些問(wèn)題在需要精準(zhǔn)接觸或抓握的S級(jí)任務(wù)中尤為明顯。

      四、系統(tǒng)運(yùn)行效率的真實(shí)情況

      ExoActor目前是一套離線流水線系統(tǒng),也就是說(shuō),機(jī)器人在開(kāi)始實(shí)際行動(dòng)之前,需要等所有上游處理步驟全部完成。研究團(tuán)隊(duì)對(duì)每個(gè)模塊的平均耗時(shí)進(jìn)行了詳細(xì)測(cè)量,呈現(xiàn)了一張非常直觀的數(shù)據(jù)圖景。

      機(jī)器人變?nèi)说膱D像轉(zhuǎn)換步驟,每次請(qǐng)求平均需要約10.7秒。任務(wù)分解和提示詞構(gòu)建則非???,每次請(qǐng)求僅需約2.5秒。視頻生成是整個(gè)流程中最耗時(shí)的瓶頸環(huán)節(jié),每生成1秒鐘的視頻需要花費(fèi)約13.2秒的處理時(shí)間,也就是說(shuō)生成一段10秒的行動(dòng)視頻大約需要2分多鐘。全身運(yùn)動(dòng)估計(jì)相對(duì)高效,處理每秒視頻約需2.9秒。手部運(yùn)動(dòng)估計(jì)則是第二大耗時(shí)環(huán)節(jié),處理每秒視頻需要約16.4秒,比全身估計(jì)慢了約五倍多。

      這組數(shù)據(jù)說(shuō)明,在當(dāng)前版本的ExoActor中,如果要執(zhí)行一個(gè)10秒的任務(wù),光是"想象"和"解析"這個(gè)任務(wù)就需要花費(fèi)數(shù)分鐘的準(zhǔn)備時(shí)間,然后才能真正開(kāi)始執(zhí)行。這對(duì)于需要實(shí)時(shí)響應(yīng)環(huán)境變化的場(chǎng)景來(lái)說(shuō)是明顯的限制,但對(duì)于那些可以提前規(guī)劃、場(chǎng)景相對(duì)穩(wěn)定的應(yīng)用場(chǎng)景而言,這個(gè)代價(jià)在當(dāng)前階段是可以接受的。

      五、這套方法還能怎么進(jìn)化

      研究團(tuán)隊(duì)在論文中詳細(xì)討論了當(dāng)前實(shí)現(xiàn)的多項(xiàng)局限,以及未來(lái)可以改進(jìn)的具體方向,這部分內(nèi)容反映了他們對(duì)整個(gè)研究路線的深度思考。

      最核心的一個(gè)問(wèn)題是:當(dāng)前系統(tǒng)是完全開(kāi)環(huán)的,機(jī)器人在執(zhí)行過(guò)程中不會(huì)感知周?chē)h(huán)境的變化,只是機(jī)械地播放預(yù)先生成的動(dòng)作軌跡。一旦場(chǎng)景里出現(xiàn)了意外情況——比如物體被碰歪了、地面有個(gè)障礙——機(jī)器人完全感知不到,也無(wú)法調(diào)整。未來(lái)的改進(jìn)方向是建立閉環(huán)的、具備場(chǎng)景感知能力的全身控制機(jī)制,讓機(jī)器人在執(zhí)行時(shí)能持續(xù)觀察環(huán)境,用生成視頻提供的參考軌跡作為高層次的行為指引,同時(shí)根據(jù)實(shí)時(shí)傳感器數(shù)據(jù)隨時(shí)微調(diào)腳步位置、身體姿態(tài)和手部動(dòng)作。

      另一個(gè)重要方向是讓視頻生成本身更"懂物理"。當(dāng)前模型擅長(zhǎng)生成看起來(lái)很真實(shí)的畫(huà)面,但并不真正理解物理規(guī)律——物體會(huì)穿模、接觸關(guān)系不合理、動(dòng)作違反運(yùn)動(dòng)學(xué)約束等問(wèn)題時(shí)有發(fā)生。研究團(tuán)隊(duì)認(rèn)為,未來(lái)需要把物體永恒性(物體不會(huì)憑空消失)、接觸動(dòng)力學(xué)、幾何一致性和運(yùn)動(dòng)約束等物理知識(shí)更深入地融入視頻生成模型的訓(xùn)練中,同時(shí)評(píng)估指標(biāo)也應(yīng)該轉(zhuǎn)向物理可行性和可執(zhí)行性,而不僅僅是視覺(jué)質(zhì)量。

      從離線批處理邁向在線流式處理,也是一個(gè)值得期待的改進(jìn)方向。未來(lái)的系統(tǒng)可以不再等整段視頻生成完畢再開(kāi)始執(zhí)行,而是在機(jī)器人行動(dòng)的同時(shí),持續(xù)生成短時(shí)間窗口內(nèi)的下一步預(yù)測(cè)視頻,實(shí)現(xiàn)"邊想邊做"的動(dòng)態(tài)規(guī)劃,讓機(jī)器人能夠應(yīng)對(duì)環(huán)境的實(shí)時(shí)變化。

      此外,當(dāng)前系統(tǒng)要求必須有第三人稱視角的外部攝像機(jī)來(lái)拍攝初始場(chǎng)景,這在很多實(shí)際環(huán)境里并不容易滿足。研究團(tuán)隊(duì)指出,未來(lái)一個(gè)重要方向是訓(xùn)練能夠從機(jī)器人自身攜帶的第一人稱攝像頭視角,重建或推斷出第三人稱視角畫(huà)面的模型,從而擺脫對(duì)外部固定攝像機(jī)的依賴。

      研究團(tuán)隊(duì)還提出了"以機(jī)器人為中心的視頻生成"這一長(zhǎng)遠(yuǎn)構(gòu)想。目前的方案先把機(jī)器人"偽裝"成人再生成視頻,這個(gè)繞路做法帶來(lái)了額外的不一致性。理想情況下,視頻生成模型應(yīng)該能夠直接以機(jī)器人本身為主角生成高質(zhì)量的動(dòng)作視頻,同時(shí)保持動(dòng)作的流暢性和物理合理性,而不是套用人類(lèi)外形生成后再反向適配。

      最后,研究團(tuán)隊(duì)呼吁建立統(tǒng)一的視頻驅(qū)動(dòng)人形機(jī)器人控制基準(zhǔn)測(cè)試集。目前這個(gè)領(lǐng)域的評(píng)估十分分散——有的只測(cè)視頻生成質(zhì)量,有的只測(cè)運(yùn)動(dòng)估計(jì)精度,有的只測(cè)機(jī)器人控制效果,缺乏從頭到尾綜合評(píng)估整個(gè)流程的標(biāo)準(zhǔn)。建立這樣的基準(zhǔn),對(duì)于衡量不同方法之間的真正差異、推動(dòng)整個(gè)領(lǐng)域快速進(jìn)步至關(guān)重要。

      歸根結(jié)底,ExoActor做的這件事,是把"大腦里的排練"和"真實(shí)的行動(dòng)"之間搭了一座橋。這座橋目前還有很多顛簸之處——有時(shí)候視頻里出現(xiàn)了不該出現(xiàn)的大雨傘,有時(shí)候機(jī)器人的手高了幾厘米沒(méi)抓到東西——但它的存在本身就已經(jīng)意義重大。它證明了一件過(guò)去看起來(lái)有些離奇的事情:一臺(tái)從未見(jiàn)過(guò)某個(gè)任務(wù)的機(jī)器人,只需要讓AI"想象"一遍這個(gè)任務(wù),再把想象的畫(huà)面解析成動(dòng)作指令,就能真正走上去、彎腰、伸手、把東西放進(jìn)籃子里。

      這對(duì)整個(gè)人形機(jī)器人領(lǐng)域的意義在于,我們或許不再需要為每一個(gè)新任務(wù)、每一個(gè)新場(chǎng)景都去費(fèi)力收集大量真實(shí)操作數(shù)據(jù)了?;ヂ?lián)網(wǎng)上海量的人類(lèi)活動(dòng)視頻,加上持續(xù)進(jìn)化的視頻生成模型,可能就是機(jī)器人"學(xué)習(xí)"如何完成各類(lèi)任務(wù)的最大數(shù)據(jù)來(lái)源。至于這條路最終能走多遠(yuǎn),能不能讓機(jī)器人在真實(shí)家庭里靈活應(yīng)對(duì)日常的各種突發(fā)情況,則是留給未來(lái)研究者去繼續(xù)探索的開(kāi)放問(wèn)題。如果你對(duì)技術(shù)細(xì)節(jié)有更深的興趣,可以在arXiv上通過(guò)編號(hào)2604.27711查閱完整論文。

      Q&A

      Q1:ExoActor框架為什么要把機(jī)器人圖像替換成人的圖像再生成視頻,而不是直接讓AI生成機(jī)器人動(dòng)作視頻?

      A:現(xiàn)有的視頻生成模型幾乎所有訓(xùn)練數(shù)據(jù)都是人類(lèi)活動(dòng)畫(huà)面,對(duì)機(jī)器人外形非常不熟悉,直接輸入機(jī)器人圖像會(huì)導(dǎo)致生成的視頻出現(xiàn)身體變形、動(dòng)作斷續(xù)、畫(huà)面前后不一致等大量問(wèn)題。把機(jī)器人替換成穿緊身服的人形圖像,相當(dāng)于把"外語(yǔ)輸入"轉(zhuǎn)換成模型熟悉的"母語(yǔ)輸入",能讓視頻生成更穩(wěn)定,后續(xù)從視頻中提取的人體動(dòng)作數(shù)據(jù)質(zhì)量也更高。

      Q2:ExoActor系統(tǒng)在S級(jí)復(fù)雜操作任務(wù)中失敗的主要原因是什么?

      A:主要原因是運(yùn)動(dòng)估計(jì)階段對(duì)手部高度的判斷存在誤差。視頻生成模型生成的畫(huà)面在視覺(jué)上看起來(lái)合理,但從單目視頻(只有一個(gè)攝像機(jī),沒(méi)有深度感知)中還原精確的三維手部位置時(shí),高度信息容易出現(xiàn)偏差。這導(dǎo)致機(jī)器人實(shí)際伸手的位置比目標(biāo)物體略高或略低,無(wú)法成功抓握。目前的臨時(shí)解決方案是在目標(biāo)物體下方墊高支撐臺(tái),后續(xù)需要從算法層面改進(jìn)腕部姿態(tài)的估計(jì)精度。

      Q3:ExoActor完成一個(gè)任務(wù)需要多長(zhǎng)時(shí)間準(zhǔn)備?

      A:目前ExoActor是離線流水線系統(tǒng),在機(jī)器人真正開(kāi)始行動(dòng)之前需要依次完成圖像轉(zhuǎn)換(約10.7秒)、任務(wù)分解(約2.5秒)、視頻生成(每秒視頻約13.2秒處理時(shí)間,10秒視頻約需2分多鐘)、全身運(yùn)動(dòng)估計(jì)(每秒視頻約2.9秒)和手部運(yùn)動(dòng)估計(jì)(每秒視頻約16.4秒)等步驟,總準(zhǔn)備時(shí)間從幾分鐘到更長(zhǎng)不等,目前尚不支持實(shí)時(shí)響應(yīng)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      姚來(lái)英已任中國(guó)煙草總公司總經(jīng)理

      姚來(lái)英已任中國(guó)煙草總公司總經(jīng)理

      界面新聞
      2026-05-12 11:12:28
      叔叔去鎮(zhèn)里蓋章被卡2天,我把鎮(zhèn)長(zhǎng)叫來(lái):今天不蓋,就別當(dāng)鎮(zhèn)長(zhǎng)了

      叔叔去鎮(zhèn)里蓋章被卡2天,我把鎮(zhèn)長(zhǎng)叫來(lái):今天不蓋,就別當(dāng)鎮(zhèn)長(zhǎng)了

      時(shí)尚的弄潮
      2026-05-12 11:56:49
      專家:女性生育力“余額”無(wú)聲流失,35歲后呈斷崖式下降

      專家:女性生育力“余額”無(wú)聲流失,35歲后呈斷崖式下降

      南方都市報(bào)
      2026-05-12 08:48:40
      河南55歲女子跟鄰居吵架后越想越氣,頭痛嘔吐緊急送醫(yī)不幸去世:血壓飆升引發(fā)腦干出血

      河南55歲女子跟鄰居吵架后越想越氣,頭痛嘔吐緊急送醫(yī)不幸去世:血壓飆升引發(fā)腦干出血

      大象新聞
      2026-05-12 14:46:07
      追覓CEO俞浩:聽(tīng)說(shuō)某知名科技新貴喜歡看美女,來(lái),滿足你

      追覓CEO俞浩:聽(tīng)說(shuō)某知名科技新貴喜歡看美女,來(lái),滿足你

      財(cái)聞
      2026-05-12 14:53:07
      詹姆斯正式回應(yīng)是否退役:我還沒(méi)想清楚 會(huì)和家人商量再做決定

      詹姆斯正式回應(yīng)是否退役:我還沒(méi)想清楚 會(huì)和家人商量再做決定

      醉臥浮生
      2026-05-12 14:38:26
      哈佛博士:大幅提高人類(lèi)壽命的真正原因,所有人都沒(méi)想到!

      哈佛博士:大幅提高人類(lèi)壽命的真正原因,所有人都沒(méi)想到!

      深度報(bào)
      2026-05-10 22:38:11
      女司機(jī)致2死6傷后續(xù)!知情人爆料:女子系專家級(jí)醫(yī)生,持駕照多年

      女司機(jī)致2死6傷后續(xù)!知情人爆料:女子系專家級(jí)醫(yī)生,持駕照多年

      千言?shī)蕵?lè)記
      2026-05-12 15:13:39
      浙大鄭強(qiáng)教授:我不承認(rèn)中國(guó)大學(xué)生就業(yè)難,是舒服的工作難找,建議少點(diǎn)抱怨少點(diǎn)索取

      浙大鄭強(qiáng)教授:我不承認(rèn)中國(guó)大學(xué)生就業(yè)難,是舒服的工作難找,建議少點(diǎn)抱怨少點(diǎn)索取

      TOP大學(xué)來(lái)了
      2026-05-11 16:39:00
      電池安全,需要一次徹底的“證偽”

      電池安全,需要一次徹底的“證偽”

      汽車(chē)公社
      2026-05-08 08:39:52
      廣東明后天雨勢(shì)較強(qiáng) 珠三角等局地有大暴雨或特大暴雨并伴強(qiáng)對(duì)流

      廣東明后天雨勢(shì)較強(qiáng) 珠三角等局地有大暴雨或特大暴雨并伴強(qiáng)對(duì)流

      北青網(wǎng)-北京青年報(bào)
      2026-05-12 15:54:02
      徹底撕破臉!央視硬剛天價(jià)轉(zhuǎn)播費(fèi)后,資本報(bào)復(fù)手段簡(jiǎn)直不堪入目

      徹底撕破臉!央視硬剛天價(jià)轉(zhuǎn)播費(fèi)后,資本報(bào)復(fù)手段簡(jiǎn)直不堪入目

      真的好愛(ài)你
      2026-05-12 06:49:30
      內(nèi)塔尼亞胡稱“不喜歡中國(guó)向伊朗導(dǎo)彈制造提供的支持” 中方回應(yīng)

      內(nèi)塔尼亞胡稱“不喜歡中國(guó)向伊朗導(dǎo)彈制造提供的支持” 中方回應(yīng)

      財(cái)聯(lián)社
      2026-05-12 15:27:18
      伊朗:已將高濃縮鈾送往第三國(guó)!若談判失敗,伊朗會(huì)將其取回

      伊朗:已將高濃縮鈾送往第三國(guó)!若談判失敗,伊朗會(huì)將其取回

      AI商業(yè)論
      2026-05-11 08:36:11
      重慶57歲主任醫(yī)師車(chē)禍致2死6傷!正面照曝出,丈夫身份浮出水面

      重慶57歲主任醫(yī)師車(chē)禍致2死6傷!正面照曝出,丈夫身份浮出水面

      老貓觀點(diǎn)
      2026-05-12 06:43:00
      這和不穿有啥區(qū)別??jī)?nèi)衣外穿,趙露思演唱會(huì)“辣眼”穿搭,被眾嘲

      這和不穿有啥區(qū)別??jī)?nèi)衣外穿,趙露思演唱會(huì)“辣眼”穿搭,被眾嘲

      以茶帶書(shū)
      2026-05-11 23:15:37
      武大開(kāi)了一個(gè)壞頭

      武大開(kāi)了一個(gè)壞頭

      燕梳樓頻道
      2026-05-12 12:31:28
      天壇公園:5月13日至14日暫停開(kāi)放

      天壇公園:5月13日至14日暫停開(kāi)放

      南方都市報(bào)
      2026-05-12 12:01:58
      女孩演出結(jié)束,將購(gòu)買(mǎi)的禮服退掉,商家指女孩“白嫖”,女孩回應(yīng)

      女孩演出結(jié)束,將購(gòu)買(mǎi)的禮服退掉,商家指女孩“白嫖”,女孩回應(yīng)

      胡侃社會(huì)百態(tài)
      2026-05-12 10:10:13
      房產(chǎn)圈最近最大的瓜,當(dāng)屬貝殼2025年財(cái)報(bào)的發(fā)布——沒(méi)有驚喜,全是驚嚇

      房產(chǎn)圈最近最大的瓜,當(dāng)屬貝殼2025年財(cái)報(bào)的發(fā)布——沒(méi)有驚喜,全是驚嚇

      每日質(zhì)量報(bào)道網(wǎng)
      2026-05-11 12:04:19
      2026-05-12 17:23:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹(shù)發(fā)布載人變形機(jī)甲,定價(jià)390萬(wàn)元起

      頭條要聞

      學(xué)生建議吸煙區(qū)設(shè)板凳 高?;貞?yīng):若"站不住"建議戒煙

      頭條要聞

      學(xué)生建議吸煙區(qū)設(shè)板凳 高?;貞?yīng):若"站不住"建議戒煙

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

      娛樂(lè)要聞

      劉濤曬媽祖誕辰活動(dòng)照 評(píng)論區(qū)變?cè)S愿池

      財(cái)經(jīng)要聞

      黃仁勛真是被白宮徹底封殺了

      汽車(chē)要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      親子
      本地
      游戲
      旅游
      公開(kāi)課

      親子要聞

      孩子如何戒賭,戒游戲癮,戒手機(jī)癮?

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      《機(jī)動(dòng)警察》新游今夏發(fā)售 PS5豪華版附模型

      旅游要聞

      安徽肥東:老糧倉(cāng)“烤”紅鄉(xiāng)村游 三件套“窯”動(dòng)新引擎

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲顶级裸体av片| 又色又爽又黄18禁美女裸身无遮挡 | 久久高清内射无套| 黑人无码AV| 亚洲乱码日产精品bd| 国产精一区二区三区午夜| 99在线观看视频免费| 国产 麻豆 日韩 欧美 久久| 91丨九色丨人妻丨白浆| 免费**毛片在线播放| 337p日本欧洲亚洲大胆色噜噜| 高清无码在线视频| 日韩中文字幕一区二区高清| 熟妇导航| 在线a久青草视频在线观看| 久久99久久精品97久久综合| 在线亚洲+欧美+日本专区| av综合一区| 少妇高潮喷水久久久久久久久久 | 亚洲中文字幕久爱亚洲伊人| 中文字幕美人妻亅u乚一596| 国产激情无码一区二区免费| 亚洲精品av无码喷奶水网站| 欧洲多毛裸体xxxxx| 亚洲欧美在线一区中文字幕| 亚洲小视频在线观看| 久久99国产精品久久99| 亚洲一区二区三区写真| 日本久久久www成人免费毛片丨| 欧美亚洲另类国产很色婷婷| 亚洲中文字幕无码卡通动漫野外| 久久国产热精品波多野结衣av | 超碰成人人人做人人爽| 中文字幕乱码亚洲精品一区 | 国产精品亚洲一区二区毛片| 天天做天天爱天天综合网2021| 欧美性猛交xxxx乱大交少妇| 黑人巨大精品欧美| 欧美韩国日本| 精品久久久久久无码不卡| 88久久久久无码国产精品|