<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      王興興署名論文!披露宇樹G1人形機(jī)器人背后的核心技術(shù)

      0
      分享至



      2026年春晚,宇樹G1人形機(jī)器人憑借《武BOT》節(jié)目中絲滑的后空翻、武術(shù)、街舞等極限動(dòng)作驚艷全網(wǎng)。

      近日,這背后的核心技術(shù)論文《OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control》(arXiv:2602.23843)正式發(fā)布,宇樹科技創(chuàng)始人王興興親自署名。

      論文提到,當(dāng)前人形機(jī)器人控制普遍面臨“動(dòng)作越多、表現(xiàn)越差”的“泛化屏障”(Generality Barrier)。

      而傳統(tǒng)多動(dòng)作強(qiáng)化學(xué)習(xí)(RL)易出現(xiàn)梯度干擾,策略趨于“保守平均”,單個(gè)動(dòng)作精準(zhǔn)但多動(dòng)作協(xié)同精度暴跌。

      同時(shí),仿真與真機(jī)存在執(zhí)行器非線性差異(力矩-速度特性、功率限制),高動(dòng)態(tài)動(dòng)作下微小誤差會(huì)放大為摔倒、硬件損壞等災(zāi)難。

      這導(dǎo)致機(jī)器人難以同時(shí)掌握后空翻、武術(shù)、街舞等高難度極限動(dòng)作,成為通用人形機(jī)器人落地的核心障礙。

      對此,論文提出OmniXtreme兩階段訓(xùn)練框架,通過“先學(xué)全、再做實(shí)”的思路,徹底打破保真度與擴(kuò)展性的 trade-off。

      第一階段為,流匹配預(yù)訓(xùn)練(Flow-Matching Pretraining)。

      摒棄傳統(tǒng)多動(dòng)作RL,先為每個(gè)極限動(dòng)作訓(xùn)練“單動(dòng)作專家策略”,用流匹配生成模型將多個(gè)專家策略蒸餾為統(tǒng)一基礎(chǔ)策略,同時(shí)配合高容量架構(gòu)確保覆蓋異構(gòu)動(dòng)作,避免梯度干擾,解決“學(xué)得多”的問題。

      第二階段為,執(zhí)行器感知后訓(xùn)練(Actuation-Aware Post-Training)。

      凍結(jié)預(yù)訓(xùn)練基礎(chǔ)策略,輔以訓(xùn)練殘差策略(Residual Policy)做微調(diào)。同時(shí), 引入真實(shí)執(zhí)行器模型、激進(jìn)域隨機(jī)化、機(jī)械功率懲罰機(jī)制(P=τ·ω),精準(zhǔn)適配真機(jī)物理約束,解決仿真到現(xiàn)實(shí)的“最后一公里”。

      其中,重點(diǎn)抑制高動(dòng)態(tài)落地時(shí)的瞬態(tài)大負(fù)載,避免觸發(fā)硬件保護(hù),確保動(dòng)作安全穩(wěn)定。

      經(jīng)過實(shí)測,在宇樹G1人形機(jī)器人上,OmniXtreme實(shí)現(xiàn)單一策略執(zhí)行24種高動(dòng)態(tài)極限動(dòng)作,157次試驗(yàn)整體成功率91.08%。

      其中,后空翻成功率96.36%,為全球頂尖水平。

      武術(shù)動(dòng)作成功率93.33%,街舞/霹靂舞為86.36%。

      端到端推理延遲<10ms,控制頻率50Hz,完全滿足實(shí)時(shí)控制需求。

      對比傳統(tǒng)方法,當(dāng)動(dòng)作集從10個(gè)擴(kuò)展到50個(gè)時(shí),傳統(tǒng)RL基線成功率從100%暴跌至73.9%,而OmniXtreme仍穩(wěn)定在93.3%,展現(xiàn)出極強(qiáng)的擴(kuò)展性與穩(wěn)定性。

      論文成果首次實(shí)現(xiàn)單個(gè)策略穩(wěn)定執(zhí)行數(shù)十種極限動(dòng)作,為人形機(jī)器人從“專用”走向“通用”奠定了核心算法基礎(chǔ)。

      而兩階段框架更可大幅提升訓(xùn)練效率,無需為每個(gè)新動(dòng)作從零開始訓(xùn)練,加速新技能迭代。

      此外,論文將同步開源模型與代碼,這對推動(dòng)整個(gè)人形機(jī)器人行業(yè)的技術(shù)進(jìn)步應(yīng)有幫助。

      以下為論文全文:

      《OmniXtreme:突破高動(dòng)態(tài)人形機(jī)器人控制的通用性屏障》


      圖1:由我們統(tǒng)一策略O(shè)mnixtreme實(shí)現(xiàn)的極端全身人形控制。(a)一項(xiàng)定量比較顯示,我們精心挑選的極端運(yùn)動(dòng)庫所占據(jù)的挑戰(zhàn)性區(qū)域遠(yuǎn)大于標(biāo)準(zhǔn)的多運(yùn)動(dòng)基準(zhǔn)(如Unitree-重定向的LAFAN1)。通過實(shí)際執(zhí)行我們的統(tǒng)一策略O(shè)MNIXTREME,展現(xiàn)出源自該運(yùn)動(dòng)庫的穩(wěn)健且可在物理上實(shí)現(xiàn)的極端行為,包括(b)極端平衡行為(c)快速接觸切換與復(fù)雜的支撐轉(zhuǎn)換、(d)高速運(yùn)動(dòng)伴有較大的角速度,以及(e)涵蓋質(zhì)性上截然不同的運(yùn)動(dòng)風(fēng)格的多樣化全身行為。

      摘要

      高保真運(yùn)動(dòng)追蹤是檢驗(yàn)通用化人類級運(yùn)動(dòng)技能的終極試金石。

      然而現(xiàn)有策略常遭遇“通用性瓶頸”:隨著動(dòng)作庫多樣性擴(kuò)展,追蹤保真度不可避免地下降——尤其在真實(shí)場景中實(shí)現(xiàn)高動(dòng)態(tài)動(dòng)作時(shí)。

      我們發(fā)現(xiàn)這一失敗源于雙重疊加因素:多動(dòng)作優(yōu)化的擴(kuò)展學(xué)習(xí)瓶頸,以及現(xiàn)實(shí)驅(qū)動(dòng)系統(tǒng)中物理可執(zhí)行性限制。

      為突破此困境,我們提出可擴(kuò)展框架Omnixtreme,將通用運(yùn)動(dòng)技能學(xué)習(xí)與仿真到物理的技能優(yōu)化解耦。

      該方法采用高容量架構(gòu)的流匹配策略,在無需干擾密集型多動(dòng)作強(qiáng)化學(xué)習(xí)優(yōu)化的情況下擴(kuò)展表征能力,隨后通過驅(qū)動(dòng)感知優(yōu)化階段確保在物理硬件上保持穩(wěn)健性能。

      大量實(shí)驗(yàn)表明,Omnixtreme能在多樣化的高難度數(shù)據(jù)集上保持高保真追蹤。在真實(shí)機(jī)器人上,統(tǒng)一策略成功執(zhí)行了多種極端運(yùn)動(dòng),有效打破了高動(dòng)態(tài)人形機(jī)器人控制中長期存在的保真度與可擴(kuò)展性之間的權(quán)衡關(guān)系。

      一、引言

      我們最終追求的是具備可擴(kuò)展性、人類水平全身運(yùn)動(dòng)技能的通用型人形機(jī)器人。研究這類能力的自然且廣泛應(yīng)用的方法是高保真運(yùn)動(dòng)追蹤技術(shù),該技術(shù)要求控制器在保持動(dòng)態(tài)穩(wěn)定性的同時(shí),能夠精準(zhǔn)復(fù)現(xiàn)參考動(dòng)作并應(yīng)對接觸與干擾。高質(zhì)量追蹤技術(shù)遠(yuǎn)不止是美學(xué)追求:它能捕捉到支撐位姿操控、表情互動(dòng)及諸多下游核心人形能力的全身協(xié)調(diào)性與接觸時(shí)機(jī)。

      近年來,基于學(xué)習(xí)的運(yùn)動(dòng)追蹤技術(shù)取得了顯著進(jìn)展:通過精心設(shè)計(jì)的目標(biāo)和強(qiáng)化學(xué)習(xí),智能控制器能夠以高精度追蹤個(gè)體動(dòng)作,包括舞蹈、翻滾和武術(shù)等高度動(dòng)態(tài)的行為模式。最新研究在開發(fā)覆蓋更廣泛行為庫的多動(dòng)作控制器方面邁出了重要 步伐。

      然而一個(gè)反復(fù)出現(xiàn)的規(guī)律依然存在:當(dāng)我們將動(dòng)作庫擴(kuò)展到涵蓋多樣化風(fēng)格、接觸模式和時(shí)序方式的更大規(guī)模時(shí),運(yùn)動(dòng)追蹤質(zhì)量往往會(huì)下降。控制器會(huì)變得保守且“平庸” ,在最難的動(dòng)作上卡殼,或?qū)δM到真實(shí)場景轉(zhuǎn)換中不可避免的小偏差表現(xiàn)出脆弱性。這種退化在高動(dòng)態(tài)動(dòng)作 中尤為明顯,即使微小的追蹤誤差也可能迅速演變成災(zāi)難性故障。這種長期存在的保真度與可擴(kuò)展性之間的權(quán)衡,實(shí)際上限制了人形機(jī)器人運(yùn)動(dòng)控制所能實(shí)現(xiàn)的通用性水平,尤其是在高動(dòng)態(tài)模式下,這表明存在一個(gè)根本性的限制,而非孤立的工程問題。

      因此,一個(gè)核心問題隨之浮現(xiàn):為何高保真運(yùn)動(dòng)追蹤難以規(guī)模化,尤其在真實(shí)人形機(jī)器人上?我們認(rèn)為,這種困難源于當(dāng)前模擬到真實(shí)訓(xùn)練流程不同階段出現(xiàn)的兩個(gè)疊加障礙。

      第一個(gè)障礙是即使在模擬環(huán)境中也會(huì)出現(xiàn)的學(xué)習(xí)瓶頸。近期多項(xiàng)研究開始探索多動(dòng)作人形機(jī)器人追蹤技術(shù),旨在突破單一動(dòng)作模仿的局限實(shí)現(xiàn)更優(yōu)的可擴(kuò)展性。然而現(xiàn)有方法仍受制于表征與優(yōu)化兩方面的限制。

      在表征層面,多數(shù)方法依賴相對簡單的策略參數(shù)化方式,例如 MLP 行為器。當(dāng)需要將觀測數(shù)據(jù)映射到由多樣化行為和接觸模式產(chǎn)生的高度異構(gòu)動(dòng)作目標(biāo)時(shí),隨著數(shù)據(jù)多樣性的增加,這類參數(shù)化方式已被發(fā)現(xiàn)存在可擴(kuò)展性不足的問題。

      在優(yōu)化層面,通過強(qiáng)化學(xué)習(xí)聯(lián)合訓(xùn)練跨多個(gè)動(dòng)作的統(tǒng)一策略會(huì)加劇梯度干擾,常導(dǎo)致保守的平均化處理和對高動(dòng)態(tài)行為 的局部失效。這些因素共同作用,使得隨著動(dòng)作多樣性和難度的增加,追蹤保真度會(huì)急劇下降。

      第二個(gè)障礙是部署階段出現(xiàn)的物理執(zhí)行瓶頸。即便在仿真環(huán)境中實(shí)現(xiàn)了高保真度的運(yùn)動(dòng)追蹤,將這些行為轉(zhuǎn)化為物理機(jī)器人的執(zhí)行仍面臨挑戰(zhàn)。在先前的人形機(jī)器人學(xué)習(xí)流程中,訓(xùn)練階段的驅(qū)動(dòng)約束主要通過關(guān)節(jié)位置限制和簡單力矩邊界進(jìn)行建模。

      雖然這些簡化方法有助于學(xué)習(xí),但在處理高動(dòng)態(tài)運(yùn)動(dòng)時(shí)卻力不從心——這類運(yùn)動(dòng)中系統(tǒng)行為主要受未建模的執(zhí)行器非線性特性主導(dǎo),例如扭矩-速度特性、速度相關(guān)扭矩?fù)p耗, 以及再生功率現(xiàn)象等動(dòng)力學(xué)效應(yīng),導(dǎo)致執(zhí)行穩(wěn)定性快速下降。因此,仿真中看似可擴(kuò)展的保真度,最終可能無法在真實(shí)機(jī)器人上實(shí)現(xiàn)。

      基于上述分析,我們提出名為“ 全極限 ”(Omnixtre- me)的可擴(kuò)展訓(xùn)練框架,該框架專門針對兩大技術(shù)瓶頸進(jìn)行優(yōu)化, 旨在通過單一策略實(shí)現(xiàn)對多樣化且高動(dòng)態(tài)人形機(jī)器人行為的穩(wěn)健控制。

      為突破學(xué)習(xí)瓶頸,該框架采用流匹配策略,并通過行為克隆技術(shù)從動(dòng)作專家?guī)熘羞M(jìn)行專家到統(tǒng)一生成的預(yù)訓(xùn)練 。這種設(shè)計(jì)將表征學(xué)習(xí)與優(yōu)化過程解耦,既通過高容量生成策略提升表達(dá)能力,又避免了干擾嚴(yán)重的多動(dòng)作強(qiáng)化學(xué)習(xí)。

      為突破物理可執(zhí)行性瓶頸,OM極致引入了殘差強(qiáng)化學(xué)習(xí)后訓(xùn)練優(yōu)化機(jī)制,專門針對真實(shí)驅(qū)動(dòng)約束下的執(zhí)行需求進(jìn)行優(yōu)化——這種約束在高動(dòng)態(tài)運(yùn)動(dòng)場景中尤為重要。

      該階段并非重新學(xué)習(xí)運(yùn)動(dòng)追蹤,而是通過驅(qū)動(dòng)感知建模、優(yōu)化領(lǐng)域隨機(jī)化以及對功率相關(guān)效應(yīng)的顯式懲罰,對預(yù)訓(xùn)練策略進(jìn)行調(diào)整以適應(yīng)現(xiàn)實(shí)驅(qū)動(dòng)約束。這種針對性優(yōu)化確保了經(jīng)過縮放的追蹤策略在真實(shí)硬件動(dòng)態(tài)條件下仍能保持物理可執(zhí)行性。

      我們通過在日益多樣化和高動(dòng)態(tài)運(yùn)動(dòng)庫上的廣泛模擬和真實(shí)機(jī)器人評估,驗(yàn)證了Omnixtreme的性能。超越標(biāo)準(zhǔn)多運(yùn)動(dòng)在基準(zhǔn)測試中,我們精心設(shè)計(jì)了一組以高速度、頻繁接觸轉(zhuǎn)換和嚴(yán)格時(shí)間約束為特征的極端運(yùn)動(dòng)場景,并對全極運(yùn)動(dòng)系統(tǒng)進(jìn)行全方位評估。

      如圖1所示,該系統(tǒng)在UnitreeG1人形機(jī)器人上成功實(shí)現(xiàn)了翻滾、特技動(dòng)作和霹靂舞等多種極限行為,其中微小偏差都可能迅速引發(fā)連鎖故障。這些結(jié)果共同構(gòu)成了嚴(yán)格的可擴(kuò)展性壓力測試,有力挑戰(zhàn)了“運(yùn)動(dòng)多樣性與難度增加必然導(dǎo)致追蹤精度下降”的普遍認(rèn)知。

      總體而言,我們的貢獻(xiàn)體現(xiàn)在四個(gè)方面:

      1) 我們提出Omnixtreme ,這是一個(gè)可擴(kuò)展的人形機(jī)器人高保真運(yùn)動(dòng)追蹤訓(xùn)練框架,專門解決高動(dòng)態(tài)人形機(jī)器人控制中的基本可擴(kuò)展性挑戰(zhàn)。

      2) 我們提出一種基于流匹配的專家到統(tǒng)一生成預(yù)訓(xùn)練階段,使統(tǒng)一策略能夠跨異構(gòu)和高動(dòng)態(tài)運(yùn)動(dòng)進(jìn)行擴(kuò)展。

      3) 我們提出一種基于運(yùn)動(dòng)感知的殘差強(qiáng)化學(xué)習(xí)后訓(xùn)練階段,該階段在實(shí)際運(yùn)動(dòng)約束條件下優(yōu)化預(yù)訓(xùn)練策略,確保物理可執(zhí)行性。

      4) 我們通過大量模擬和真實(shí)實(shí)驗(yàn)表明,omnixtreme技術(shù)能夠使單一統(tǒng)一策略穩(wěn)健執(zhí)行多樣化和極端運(yùn)動(dòng),解決了傳統(tǒng)保真度與可擴(kuò)展性之間的權(quán)衡問題,尤其適用于高動(dòng)態(tài)運(yùn)動(dòng)場景。

      二、相關(guān)工作

      A. 人形機(jī)器人全身體控制與通用跟蹤

      近期在人形機(jī)器人全身控制領(lǐng)域的研究已取得顯著進(jìn)展 ,涵蓋舞蹈、跌倒恢復(fù)和跑酷等多種技能。然而,如何在大規(guī)模多樣化動(dòng)作庫中實(shí)現(xiàn)高保真運(yùn)動(dòng)追蹤與可擴(kuò)展性仍是未解難題。

      ASAP和BeyondMim- ic等框架在高質(zhì)量模仿單個(gè)動(dòng)作片段方面表現(xiàn)優(yōu)異,但將這些方法擴(kuò)展到日益龐大的動(dòng)作集時(shí),優(yōu)化復(fù)雜度會(huì)顯 著 增 加 。

      另 一 方 面 ,OmniH2O、ExBody2和GMT等基于強(qiáng)化學(xué)習(xí)的大規(guī)模追蹤器雖展現(xiàn)出良好的可擴(kuò)展性,但在廣泛技能覆蓋下保持精準(zhǔn)動(dòng)作保真度仍具挑戰(zhàn)。

      這種矛盾在實(shí)踐中常表現(xiàn)為保真度與可擴(kuò)展性的權(quán)衡。為解決該問題,Omnixtreme引入了生成式動(dòng)作表征與專家到統(tǒng)一優(yōu)化框架,既實(shí)現(xiàn)了可擴(kuò)展學(xué)習(xí),又在高動(dòng)態(tài)運(yùn)動(dòng)數(shù)據(jù)集上保持了強(qiáng)大的追蹤精度。

      B. 基于擴(kuò)散與流動(dòng)的機(jī)器人規(guī)劃與控制動(dòng)作建模

      基于擴(kuò)散與流動(dòng)的模型在機(jī)器人學(xué)習(xí)領(lǐng)域展現(xiàn)出強(qiáng)大能力,通過迭代優(yōu)化和隨機(jī)采樣技術(shù)提升機(jī)器人控制與規(guī)劃的 穩(wěn)健 性與多樣性 。早期研究主要聚焦于高層級軌跡規(guī)劃或低頻次視覺運(yùn)動(dòng)任務(wù),而DiffuseLoco則將該方法應(yīng)用于高頻次四足機(jī)器人控制。

      為增強(qiáng)表達(dá)能力與 穩(wěn)健 性,近期研究如Policy Decorator和ResiP在機(jī)械臂機(jī)器人上引入殘差策略學(xué)習(xí),通過將凍結(jié)基礎(chǔ)模型與優(yōu)化層結(jié)合,有效應(yīng)對長時(shí)域裝配中的協(xié)變量偏移與精度瓶頸。

      然而,鑒于類人機(jī)器人與四足機(jī)器人及機(jī)械臂在技能空間和固有不穩(wěn)定性方面的顯著差異,當(dāng)前研究如BeyondMimic仍聚焦于引導(dǎo)式控制接口,而非實(shí)現(xiàn)高動(dòng)態(tài)類人機(jī)器人運(yùn)動(dòng)追蹤所需的可擴(kuò)展性與高速敏捷性。

      與以往研究不同,Omnixtreme提出了一套完整的訓(xùn)練流程,包含基于DAgg- er的流匹配預(yù)訓(xùn)練和殘差后訓(xùn)練,突破了低級可擴(kuò)展性和敏捷性的限制,其運(yùn)動(dòng)多樣性與動(dòng)態(tài)性能遠(yuǎn)超既往方法。

      C. 基于動(dòng)作感知的敏捷機(jī)器人控制

      實(shí)現(xiàn)敏捷性仍是機(jī)器人技術(shù)領(lǐng)域的前沿課題。 ACRL通過采用執(zhí)行器約束強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)高速四足移動(dòng),而“ 縮小現(xiàn)實(shí)差距”項(xiàng)目則運(yùn)用電流-扭矩校準(zhǔn)與執(zhí)行器動(dòng)力學(xué)建模實(shí)現(xiàn)五指靈巧操作。

      盡管其他形態(tài)機(jī)器人已取得進(jìn)展,但人形機(jī)器人如何學(xué)習(xí)敏捷且具備執(zhí)行器感知能力的控制策略仍是未被充分探索的領(lǐng)域。OM極限通過整合物理信息驅(qū)動(dòng)的電機(jī)建模與執(zhí)行器正則化技術(shù),突破了現(xiàn)實(shí)硬件限制下人形機(jī)器人敏捷性能的邊界,成功填補(bǔ)了這一技術(shù)空白。

      三、方法論

      在本節(jié)中,我們提出名為“ 全極化” 的兩階段訓(xùn)練框架,用于實(shí)現(xiàn)可擴(kuò)展的高保真度人形機(jī)器人運(yùn)動(dòng)技能學(xué)習(xí)。

      第一階段基于流的可擴(kuò)展預(yù)訓(xùn)練專注于高保真度動(dòng)作模仿與表征能力的獲取。具體而言,我們通過流匹配技術(shù) ,將多種動(dòng)作專家策略提煉為統(tǒng)一的基礎(chǔ)策略。這一生成式預(yù)訓(xùn)練階段無需依賴易受干擾的多動(dòng)作聯(lián)合強(qiáng)化學(xué)習(xí),即可在異構(gòu)動(dòng)作間建立共享的運(yùn)動(dòng)追蹤先驗(yàn)。

      為彌合仿真與實(shí)際執(zhí)行之間的差距,我們進(jìn)一步引入基于殘差強(qiáng)化學(xué)習(xí)的動(dòng)作感知后訓(xùn)練階段。該階段不再重新學(xué)習(xí)運(yùn)動(dòng)追蹤,而是通過訓(xùn)練殘差策略生成校正動(dòng)作,以補(bǔ)充預(yù)訓(xùn)練的流匹配基礎(chǔ)策略。這一階段在引入更激進(jìn)的領(lǐng)域隨機(jī)化的同時(shí),使整個(gè)系統(tǒng)與現(xiàn)實(shí)世界的執(zhí)行約束保持一致。

      通過這 種針對性優(yōu)化, 剩余策略能夠?qū)㈩A(yù)先訓(xùn)練的跟蹤行為適應(yīng)于實(shí)際的硬件動(dòng)態(tài)特性,從而提升物理執(zhí)行的可行性和部署的穩(wěn)健性。


      圖.2:全極值系統(tǒng)的概述。(a) 預(yù)訓(xùn)練階段:通過基于DAgger的流匹配技術(shù)訓(xùn)練統(tǒng)一基礎(chǔ)策略,整合來自不同運(yùn)動(dòng)追蹤專家的多樣化運(yùn)動(dòng)先驗(yàn)。(b) 后訓(xùn)練階段:基礎(chǔ)策略保持凍 結(jié)狀態(tài), 同時(shí)在嚴(yán)格運(yùn)動(dòng)約束、廣泛領(lǐng)域隨機(jī)化及功率安全正則化條件下優(yōu)化殘差策略, 以彌合仿真與真實(shí)環(huán)境的差距。(c) 系統(tǒng)部署:整個(gè)推理流程為實(shí)時(shí)模式,且完全在機(jī)載設(shè)備上執(zhí)行,從而便于在物理環(huán)境中實(shí)現(xiàn)穩(wěn)健且靈活的控制。

      A. 可擴(kuò)展的基于流的策略預(yù)訓(xùn)練

      1) 問題表述:在預(yù)訓(xùn)練階段,我們通過基于數(shù)據(jù)集聚合(DAgger)的蒸餾技術(shù)學(xué)習(xí)流匹配機(jī)器人策略。具體而言,我們考慮觀察空間o={p,c,h},其包含:(i) 機(jī)器人本體感覺p,包括關(guān)節(jié)位置、速度、基座角速度及先前動(dòng)作;(ii)命令c,由6維軀干方向差異與參考運(yùn)動(dòng)的目標(biāo)關(guān)節(jié)位置及速度組成;(iii)歷史信息h,涵蓋過往本體感覺狀態(tài)。給定參考運(yùn)動(dòng)數(shù)據(jù)集,我們的目標(biāo)是首先學(xué)習(xí)專家策略對于每個(gè)參考動(dòng)作,然后將其提煉為基于流的通用策略πθ(a|o)。

      2) 專家策略學(xué)習(xí):在專家策略訓(xùn)練中,我們從Unitr- ee重定向的LAFAN1(LAFAN1)數(shù)據(jù)集、amass、MimicKit以及Reallusion運(yùn)動(dòng)庫的組合中抽取參考運(yùn)動(dòng)數(shù)據(jù)集M,涵蓋多樣化行為模式和高動(dòng)態(tài)機(jī)動(dòng)。所有參考運(yùn)動(dòng)首先通過GMR重定向至UnitreeG1人形機(jī)器人。隨后,我們通過近端策略優(yōu)化(PPO)在特定運(yùn)動(dòng)mk上訓(xùn)練每個(gè)專家策略π(k) ex pert。

      3) 流匹配策略學(xué)習(xí):我們通過DAgger學(xué)習(xí)流匹配機(jī)器人策略,首先在模擬器中部署當(dāng)前基于流的策略πθ(a|o) ,并根據(jù)參考運(yùn)動(dòng)數(shù)據(jù)集M收集訪問狀態(tài)軌跡 {o1 , · · · , oN } 。對于每個(gè)訪問狀態(tài)o ,我們通過查詢對應(yīng)專家策略獲取專家動(dòng)作aexpert ?;诹鞯哪P碗S后通過優(yōu)化從噪聲動(dòng)作中恢復(fù)專家動(dòng)作aexpert:


      其中at= (1?t)aexpert+t?是根據(jù)流時(shí)間步t∈[0, 1]在專家動(dòng)作aexpert與隨機(jī)噪聲?~N(0,I)之間插值得到的帶噪聲動(dòng)作。該目標(biāo)函數(shù)學(xué)習(xí)速度場vθ (at,t,o)以預(yù)測目標(biāo)速度u=??aexpert,從而在每個(gè)流時(shí)間步學(xué)習(xí)去噪方向。在優(yōu)化過程中,時(shí)間步t從Beta分布t~Beta(α,β)中采樣,以將學(xué)習(xí)過程聚焦于概率路徑的特定區(qū)域,從而增強(qiáng)收斂性和軌跡細(xì)化。通過速度場vθ,我們可以通過前向歐拉規(guī)則從t=1到t=0對vθ進(jìn)行積分,從隨機(jī)噪聲a1~N(0,I)生成動(dòng)作a0:


      其中D是控制近似精度的積分或去噪步驟數(shù)量。通過迭代展開軌跡并使用等式( 1)以專家動(dòng)作監(jiān)督它們,我們將π θ 作為將當(dāng)前觀察映射到適當(dāng)動(dòng)作的通用策略進(jìn)行學(xué)習(xí)。完整的訓(xùn)練過程如圖2(a)所示,并在算法1中詳細(xì)說明。

      4) 保真隨機(jī)化與噪聲策略:為在確保物理系統(tǒng)穩(wěn)定性的前提下保持高度動(dòng)態(tài)表現(xiàn)力,我們在教師訓(xùn)練階段和預(yù)訓(xùn)練階段均采用保守的隨機(jī)化與噪聲策略(詳見表I)。通過適度引入噪聲水平和領(lǐng)域隨機(jī)化,我們有效避免了過度隨機(jī)性導(dǎo)致的性能崩盤。這種策略確保智能體能精準(zhǔn)捕捉底層物理動(dòng)力學(xué)特征,從而生成具備基礎(chǔ)仿真-真實(shí) 穩(wěn)健性 及預(yù)測確定性的流匹配策略,為實(shí)際部署提供必要保障。

      B. 動(dòng)作感知后訓(xùn)練階段

      1) 殘差策略建模:雖然預(yù)訓(xùn)練的流匹配基礎(chǔ)策略提供了穩(wěn)健且統(tǒng)一的行為基礎(chǔ),但在面對真實(shí)物理環(huán)境時(shí)會(huì)遇到性能差距。為更好地彌補(bǔ)這一差距并實(shí)現(xiàn)平滑的模擬到真實(shí)遷移,我們提出了一種基于輕量級 MLP 的殘差校正學(xué)習(xí)的后訓(xùn)練優(yōu)化階段。具體而言,我們通過生成優(yōu)化動(dòng)作a=aflow + ares并在附錄中詳細(xì)說明的PPO機(jī)制下,利用累積獎(jiǎng)勵(lì)對凍結(jié)的預(yù) 訓(xùn)練策略πθ 進(jìn)行殘差校正策略π? 學(xué)習(xí)。

      具體而言,殘差行為者與評價(jià)者的觀測空間整合了機(jī)器人本體感覺與運(yùn)動(dòng)指令 以及當(dāng)前基礎(chǔ)動(dòng)作aflow 。在本體感覺狀態(tài)下,殘差策略會(huì)觀察先前優(yōu)化的動(dòng)作,而流匹配基礎(chǔ)策略則保持對先前基于流的動(dòng)作的條件依賴。

      表I:預(yù)訓(xùn)練與后訓(xùn)練階段的噪聲、域隨機(jī)化及終止閾值配置。此處±x表示[-x x]。


      2) 作用感知物理約束建模:為明確考慮現(xiàn)實(shí)世界中的作用效應(yīng),我們采用包含真實(shí)作用感知物理約束和領(lǐng)域隨機(jī)化的環(huán)境訓(xùn)練殘差策略,如圖2(b)所示。作用感知物理建模的具體方法如下:

      a) 激進(jìn)的領(lǐng)域隨機(jī)化:我們大幅擴(kuò)展了領(lǐng)域隨機(jī)化的范圍,在常見領(lǐng)域隨機(jī)化設(shè)置(包括初始姿態(tài)噪聲、力擾動(dòng)幅度、角速度等 )上最高可增加50% ,具體參數(shù)詳見表I 。通過添加表面噪聲和隨機(jī)放置垂直臺階來實(shí)現(xiàn)地形隨機(jī)化。關(guān)鍵在于將終止閾值放寬1.5倍 (例如將方向誤差從0.8放寬至1.2弧度) 。這種放寬使得殘差策略能夠探索并修正那些原本會(huì)被提前終止的、存在較大偏差但可恢復(fù)的狀態(tài)。

      b) 動(dòng)力安全驅(qū)動(dòng)正則化:實(shí)際應(yīng)用中,高度動(dòng)態(tài)的運(yùn)動(dòng)可能引發(fā)標(biāo)準(zhǔn)訓(xùn)練流程中未明確調(diào)控的瞬態(tài)制動(dòng)負(fù)荷。為解決該問題,我們引入對過度負(fù)關(guān)節(jié)機(jī)械功率的顯式懲罰機(jī)制, 以緩解可能觸發(fā)過流保護(hù)或熱應(yīng)力的激進(jìn)電機(jī)制動(dòng)行為。具體而言,我們采用由施加的關(guān)節(jié)扭矩τ和角速度ω計(jì)算得出的瞬時(shí)機(jī)械功率P=τ · ω作為執(zhí)行器安全的關(guān)鍵策略。當(dāng)負(fù)功率超過預(yù)設(shè)死區(qū)時(shí),系統(tǒng)將施加懲罰以抑制大規(guī)模再生制動(dòng)。


      各關(guān)節(jié)制動(dòng)事件:


      其中Pj , Pdb分別表示關(guān)節(jié)j的功率和死區(qū)閾值。K為歸一化常數(shù)。實(shí)際應(yīng)用中,該參數(shù)會(huì)根據(jù)運(yùn)動(dòng)場景選擇性地應(yīng)用于膝關(guān)節(jié)(例如后空翻動(dòng)作),因?yàn)檫@些關(guān)節(jié)在沖擊和恢復(fù)階段特別容易承受高制動(dòng)負(fù)荷。

      c) 以執(zhí)行器狀態(tài)感知的扭矩-速度約束:模擬與實(shí)際運(yùn)行差異的主要根源在于執(zhí)行器建模的過度簡化,而標(biāo)準(zhǔn)扭矩限制技術(shù)則忽略了由反電動(dòng)勢和物理功率限制所施加的 速度相關(guān)約束。這種缺失會(huì)導(dǎo)致在高動(dòng)態(tài)動(dòng)作執(zhí)行時(shí)出現(xiàn)顯著的模擬與現(xiàn)實(shí)之間的差距。 為彌補(bǔ)這一不足,我們將真實(shí)的扭矩-速度操作范圍直接整合至仿真系統(tǒng)中,基于扭矩與角速度的瞬時(shí)對齊動(dòng)態(tài)推導(dǎo)扭矩極限:


      允許扭矩隨后被定義為關(guān)節(jié)速度幅值的單調(diào)遞減函數(shù):


      在施加于關(guān)節(jié)之前,指令扭矩最終被限制在這一允許范圍內(nèi),從而確保模擬器不會(huì)采樣到實(shí)際執(zhí)行器物理上無法實(shí)現(xiàn)的扭矩指令。

      除轉(zhuǎn)矩-轉(zhuǎn)速限制外,我們還通過非線性摩擦項(xiàng)對執(zhí)行器級內(nèi)部損耗進(jìn)行了建 模扭矩鉗制后應(yīng)用。

      平滑的庫侖分量捕捉了從靜摩擦到動(dòng)摩擦的轉(zhuǎn)變,而粘性項(xiàng)則考慮了與速度相關(guān)的耗散,并提供了額外的阻尼。參數(shù)μ s 、vact和μ d是常數(shù)。

      總體而言,這一結(jié)構(gòu)化優(yōu)化階段所生成的控制器同時(shí)具備更高的安全性、更強(qiáng)的抗大擾動(dòng)能力, 以及更貼近真實(shí)世界執(zhí)行器動(dòng)態(tài)特性的特性,從而能夠可靠地應(yīng)用于機(jī)器人系統(tǒng)。

      C. 真實(shí)世界部署

      圖2(c)展示了集成化的實(shí)際部署流程。在部署階段,我們以骨盆IMU 作為主要姿態(tài)參考源 ,通過正向運(yùn)動(dòng)學(xué)(FK)計(jì)算軀干旋轉(zhuǎn)。為確保最小控制延遲,整個(gè)計(jì)算流程——包括基于FK的狀態(tài)估計(jì)、基礎(chǔ)流匹配策略和殘差策略——均通過TensorRT進(jìn)行優(yōu)化和執(zhí)行。該集成流程在Unitree G1搭載的Orin NX 上實(shí)現(xiàn)了約10毫秒的端到端推理延遲。這種優(yōu)化使機(jī)器人能夠在復(fù)雜物理環(huán)境中以穩(wěn)定的50Hz頻率執(zhí)行高質(zhì)量運(yùn)動(dòng)追蹤。

      四、實(shí)驗(yàn)

      我們通過大量模擬實(shí)驗(yàn)和物理機(jī)器人實(shí)驗(yàn),評估了所提出的全極系統(tǒng)(omnixtreme system)在運(yùn)動(dòng)庫多樣性與難度提升時(shí)的可擴(kuò)展性。實(shí)驗(yàn)圍繞以下關(guān)鍵問題展開:

      Q1:可擴(kuò)展的高保真跟蹤。與先前的多運(yùn)動(dòng)基線方法相比,我們的方法能否在仿真和真實(shí)機(jī)器人場景中保持高保真跟蹤的規(guī)?;瑫r(shí)避免因表示和優(yōu)化挑戰(zhàn)而崩潰?

      Q2:Fidelity與可擴(kuò)展性的權(quán)衡(全極化控制器與從頭學(xué)習(xí)強(qiáng)化學(xué)習(xí)控制器對比)。隨著運(yùn)動(dòng)多樣性和難度的增加,從頭學(xué)習(xí)多運(yùn)動(dòng)強(qiáng)化學(xué)習(xí)控制器的跟蹤性能會(huì)如何下降?我們的方法能在多大程度上拓展可擴(kuò)展性邊界?

      Q3:基于流的控制器(omnixtreme與 MLP 控制器)的容量擴(kuò)展。增加模型容量是否能提升大規(guī)模多運(yùn)動(dòng)跟蹤性能?通過流匹配的生成式預(yù)訓(xùn)練是否比傳統(tǒng)MLP運(yùn)動(dòng)跟蹤控制器具有更強(qiáng)、更穩(wěn)定的擴(kuò)展能力?

      Q4:現(xiàn)實(shí)世界可執(zhí)行性與穩(wěn)健性。過度領(lǐng)域隨機(jī)化、動(dòng)作感知建模與功耗感知安全機(jī)制如何單獨(dú)及協(xié)同影響仿真到現(xiàn)實(shí)的遷移效果與實(shí)際執(zhí)行成功率?

      Q5:定性全身能力。除標(biāo)量追蹤指標(biāo)外,Omnixtreme能否在不同運(yùn)動(dòng)風(fēng)格和動(dòng)態(tài)接觸模式下展現(xiàn)敏捷多變的全身行為?

      這些問題共同探討了omnixtreme的可擴(kuò)展性與 穩(wěn)健 性,通過解析生成式預(yù)訓(xùn)練在表征與容量擴(kuò)展中的作用, 以及殘差后訓(xùn)練在實(shí)際可執(zhí)行性中的作用。

      A. 實(shí)驗(yàn)設(shè)置

      1) 運(yùn)動(dòng)庫:我們采用雙層架構(gòu)設(shè)計(jì)構(gòu)建運(yùn)動(dòng)庫 。首先,我們使用完整的LAFAN1數(shù)據(jù)集——該數(shù)據(jù)集在多運(yùn)動(dòng)追蹤領(lǐng)域已被廣泛采用,是評估風(fēng)格與時(shí)間多樣性下可擴(kuò)展性的標(biāo)準(zhǔn)基準(zhǔn)。

      其次,為了評估并突破極端類人運(yùn)動(dòng)的極限,我們從LAFAN1、amass、MimicKit和Reallusion中精選了約60個(gè)極具挑戰(zhàn)性的運(yùn)動(dòng)。如圖1(a)所示,這些運(yùn)動(dòng)展現(xiàn)出顯著更高的動(dòng)態(tài)強(qiáng)度、頻繁的接觸轉(zhuǎn)換以及嚴(yán)格的時(shí)序約束。我們將這個(gè)精選集統(tǒng)稱為XtremeMotion數(shù)據(jù)集。

      LAFAN1與XtremeMotion共同構(gòu)建了一個(gè)運(yùn)動(dòng)庫,該庫既涵蓋標(biāo)準(zhǔn)多運(yùn)動(dòng)基準(zhǔn)測試,又包含探索保真度、 穩(wěn)健 性及實(shí)際可執(zhí)行性極限的極端行為。

      2) 基線方法:我們對比了兩類專為多運(yùn)動(dòng)跟蹤設(shè)計(jì)的強(qiáng)基線方法。(a)專家到統(tǒng)一 MLP 蒸餾。這類方法首先針對每個(gè)運(yùn)動(dòng)(或每個(gè)聚類)訓(xùn)練專家策略,然后將其蒸餾為單一的統(tǒng)一 MLP 跟蹤策略?;诒O(jiān)督蒸餾,它們受益于相對穩(wěn)定且直接的優(yōu)化過程,但受限于 MLP 策略的表征能力。(b)從頭開始的多運(yùn)動(dòng)強(qiáng)化學(xué)習(xí)。這類方法通過跨所有運(yùn)動(dòng)的強(qiáng)化學(xué)習(xí)直接從頭訓(xùn)練單一的統(tǒng)一跟蹤策略,但隨著運(yùn)動(dòng)多樣性和難度的增加,它往往會(huì)受到梯 度干擾和保守平均處理的影響。

      B. 評估指標(biāo)

      該策略通過運(yùn)動(dòng)追蹤的模擬部署進(jìn)行評估, 以提取性能指標(biāo)。主要指標(biāo)是成功率(Succ),若人形機(jī)器人偏離參考運(yùn)動(dòng)超過預(yù)設(shè)閾值或出現(xiàn)不穩(wěn)定狀態(tài),則判定該回合為失敗 。我們還報(bào)告了根相對平均關(guān)節(jié)位置誤差(MPJ- PE)(毫米), 以及關(guān)節(jié)空間速度 (?vel)加速度 (? acc)的偏差,以此量化運(yùn)動(dòng)學(xué)精度和物理保真度。

      在物理機(jī)器人領(lǐng)域,我們采用部署導(dǎo)向的評估指標(biāo)來衡量性能,包括技能級成功率, 以及對高動(dòng)態(tài)行為運(yùn)動(dòng)保真度的定性評估。

      C. 可擴(kuò)展高保真跟蹤(Q1)

      本節(jié)研究在運(yùn)動(dòng)庫多樣化和難度提升的背景下,Omni- xtreme是否仍能保持高保真度的人形運(yùn)動(dòng)追蹤能力。我們通過匹配模型容量和相同訓(xùn)練數(shù)據(jù),將 OMNIX Treme與專家到統(tǒng)一 MLP 提煉、從頭多運(yùn)動(dòng)強(qiáng)化學(xué)習(xí)等方法進(jìn)行對比 。所有方法均基于同一組合運(yùn)動(dòng)庫(LAFAN1+Xtre- meMotion)訓(xùn)練,并在三個(gè)測試集上進(jìn)行評估:完整運(yùn)動(dòng)庫、高動(dòng)態(tài)XtremeMotion子集以及從未見過的運(yùn)動(dòng)集(隨機(jī)采樣自重定向amass)。

      仿真結(jié)果。如表II所示,Omnixtreme在所有仿真指標(biāo)上均持續(xù)優(yōu)于兩種基線方法。當(dāng)運(yùn)動(dòng)難度增加時(shí),Xtrem- eMotion和未見運(yùn)動(dòng)場景下的差距顯著擴(kuò)大,此時(shí)基線方法的成功率下降且跟蹤誤差上升。這表明omnixtreme在運(yùn)動(dòng)多樣性與難度增加時(shí)仍能保持跟蹤保真度,而非因復(fù)雜度提升而降低性能。

      現(xiàn)實(shí)世界應(yīng)用。我們進(jìn)一步將OmnixTreme系統(tǒng)部署在Unitree G1人形機(jī)器人上,采用XtremeMotion提供的動(dòng)作數(shù)據(jù)。為便于展示,動(dòng)作被歸類為具有共同動(dòng)態(tài)結(jié)構(gòu)和接觸模式的代表性技能類別。若動(dòng)作在無人工干預(yù)或安全觸發(fā)終止的情況下完成,則視為成功。如表III所示,在涵蓋24種高動(dòng)態(tài)動(dòng)作的157次真實(shí)世界測試中 ,OmnixTreme在翻滾、雜技、霹靂舞及武術(shù)風(fēng)格動(dòng)作等多樣化技能類別中均保持穩(wěn)定高成功率。這些結(jié)果表明,仿真中觀察到的可擴(kuò)展性優(yōu)勢可轉(zhuǎn)化為真實(shí)硬件上穩(wěn)健且物理可執(zhí)行的行為。

      D. Fidelity-可擴(kuò)展性權(quán)衡(Q2)

      為探究多運(yùn)動(dòng)追蹤中的保真度與可擴(kuò)展性權(quán)衡關(guān)系,我們通過在XtremeMotion數(shù)據(jù)集的擴(kuò)展運(yùn)動(dòng)樣本上進(jìn)行訓(xùn)練,逐步擴(kuò)大運(yùn)動(dòng)多樣性,并分析不同訓(xùn)練范式在相同評估協(xié)議下的響應(yīng)差異。


      圖.3:精度-可擴(kuò)展性權(quán)衡。在逐步擴(kuò)展動(dòng)作多樣性和難度的同時(shí),追蹤成功率,并在固定前10個(gè)動(dòng)作集上評估所有策略。


      圖.4:容量擴(kuò)展。跟蹤保真度和 穩(wěn)健 性隨模型容量變化。Omnixtreme從擴(kuò)展中獲益更顯著,而傳統(tǒng) MLP 控制器更早達(dá)到飽和。

      在這一受控的擴(kuò)展機(jī)制下,從頭開始的多運(yùn)動(dòng)強(qiáng)化學(xué)習(xí)隨著規(guī)模擴(kuò)大表現(xiàn)出更早且更顯著的性能下降,而全極化方法則在更寬泛的擴(kuò)展范圍內(nèi)保持更高的跟蹤穩(wěn)健性。如圖3所示,從頭開始的多運(yùn)動(dòng)強(qiáng)化學(xué)習(xí)呈現(xiàn)出隨著運(yùn)動(dòng)多樣性增加的典型性能退化模式:跟蹤精度持續(xù)下降,超過臨界規(guī)模后 穩(wěn)健 性急劇喪失。這些結(jié)果表明,觀察到的保真度與擴(kuò)展性之間的權(quán)衡并非固有特性,而是可以通過更具擴(kuò)展性的訓(xùn)練范式得到顯著緩解。

      E. 容量擴(kuò)展(Q3)

      接下來我們將驗(yàn)證:增加模型容量是否能進(jìn)一步提升多運(yùn)動(dòng)追蹤性能, 以及我們的生成式策略是否比傳統(tǒng) MLP控制器展現(xiàn)出更強(qiáng)的擴(kuò)展性。在相同數(shù)據(jù)和訓(xùn)練方案下,我們訓(xùn)練了一系列容量遞增的模型(如寬度/深度、 Transformer隱藏層大小及層數(shù)) 。 圖4展示了追蹤保真度與 穩(wěn)健 性隨模型容量的變化趨勢。我們發(fā)現(xiàn)容量增加對流匹配策略的追蹤質(zhì)量提升更為直接,而基于MLP的策略則表現(xiàn)出較弱的增益。這些結(jié)果表明,當(dāng)與可擴(kuò)展訓(xùn)練范式結(jié)合時(shí),表征擴(kuò)展性是提升多運(yùn)動(dòng)追蹤保真度的實(shí)用手段。

      F. 真實(shí)世界可執(zhí)行性與穩(wěn)健性(Q4)

      我們通過逐步啟用不同的訓(xùn)練后機(jī)制并評估其在技能層面的實(shí)際執(zhí)行效果,來分析這些機(jī)制對模擬到現(xiàn)實(shí)轉(zhuǎn)換的貢獻(xiàn)。表IV匯總了相關(guān)消融結(jié)果。

      表II:多樣化運(yùn)動(dòng)場景下的可擴(kuò)展高保真運(yùn)動(dòng)追蹤。OmnixTreme在高動(dòng)態(tài)變化及未見運(yùn)動(dòng)場景中,始終比基線方法表現(xiàn)出更低的運(yùn)動(dòng)學(xué)誤差和更高的成功率。


      表III:Unitree G1上Omnixtreme的真實(shí)世界評估 。我們使用Xtrem- eMotion運(yùn)動(dòng)庫中的動(dòng)作數(shù)據(jù),在物理硬件上對Omnixtreme進(jìn)行評估。


      表IV:后訓(xùn)練機(jī)制的消融。不同技能在增量后訓(xùn)練機(jī)制下的真實(shí)世界可執(zhí)行性。無:僅基礎(chǔ)預(yù)訓(xùn)練策略;MC:運(yùn)動(dòng)約束;ADR:激進(jìn)域隨機(jī)化;PS:功率安全正則化(過流/再生制動(dòng)保護(hù) ) 。

      √:穩(wěn)定執(zhí)行;

      △:不穩(wěn)定或不一致執(zhí)行;

      ×:一致故障;

      ?:主要與功率安全保護(hù)相關(guān)的故障,如過流或過度再生制動(dòng)。


      綜上所述,不同類型的高動(dòng)態(tài)運(yùn)動(dòng)表現(xiàn)出不同的失效模式,而每種以執(zhí)行為導(dǎo)向的機(jī)制都針對現(xiàn)實(shí)世界可執(zhí)行性中的互補(bǔ)特性進(jìn)行優(yōu)化。對于翻轉(zhuǎn)等高沖擊運(yùn)動(dòng),僅需強(qiáng)制執(zhí)行器扭矩-速度約束即可實(shí)現(xiàn)穩(wěn)定執(zhí)行,因?yàn)樽裱姍C(jī)工作范圍可避免硬件層面的即時(shí)違規(guī)。像霹靂舞和雜技動(dòng)作這類接觸密集型技能,僅靠電機(jī)約束仍存在穩(wěn)定性問題,但通過激進(jìn)的領(lǐng)域隨機(jī)化技術(shù)可顯著提升對時(shí)序敏感型接觸擾動(dòng)的 穩(wěn)健 性。涉及高速緩沖沖擊的動(dòng)作(如雜技落地)即便采用激進(jìn)隨機(jī)化技術(shù)仍具挑戰(zhàn)性,此時(shí)功率安全正則化技術(shù)至關(guān)重要——它能有效緩解因瞬態(tài)制動(dòng)負(fù)荷過大及高沖擊接觸時(shí)能量吸收不安全導(dǎo)致的故障。這些研究結(jié)果共同表明,可靠的現(xiàn)實(shí)世界執(zhí)行能力源于對驅(qū)動(dòng)感知建模、 穩(wěn)健 性導(dǎo)向隨機(jī)化以及能量感知安全約束的協(xié)同作用。

      G. 極端運(yùn)動(dòng)的定性結(jié)果(Q5)

      最后,我們提供了定性證據(jù),表明omnixtreme能夠在不同情境下展現(xiàn)出敏 捷且多樣的全身技能。


      圖.5:定性實(shí)驗(yàn)結(jié)果。Omnixtreme系統(tǒng)在真實(shí)場景中生成的代表性動(dòng)作演示,完整呈現(xiàn)了翻滾、雜技、霹靂舞和武術(shù)等不同風(fēng)格與接觸模式下的全身動(dòng)作。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在物理硬件上能穩(wěn)定協(xié)調(diào)地完成動(dòng)作,即使在快速接觸轉(zhuǎn)換和時(shí)間敏感階段也能保持精準(zhǔn)執(zhí)行。

      除了標(biāo)量追蹤指標(biāo)所能捕捉的運(yùn)動(dòng)風(fēng)格和接觸模式外,我們還展示了XtremeMotion中跨越不同風(fēng)格動(dòng)作的代表性演示。圖5表明,Omnixtreme能夠通過全身協(xié)調(diào)動(dòng)作追蹤質(zhì)性差異顯著的運(yùn)動(dòng),補(bǔ)充Q1-Q4階段的定量指標(biāo),并展示了可擴(kuò)展生成式預(yù)訓(xùn)練與動(dòng)作感知優(yōu)化技術(shù)所能實(shí)現(xiàn)的行為多樣性。更多定性分析結(jié)果(含視頻演示)請參閱補(bǔ)充材料。

      五、結(jié)論

      我們推出了名為“全極限” 的兩階段框架,專為高動(dòng)態(tài)場景下的可擴(kuò)展高保真人形機(jī)器人運(yùn)動(dòng)追蹤設(shè)計(jì)。該框架通過將專家級預(yù)訓(xùn)練與統(tǒng)一的流式預(yù)訓(xùn)練相結(jié)合,并引入基于運(yùn)動(dòng)感知的殘差強(qiáng)化學(xué)習(xí),有效解決了大規(guī)模訓(xùn)練中的學(xué)習(xí)瓶頸和從仿真到實(shí)際部署時(shí)的物理可執(zhí)行性難題。大量仿真結(jié)果表明,相較于其他基準(zhǔn)方法,全極限在更廣泛的運(yùn)動(dòng)多樣性場景中仍能保持顯著的追蹤保真度。Re- alRobot實(shí)驗(yàn)進(jìn)一步驗(yàn)證,該框架僅需單一統(tǒng)一策略即可可靠執(zhí)行多種極端行為,成功突破了傳統(tǒng)保真度與可擴(kuò)展性之間的權(quán)衡困境。

      在未來的科研中,如何平衡數(shù)據(jù)多樣性和模型容量,將成為提升全身仿生人形機(jī)器人運(yùn)動(dòng)技能泛化能力的關(guān)鍵。隨著基于學(xué)習(xí)的控制器向更動(dòng)態(tài)、硬件受限的運(yùn)行模式發(fā)展,動(dòng)作感知建模已成為學(xué)習(xí)流程中的核心環(huán)節(jié)。通過整合電流、功率、扭矩和速度等高精度的驅(qū)動(dòng)特性約束,研究人員能夠進(jìn)一步彌合仿真與現(xiàn)實(shí)的差距,確保所學(xué)行為能無縫轉(zhuǎn)化為物理仿生機(jī)器人。

      掃碼邀請進(jìn)群,一起玩AI。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      奶奶騎臺鈴電動(dòng)車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發(fā)生七八次事故;臺鈴回應(yīng)

      奶奶騎臺鈴電動(dòng)車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發(fā)生七八次事故;臺鈴回應(yīng)

      大象新聞
      2026-05-12 19:46:06
      人沒到先點(diǎn)名!特朗普還沒落地,內(nèi)塔尼亞胡竟提前對中國發(fā)出警告

      人沒到先點(diǎn)名!特朗普還沒落地,內(nèi)塔尼亞胡竟提前對中國發(fā)出警告

      小叨娛樂
      2026-05-12 13:39:10
      白宮公布名單,16位美國商界領(lǐng)袖將隨特朗普訪華

      白宮公布名單,16位美國商界領(lǐng)袖將隨特朗普訪華

      界面新聞
      2026-05-12 21:23:09
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護(hù)航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護(hù)航

      環(huán)球網(wǎng)資訊
      2026-05-12 16:52:39
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財(cái)經(jīng)Pro
      2026-05-12 14:04:28
      下降6%!一季度結(jié)婚數(shù)再創(chuàng)新低,同比減少11萬對,離婚數(shù)也少了

      下降6%!一季度結(jié)婚數(shù)再創(chuàng)新低,同比減少11萬對,離婚數(shù)也少了

      網(wǎng)易新聞出品
      2026-05-12 15:45:59
      雖遭橫掃!但41歲詹姆斯賽后仍霸氣發(fā)聲:我已做到聯(lián)盟所有!

      雖遭橫掃!但41歲詹姆斯賽后仍霸氣發(fā)聲:我已做到聯(lián)盟所有!

      田先生籃球
      2026-05-12 15:00:22
      前腳剛考上公務(wù)員獲公示,他轉(zhuǎn)身就將攝像頭伸進(jìn)女生裙底!這一次真的該感謝舉報(bào)者

      前腳剛考上公務(wù)員獲公示,他轉(zhuǎn)身就將攝像頭伸進(jìn)女生裙底!這一次真的該感謝舉報(bào)者

      瀟拾億郎
      2026-05-12 18:03:02
      越來越多的小城市和縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      越來越多的小城市和縣城,只剩下體制內(nèi)經(jīng)濟(jì)了!

      燈錦年
      2026-05-12 21:06:47
      CBA首組半決賽:歷史第7次京滬大戰(zhàn) 時(shí)隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰(zhàn) 時(shí)隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      出乎眾人預(yù)料,中方提前48小時(shí)官宣特朗普訪華,高市早苗心愿落空

      出乎眾人預(yù)料,中方提前48小時(shí)官宣特朗普訪華,高市早苗心愿落空

      策前論
      2026-05-11 18:13:56
      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      財(cái)聞
      2026-05-12 14:53:07
      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復(fù)仇孫穎莎

      張本美和態(tài)度變了!日媒采訪放狠話:后年在日本主場要復(fù)仇孫穎莎

      小徐講八卦
      2026-05-12 10:07:29
      突發(fā)!韓國股市閃崩,瞬間暴跌超500點(diǎn)!SK海力士、三星電子跳水

      突發(fā)!韓國股市閃崩,瞬間暴跌超500點(diǎn)!SK海力士、三星電子跳水

      每日經(jīng)濟(jì)新聞
      2026-05-12 17:45:51
      女子退禮服被商家曝光后續(xù):女方長相扒出,主動(dòng)退演,稱情緒低落

      女子退禮服被商家曝光后續(xù):女方長相扒出,主動(dòng)退演,稱情緒低落

      李晚書
      2026-05-12 18:54:35
      一個(gè)東北人,在遠(yuǎn)東承包了1200畝地,種植來自東北的大豆

      一個(gè)東北人,在遠(yuǎn)東承包了1200畝地,種植來自東北的大豆

      正面連接
      2026-05-12 17:55:48
      12歲男孩確診癌癥晚期!研究證實(shí):這5種添加劑正在升高癌癥風(fēng)險(xiǎn)……

      12歲男孩確診癌癥晚期!研究證實(shí):這5種添加劑正在升高癌癥風(fēng)險(xiǎn)……

      環(huán)球網(wǎng)資訊
      2026-05-11 14:21:45
      蘋果AI眼鏡官宣:40克超輕,戴上自動(dòng)調(diào)度數(shù)

      蘋果AI眼鏡官宣:40克超輕,戴上自動(dòng)調(diào)度數(shù)

      呼呼歷史論
      2026-05-11 00:22:15
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責(zé)難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責(zé)難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      以前叫人家強(qiáng)哥,現(xiàn)在請叫植物

      以前叫人家強(qiáng)哥,現(xiàn)在請叫植物

      阿亮評論
      2026-05-12 12:18:33
      2026-05-13 01:55:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應(yīng)用精選與評測
      506文章數(shù) 74關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      手機(jī)
      旅游
      數(shù)碼
      公開課

      家居要聞

      極簡主義下的居住場域與空間

      手機(jī)要聞

      WWDC前最后一次大更新!iOS 26.5正式版已發(fā)布,升不升看完再說

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      數(shù)碼要聞

      美光256GB DDR5內(nèi)存樣品已送合作伙伴

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丁香六月婷婷综合激情欧美| 亚洲成av人影院在线观看网| 老色鬼永久精品网站| 国产综合色在线精品| 久久国产自偷自偷免费一区调| 在线中文一区字幕对白| 午夜激情网站| 精品国产一区二区三区麻豆| 久久强奷乱码老熟女| 日韩在线欧美丝袜99| 国产九色AV刺激露脸对白| 中文字幕亚洲一区二区三区| 久久无码专区| 把女邻居弄到潮喷的性经历| 天天摸夜夜摸夜夜狠狠添| 亚洲精品国产字幕久久麻豆| www熟女com| 国产H片无码不卡在线视频| 69福利| 精品国产乱码久久久久APP下载 | 亚洲国产无线乱码在线观看| 亚洲第一福利导航| 仁化县| 91色爱欧美精品www| 亚洲自在精品网久久一区| 国产熟女在线播放| 国产l精品国产亚洲区| 天天操天天吃| 在线观看热码亚洲av每日更新| 国产欧美亚洲精品第一页| 中文人妻av高清一区二区| 久久国产女人| 免费情侣作爱视频| 奇米AV| 中文字幕亚洲欧美专区| 五月av综合av国产av| 亚洲经典av一区二区| 69avav?cn| 一级做a爰片在线播放| 欧美中文一区| 三级成人小说|