<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      中大 × MBZUAI重磅開源!A?:全透明高效 VLA 模型,機器人實時控制成本直降 76% 丨CVPR 2026 Findings

      0
      分享至

      中大 ×MBZUAI 開源 A?,機器人控制成本大降。

      開放世界機器人操作一直被大模型算力成本、推理延遲兩大難題卡脖子:千億級 VLM 骨干 + 迭代擴散 / 流匹配動作頭,讓普通硬件根本跑不動實時控制。

      來自中山大學、MBZUAI、Spatialtemporal AI 與 ATeam 的團隊直接給出全開源、全透明、自適應、高效率的解決方案 ——A?截斷式視覺 - 語言 - 動作模型,一套預算感知自適應推理方案,同時加速骨干網絡與動作頭,推理延遲最高降 72%、骨干計算量砍 76.6%,性能還能打平甚至反超主流基線。

      從仿真到真機、從單臂到多平臺,A?憑開源全棧跑出 SOTA,徹底打破VLA 模型 “高性能 = 高成本” 的魔咒。

      01


      行業痛點:VLA模型很強,

      但用不起、跑不動

      Vision-Language-Action(VLA)已經成為通用機器人操作的主流范式:大尺度視覺語言模型(VLM)把多模態觀測壓縮為隱式表示,動作頭(擴散 / 流匹配)再映射為連續電機指令,泛化性拉滿。

      落地代價極其昂貴

      ? 為了保證語義理解與可供性推理,模型必須使用數十億參數的 VLM 骨干,推理耗時極長;

      ? 為了動作平滑與精準,動作頭普遍采用擴散或流匹配架構,需要十數輪迭代去噪,算力開銷巨大;

      ? 現有優化大多只針對 VLM 主干,動作頭始終是被忽略的瓶頸,即便主干加速,整體延遲依然居高不下;

      ? 最終結果是:能跑 SOTA 的 VLA 模型,必須依賴高端計算集群,普通硬件無法實現實時控制。

      團隊總結出三個關鍵觀察,直接戳中效率優化核心:

      1.軌跡收斂:流匹配軌跡 3 步內就鎖定正確模式,后續迭代收益遞減;

      2.動作冗余:連續控制步動作平滑變化,只需粗更新;

      3.層間耦合:VLM 中間層已包含足夠空間視覺特征,沒必要跑完全層。

      一句話:算力只花在會改變動作的地方,A?就此誕生。

      02


      核心設計:一套自適應框架,

      同時卷性能與效率

      A?沒有走 “輕量化重訓” 或 “單純剪枝” 的老路,而是從推理全鏈路出發,提出一套預算感知、動態退出、層間熱啟動的協同加速方案,在不損失任務成功率的前提下,實現效率數量級提升。

      整體架構

      A?由 VLM 骨干與動作頭組成,VLM提供語義與可供性特征,動作頭支持流匹配(FM)與MLP兩種實現;自適應推理方案同時壓縮骨干計算量與動作頭迭代次數,兼顧速度與成功率。


      圖1:A1模型整體架構

      1.多出口訓練:讓每一層都具備動作預測能力

      傳統 VLA 只在最后一層輸出動作,A?在訓練階段就讓 VLM每一層都連接共享動作頭,直接監督各層輸出的動作序列。這一設計讓模型在推理時,可以隨時在中間層讀取動作結果,為動態早停打下基礎。

      2.動作一致性早停:算力只花在 “必要的層”

      推理時,模型逐層計算動作,并與上一層結果做一致性校驗。當動作變化小于閾值時,直接判定 “特征足夠”,提前終止主干前向。團隊使用余弦相似度、L2 距離等指標衡量動作穩定性,并通過訓練集統計得到分層閾值,在 “節省算力” 與 “保持精度” 之間取得最優平衡。

      3.層間截斷流匹配:解決早停帶來的次生瓶頸

      動態早停雖然加速了 VLM,但會讓流匹配動作頭在每一層都重復執行完整去噪步驟,反而拖慢速度。為此,團隊提出層間熱啟動流匹配

      ? 大幅減少單輪去噪步數(從 10 步降至 2 步);

      ? 上一層的動作輸出,直接作為下一層去噪的初始值,實現熱啟動;

      ? 避免從隨機噪聲重新開始,既保證精度,又把動作頭開銷壓到最低。

      4.多機器人泛化訓練:開源數據也能練出強遷移模型

      A?采用兩階段訓練:第一階段在大規模開源機器人數據上預訓練,學習通用操作先驗;第二階段在真實機器人軌跡上微調,適配不同機型與場景。

      團隊還融合了 15951 條自研真機數據,進一步縮小仿真到現實的差距,讓模型在 Franka、AgiBot、WuJie-Arm等多款機械臂上都能穩定工作。

      03


      深度解讀:

      A?到底解決了VLA的哪些核心痛點?

      如果只看加速數字,很容易低估 A?的價值。它真正的突破,是重新定義了高效VLA的設計范式

      1.第一次實現主干與動作頭聯合加速

      過去的加速方案都是 “單邊優化”:要么壓 VLM,要么簡動作頭。A?證明,只有協同優化,才能實現端到端延遲大幅下降。早停降低主干計算,熱啟動流匹配降低動作頭迭代,兩者耦合,才把延遲從數十秒壓到秒級。

      2. 用最小精度損失換取最大效率收益

      實驗顯示,即便減少 76.6% 的主干計算,任務成功率僅小幅下降。這說明:VLA模型存在極端嚴重的過計算,大量深層特征對機器人操作來說并非必需。A?用數據證實,動態優化不是 “妥協精度”,而是 “回歸合理計算”。

      3.開源全棧,打破封閉壁壘

      當前頂尖 VLA 大多依賴閉源數據與私有框架,社區難以復現。A?全程使用開源數據訓練,并開放權重、代碼、數據處理流程與評估腳本,讓小型實驗室與普通開發者也能搭建高性能、低成本的機器人控制模型。

      04


      實驗驗證:

      從仿真到真機,全面超越現有開源方案

      A?在三類標準場景上完成系統驗證,結果顯示:它在效率上大幅領先,在性能上同樣達到SOTA。

      仿真環境:高精度與強泛化兼顧

      在 LIBERO 長期操作基準上,A?實現 96.6% 的平均成功率,在物體操作任務上接近滿分;在 VLABench 長程推理任務上,A?超越 π?.5 等模型,展現出優秀的語言理解與任務規劃能力;在分布偏移更大的LIBERO-Plus 上,A?零射性能達到 75.3%,顯著優于對比方法,證明其特征具備強泛化性。


      表1:LIBERO、VLABench 主流模型成功率對比,A1取得領先性能。

      真實機器人:跨平臺穩定執行

      在 Franka、AgiBot、WuJie-Arm、Dobot-Arm 四款機械臂上,A?完成放杯子、擺水果、撿膠水、擦桌子、疊積木等一系列日常操作,平均成功率達到56.7%,明顯高于 π?與 π?.5。尤其在小樣本學習場景下,A?能快速適應新任務,表現出極強的實用潛力。

      表2:真機多平臺結果表

      RoboChallenge:開源模型登頂

      在包含 30 個復雜真機任務的 RoboChallenge 上,A?在完全開源、無閉源數據的條件下,取得 29.00% 的平均成功率,超過 π?、X-VLA、RDT-1B 等一眾開源模型,證明開源路線同樣可以做到頂尖水平。


      表3:RoboChallenge 基準結果表

      效率表現:延遲與計算量雙降

      在最優配置下,A?-FM 單回合推理時間從 37.8 秒降至 10.5 秒,降幅達 72.3%;A?-MLP最多可減少 76.6% 的主干計算,依舊保持 92% 以上的成功率;在真機 AgiBot 上,模型計算量降低 84.6%,操作精度幾乎沒有下降,真正實現 “低成本、高可用”。

      表4、5:自適應早停效率表



      行為可視化:更穩定、更魯棒

      從任務執行視頻可以直觀看到:對比模型容易出現物體混淆、夾爪提前閉合、抓取偏移等問題;A?能穩定識別目標,動作連貫,在長程任務中依然保持高可靠性。同時,動態推理可視化顯示:簡單移動在淺層即可退出,復雜操作才進入深層,算力分配高度智能。


      圖2:任務執行對比


      圖3:真機動態推理可視化

      05


      局限與未來

      A?打開的下一代VLA研究方向

      盡管 A?在效率與性能上取得顯著突破,團隊仍清晰指出當前方案的改進空間,并為后續研究指明方向。

      第一,當前預訓練依賴帶標注的可供性數據,未來可引入無監督或自監督方法,從海量機器人視頻與交互數據中自動挖掘可供性先驗,進一步擴大數據來源。

      第二,A?以模仿學習為基礎,在長程任務中仍存在累積誤差。后續可結合強化學習,通過環境實時反饋修正策略,提升復雜場景下的魯棒性與成功率。

      第三,云邊推理與機械臂執行之間的同步延遲,仍會影響操作流暢度。團隊計劃采用異步執行、預測控制等方式,提升真機運行的順滑度。

      第四,A?已成功部署在自研雙臂移動平臺,下一步將重點拓展雙臂協同、移動操作、非結構環境適應等能力,向更通用的家庭與工業機器人邁進。

      06



      A?第一次把 “高性能、高效率、全開源” 三件事同時做到位,用一套簡單優雅的自適應截斷方案,把 VLA 模型從 “實驗室奢侈品” 拉到 “可落地實用款”。

      從仿真到真機、從單臂到雙臂、從小樣本到泛化,A?證明:開源透明的研究,完全能打贏閉源方案。

      全套代碼、權重、數據 pipeline 已開放,機器人底層玩家可以直接沖了。

      論文信息

      標題:A?: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model

      代碼:https://github.com/ATeam

      項目頁:https://ATeam.com/en/research/68bc2cde8497d7f238dde690

      鏈接:https://arxiv.org/abs/2604.05672

      論文作者介紹:

      張凱東,中山大學計算機學院2024級碩士,本科畢業于中山大學智能工程學院,師從梁小丹教授。研究方向為具身智能。


      張健,穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺博士生,研究方向為具身智能。分別于2023年和2020年從北京大學和合肥工業大學獲得碩士和學士學位。


      許镕濤 MBZUAI研究員,無界智慧CTO。中科院自動化所多模態人工智能國重(前模識國重)博士, 在學期間曾獲得中科院院長獎、兩次IEEE旗艦會議最佳論文提名獎、國獎、北京市和中科院優秀畢業生。華中科技大學數學與計算機雙學士學位。研究方向為具身智能與機器人,提出全球首個基于空間可供性操作大模型A0,曾在銀河通用共同主導全球首個具身導航大模型NaVid。在頂級學術會議和期刊(RSS,IRCA,IROS,CVPR,ICCV,ECCV,NeurIPS,ICML,ICLR,AAAI,EMNLP,MICCAI,TPAMI,TIP,TNNLS,TII,TIM,TMM,TCSVT,ISPRS)上共發表論文80余篇,其中以第一作者或通訊作者發表論文近40篇,含ESI高被引論文3篇,IEEE Trans封面文章1篇,發表8次Oral論文。擁有10余項發明專利,研究成果應用于YOLO系列,以及無界智慧、銀河通用、華為、Momenta等多款產品。


      梁小丹是中山大學深圳校區的教授,同時也是穆罕默德·本·扎耶德人工智能大學(MBZUAI)計算機視覺系的副教授。她曾是卡內基梅隆大學的項目科學家,與邢教授合作。

      她在視覺語言理解與生成及其在具身人工智能中的應用方面發表了 120 余篇前沿論文,這些論文發表于該領域最負盛名的期刊和會議,谷歌引用量超過 30000 次。

      她定期擔任 ICCV、CVPR、NeurIPS、ICML、ICLR 和 AAAI 等會議的領域主席,并擔任 CVPR 2021 的教程主席、 CVPR 2023 的評審主席。她曾榮獲ACM中國最佳博士論文獎、CCF 最佳博士論文獎以及阿里巴巴達摩院青年學者獎。她的研究成果已被應用于多家知名人工智能公司(如 Deepseek、聯想、字節跳動和騰訊)的關鍵產品中。



      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中紀委再次重拳出擊!這4個領域將被嚴查,這4種行為將被嚴肅處理

      中紀委再次重拳出擊!這4個領域將被嚴查,這4種行為將被嚴肅處理

      細說職場
      2026-05-15 14:01:05
      雷軍開打價格戰,小米廉價車型要來了

      雷軍開打價格戰,小米廉價車型要來了

      科技頭版Pro
      2026-05-14 14:36:27
      方媛搶占單人間惹眾怒,凌晨發文硬剛網友:我善良但不委屈自己!

      方媛搶占單人間惹眾怒,凌晨發文硬剛網友:我善良但不委屈自己!

      涵豆說娛
      2026-05-15 10:52:05
      普通人最大的消費陷阱:換車

      普通人最大的消費陷阱:換車

      細說職場
      2026-05-15 11:09:45
      魏宗萬:我有編制,國家一個月給我發4000塊,我賺那么多錢干嘛?

      魏宗萬:我有編制,國家一個月給我發4000塊,我賺那么多錢干嘛?

      飄飄然的娛樂匯
      2026-05-13 20:30:07
      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      英國那些事兒
      2026-05-14 23:29:50
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      潔麗雅40周年爆大瓜!爺爸同娶堂姐妹,嫡長孫被踢出局太心酸

      潔麗雅40周年爆大瓜!爺爸同娶堂姐妹,嫡長孫被踢出局太心酸

      小鋭有話說
      2026-05-14 17:25:52
      俄軍蘇57首開記錄?烏軍預警機剛到手沒幾天,就被“斬落馬下”

      俄軍蘇57首開記錄?烏軍預警機剛到手沒幾天,就被“斬落馬下”

      混沌錄
      2026-05-13 17:57:22
      上層社會最怕窮人看到的九本書

      上層社會最怕窮人看到的九本書

      洞見
      2026-05-14 11:58:09
      馬斯克:真正的狠人,都是從地獄里爬出來的

      馬斯克:真正的狠人,都是從地獄里爬出來的

      阿胖讀書
      2025-08-24 00:39:48
      它是“菜中人參”5月遇到別手軟,全身是寶,隨手一泡,隨吃隨取

      它是“菜中人參”5月遇到別手軟,全身是寶,隨手一泡,隨吃隨取

      阿龍美食記
      2026-05-14 14:55:22
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      曝央視與FIFA達成協議:互讓一步!7.5億元播世界杯,1天內簽約

      曝央視與FIFA達成協議:互讓一步!7.5億元播世界杯,1天內簽約

      天光破云來
      2026-05-15 09:03:34
      29歲伊朗航天天才被德黑蘭閃電處決,臨刑前喊出一句話讓全場寂靜

      29歲伊朗航天天才被德黑蘭閃電處決,臨刑前喊出一句話讓全場寂靜

      混沌錄
      2026-05-14 17:01:08
      美國總統特朗普結束訪華

      美國總統特朗普結束訪華

      界面新聞
      2026-05-15 14:24:30
      中美談判落幕!全程135分鐘,中方強勢表態,臺灣問題塵埃落定

      中美談判落幕!全程135分鐘,中方強勢表態,臺灣問題塵埃落定

      拾這一抹殘妝月
      2026-05-15 11:24:32
      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,在上海兒女雙全

      科學發掘
      2026-05-15 12:55:40
      24桿147!斯諾克新紀錄誕生:中國7人上榜,常冰玉進賬133萬獎金

      24桿147!斯諾克新紀錄誕生:中國7人上榜,常冰玉進賬133萬獎金

      劉姚堯的文字城堡
      2026-05-15 10:01:41
      突然強勢拉升!外交部就特朗普訪華情況答記者問,科創芯片ETF(588290)上漲1.32%

      突然強勢拉升!外交部就特朗普訪華情況答記者問,科創芯片ETF(588290)上漲1.32%

      每日經濟新聞
      2026-05-15 11:24:39
      2026-05-15 14:52:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7275文章數 20751關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      牛彈琴:中美元首歷史性會晤 向世界釋放五個信號

      頭條要聞

      牛彈琴:中美元首歷史性會晤 向世界釋放五個信號

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      本地
      教育
      手機
      房產
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      教育要聞

      剛剛,南外發布2026小升初招生簡章,擴招40人,招生范圍變大!

      手機要聞

      vivo S60系列根治Live跳變難題:安卓實況圖的最大槽點已解決

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天柱县| 黄网免费观看| 亚洲国产人在线播放首页| 国产免费av网站| 日韩av中出在线免费播放网站| 国产精品青草久久福利不卡| 尤物一区| 一区日本韩国国产| 国产全肉乱妇杂乱视频| 国产一区二区在线影院| 国产19p| 在线日韩| 啊轻点内射在线视频| 无码少妇一区二区三区芒果| 国产不卡一区二区av| 国产内射一区亚洲| 日韩插啊免费视频在线观看| 久久久国产免费影院| 亚洲AV综合一区二区在线观看| 国产精品自在拍首页视频8| 日韩有码中文在线观看| 欧美日韩北条麻妃一区二区| 麻豆人妻| 妺妺窝人体色www在线下载| 国产成人精品三级在线影院| 五月天久久综合国产一区二区| 成人精品| 人妻丝袜无码专区视频网站| 久草精品视频在线观看| 丰满老熟女bbw| 美女视频黄频视频大全| 亚洲中文字幕无码中字 | 亚洲国产精品久久久久婷婷图片| 国产日韩一区二区三区免费高清| 国产午夜福利片| 国产精品揄拍100视频| 久久88香港三级台湾三级播放 | 大肉大捧一进一出好爽视频mba| 麻豆国产av超爽剧情系列| 精品久久久久中文字幕无码油| 色国产在线视频一区|