<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Generalist之后,羅劍嵐團隊推出LWD,也要變革具身智能訓練范式

      0
      分享至



      編輯|澤南

      這一次,具身智能的范式算是徹底升級了。

      智元機器人的辦公室里,最近員工們一上班就能看到機器人熟練地切著水果:



      有梨有黃瓜,一通操作完了之后裝進破壁機,打成了健康飲料端上來:



      同樣一套設備也能玩轉調酒的全套流程:



      或是做工夫茶、整理商品貨架、打包鞋盒等各種任務:



      之前每臺機器人只能完成一個任務,現在基于同一個模型的機器人可以承接大量不同任務。而且,在真實世界中持續部署的過程中,它們的性能還會持續不斷地提升。



      文中視頻鏈接:https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw

      這么全面的能力是如何做到的?答案是直接在真實環境中搞大規模分布式強化學習訓練。它們使用的是全新的具身智能訓練范式:面向通用機器人策略的分布式多機強化學習(LWD)。這一套技術捅破了當前VLA的「天花板」。

      LWD

      啟動物理世界的飛輪

      最近一段時間,VLA(視覺 - 語言 - 動作)大模型出現,通過端到端的訓練范式讓機器人具備了通用泛化能力:只需要收集圖像數據,讀取人類自然語言指令,大模型就能將視覺和語言轉化為空間特征,直接輸出機械臂各個關節的角度和速度,進而完成任務。

      但在物理世界里,VLA 具身智能的表現仍然算不上可靠。在長程任務和復雜條件上,機器人頻頻翻車。工程師往往只能將失敗的案例(Corner Case)記錄下來,讓操作員針對特定情況再進行幾十次遙操作演示,重新微調模型。

      這就形成了一個折磨人的「打地鼠」模式:物理世界的不可控因素是無窮無盡的,只要遇到沒見過的「地鼠」,機器人就會停擺,只能等待人類工程師來打補丁。

      研究人員認為,改變這一現狀的核心點在于把外部提供的人工監督,改為機器人自身的交互經驗。

      LWD(Learning While Deploying,部署中學習)是一套讓通才 VLA 策略在真實世界部署中持續自主改進的可擴展強化學習系統,在業內首次實現了具身 VLA 的大規模 RL 預訓練 + 后訓練。該工作由上海創智學院和智元機器人聯合發布,創智學院導師,智元首席科學家羅劍嵐老師團隊完成。



      • 技術報告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
      • 鏈接:https://finch-static.agibot.com/LWD/lwd-paper.pdf
      • 項目頁面:https://finch.agibot.com/research/lwd

      這是對具身智能訓練邏輯的一次重構,把機器人從執行工具變成了一個「動態的智能網絡」。此前的 AI 從出廠那一刻起就是產品智力的巔峰,面對物理世界的無盡變化時經常無所適從。LWD 打破了這種靜態,構建了一個由真實世界強化學習(RL)驅動的數據飛輪。

      想象一下特斯拉的影子模式(Shadow Mode),但 LWD 走得更深,后者是一個完全閉環的行動系統:



      LWD 被定義為集群級(fleet-scale)的離線到在線(offline-to-online)強化學習框架,用于通用 VLA(視覺 - 語言 - 動作)策略的閉環持續訓練。

      它從一個預訓練好的 VLA 模型開始,利用收集到的機器人數據,包括專家演示、歷史成功與失敗的 rollout 數據、以及人類探索邊界的「把玩」數據來進行離線強化學習預訓練。這些策略會被部署到機器人集群中,機器人在自主執行任務或由人類接管時,生成的數據會實時混合之前的離線數據,在云端持續更新策略,將進化后的更強「大腦」下發給物理集群。

      這使得每一個被部署的機器人既在執行任務,也是提供學習信號的數據源。



      LWD pipeline 與算法架構概覽。

      在羅劍嵐團隊的具身智能訓練過程中,機器人集群被投放到真實環境中執行理貨、搬運等任務。在執行過程中,機器人身上的傳感器會記錄下每一次觸碰、每一次抓取、以及物體滑落的力覺變化。這些第一手資料被不斷傳回云端,強化學習算法開始對策略進行迭代。

      數據飛輪的轉速直接由集群自身的運行規模決定,部署的機器人越多、在真實世界里運行得越久,模型吸取經驗的速度就越快

      不僅是實際部署的訓練方式,LWD 的真正靈魂在于從失敗中學習的機制。在傳統的模仿學習眼里,只有人類專家的完美演示才是有效數據,這意味著 AI 只是在「背答案」。LWD 試圖賦予機器人糾偏重試的本能,在其框架下,物理世界里所有類型的交互都能被提取出學習價值,那些搞砸的失敗軌跡也會被全盤吸收。

      這些都能教會它如何更好地在復雜的物理世界中維持穩態。

      四大維度創新

      為了讓 VLA 能夠在現實世界中持續訓練,更好地消化大規模部署的機器人集群數據,攻克超長任務的誤差累積,研究人員在 LWD 的底層架構上實現了四個維度的創新。

      首先,LWD 的核心算法組件將價值評估與策略提取分離,這對于將離線到在線強化學習應用于基于流的 VLA 策略至關重要。在價值評估方面,LWD 引入了 DIVL(分布型隱式價值學習)。傳統的強化學習需要去預測一個確切的標量分數,而 DIVL 則是用類似分類的方式擬合出一個「價值分布」,并能根據不確定性自適應調整策略。

      這種方法不僅保留了評估的準確性,也很大程度上適應了物理世界中獎勵稀疏、異構的集群經驗回放(Fleet Replay)以及離線到在線的分布偏移場景,確保了即使在任務獎勵極其稀疏、執行序列長達 3-5 分鐘的情況下,系統依然能精準識別出到底是哪一秒的動作決定了最終的成敗。

      其次,針對目前先進 VLA 模型普遍采用的復雜流匹配(Flow-matching)架構,LWD 引入QAM(伴隨匹配 Q 學習)來進行策略提取。它將價值網絡引導的動作改進轉化為沿著流軌跡的局部回歸目標,巧妙地繞過了生成模型難以直接反向傳播的阻礙,讓動作模型能高效地聽懂優化指令,無需依賴顯式的動作似然函數,還大幅降低了算力開銷,保障了策略更新的穩定性。

      第三項關鍵技術,是專為攻克「長程操作」難題設計的動態多步 TD 策略(Dynamic n-step TD Strategy)。在現實物理任務中,強化學習關注的獎勵極度稀疏。該策略會根據任務長度和訓練階段,智能調整預判未來的「步長(n)」。

      例如在離線訓練長程任務時,它會將步長拉大到 n=10,讓成功信號迅速反向傳導穿透整個動作周期;而在實機在線部署時,又會切回到 n=1。

      這就完美兼顧了信號回傳的效率,同時極大地降低了模型在線更新時的方差,確保了實機迭代的穩定。

      最后,要讓 LWD 整個數據飛輪轉動起來,還需要有一個基礎設施底座。研究人員提出了分段異步 Actor-Learner 架構。在訓練的過程中,現實世界中負責執行和采集數據的「機器人集群(Actor)」與云端集中算力更新策略的「學習器(Learner)」徹底解耦。兩邊的規模可以獨立擴容,互不干擾。前端機器人「隨緣」地異步上傳殘次或成功的軌跡數據,而后端云端通過引入中央協調器打上「快照」截斷,把前端異步的亂流,變成了同步的、全局一致的數據集進行訓練。

      這套基礎設施為整套訓練機制帶來了穩定性,前端產生的數據化為云端學習的經驗僅需 41 秒,而云端更新模型后通過發布 - 訂閱頻道推送到機器人端,中位數延遲僅需 38 秒。

      真實世界大考

      5 分鐘長程操作,超 90% 成功率

      為了驗證 LWD 的能力,這套新方法部署到了 16 臺 Agibot G1 雙臂機器人上,并在真實環境中進行了 8 項操作任務測試。

      其中最能驗出系統成色的是 4 項分鐘級長程連貫操作任務:泡功夫茶、榨果汁、調雞尾酒以及打包鞋盒。



      LWD 進行的評估任務。

      在目前大多數機器人的演示視頻中,我們看到的往往是「抓起蘋果放到籃子里」這種持續十幾秒的單一動作,對于商業落地來說,這還遠遠不夠。

      真實世界中的具身智能任務通常需要持續 3 到 5 分鐘,包含幾十個連續的物理交互子步驟。在這個漫長的過程中,誤差會像滾雪球一樣累積。泡茶的第一步抓取時偏了 1 厘米,可能導致第三步倒水時灑出,最終導致第五步完全崩潰。

      這就要求機器人不僅要動作精準,更需要擁有從中間錯誤狀態中恢復的能力,以及跨越長周期的貢獻度分配(Credit Assignment)能力。

      在長任務壓力測試下, LWD 的優勢逐漸凸顯了出來。在所有 8 項任務的綜合評分中,經過在線訓練強化的 LWD (Online) 平均成功率達到了 0.95。作為對比,傳統的純行為克隆(SFT)只有 0.76,引入了人類干預糾偏的 HG-DAgger 方案為 0.85,而業內先進的離線后訓練方案 RECAP 也止步于 0.85。



      各項任務的成功率實驗結果。可見 LWD 實現了卓越的性能,在獲得更高成功率的同時,顯著縮短了周期時間。



      八項真實世界操作任務的主要結果,涵蓋了四項雜貨補貨任務和四項長周期任務。LWD (Online) 方法取得了最佳的總平均分(0.95),在全部四項長周期任務中均獲最高分。

      在最困難的長程任務組,LWD (Online) 取得了 0.91 的平均得分,甩開了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有優勢,其平均循環時間比純行為克隆短了 23.75 秒。

      值得一提的是,在這項研究 652.5 小時的離線數據池中,人類專家的完美演示占 51.6%,有多達 34.8% 的內容是完全失敗的交互軌跡,包括歷史策略搞砸的 Rollout,以及人類為了幫助價值函數區分成功與失敗行為而制造的失敗數據。

      LWD 賦予了機器人在復雜物理交互中極強的穩定性與從容感,完美印證了飛輪效應的設想。

      具身智能也進入「下半場」了?

      在人工智能的大語言模型領域,整個行業正在經歷一次重要的共識轉變:算力與資源的重心,正從預訓練(Pre-train)向后訓練(Post-training)傾斜。

      去年,AI 研究領域興起了對于大模型「下半場」的討論:為什么現在的 AI 已經能在各種人類考試中超越人類,甚至拿奧賽金牌,但現實世界、經濟和 GDP 卻似乎沒有發生翻天覆地的變化?

      人們認為問題在于評估(Evaluation),我們要把真實世界的效用作為新的評估標準,設計出貼近現實世界的新任務和新范式,而不是簡單地設計更難的考卷。基于這個思路,后訓練正在得到前所未有的重視,近期的一系列基礎大模型也獲得了性能上的突破。

      后訓練正在變得越來越重要,這種思考現在也得到了真實物理世界的驗證。LWD 的出現,或許會如同大模型領域的 RLHF 一樣成為轉折點,推動新一輪的 Scale Up。

      未來的通用機器人,比拼的不再僅僅是出廠時喂了多少數據,而是在千行百業中部署后主動學習的速度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歷史如此巧合?楊開慧雕像缺失的石料,竟是主席像的“另一半”!

      歷史如此巧合?楊開慧雕像缺失的石料,竟是主席像的“另一半”!

      珺瑤婉史
      2026-03-28 19:55:03
      《水滸傳》騙了世人幾百年:宋江戰勝方臘?他連給人家提鞋都不配

      《水滸傳》騙了世人幾百年:宋江戰勝方臘?他連給人家提鞋都不配

      長風文史
      2026-05-09 17:57:13
      早田希娜是煙幕彈,不會交手孫穎莎,王曼昱100%交手張本美和

      早田希娜是煙幕彈,不會交手孫穎莎,王曼昱100%交手張本美和

      子水體娛
      2026-05-10 17:27:28
      殘忍真相!國安外援總價超聯賽前3球隊,最該砸錢位置卻沒買球員

      殘忍真相!國安外援總價超聯賽前3球隊,最該砸錢位置卻沒買球員

      體壇鑒春秋
      2026-05-10 18:11:19
      曝網紅“慧慧飽飽”知三當三后續!本人已報警,前妻:期待法庭見

      曝網紅“慧慧飽飽”知三當三后續!本人已報警,前妻:期待法庭見

      裕豐娛間說
      2026-05-10 18:58:15
      太心酸!國乒女團3-0橫掃羅馬尼亞,斯佐科斯賽后發言句句戳心!

      太心酸!國乒女團3-0橫掃羅馬尼亞,斯佐科斯賽后發言句句戳心!

      田先生籃球
      2026-05-09 22:47:39
      沒想到,世乒賽還沒結束,乒協主席王勵勤竟傳來另一大好消息

      沒想到,世乒賽還沒結束,乒協主席王勵勤竟傳來另一大好消息

      劉笤說體壇
      2026-05-09 19:03:50
      4大主力合同到期!0-3落后,湖人恐面臨拆隊,詹姆斯去留成懸念

      4大主力合同到期!0-3落后,湖人恐面臨拆隊,詹姆斯去留成懸念

      大衛的籃球故事
      2026-05-10 18:18:51
      半年打一針!近4000萬慢性鼻竇炎有新藥了

      半年打一針!近4000萬慢性鼻竇炎有新藥了

      健康觸點
      2026-05-09 06:08:51
      特朗普訪華中國遲遲不表態,美媒破防:原來中國早就看不上我們了

      特朗普訪華中國遲遲不表態,美媒破防:原來中國早就看不上我們了

      瀲滟晴方DAY
      2026-05-10 18:13:54
      16歲女孩景區內墜亡,目擊者發聲,賠償金額曝光,景區運營僅49天

      16歲女孩景區內墜亡,目擊者發聲,賠償金額曝光,景區運營僅49天

      溫柔看世界
      2026-05-06 11:48:44
      段永平評OPPO母親節文案風波:確實不合適,文案欠妥

      段永平評OPPO母親節文案風波:確實不合適,文案欠妥

      南方都市報
      2026-05-09 22:04:09
      未來可期!季后賽8位證明自己的年輕人:馬刺三少上榜,雷霆撿寶

      未來可期!季后賽8位證明自己的年輕人:馬刺三少上榜,雷霆撿寶

      你的籃球頻道
      2026-05-10 14:42:56
      拼多多在海外因“砍一刀”營銷被處罰:每個用戶賠償45元

      拼多多在海外因“砍一刀”營銷被處罰:每個用戶賠償45元

      識礁Farsight
      2026-05-09 11:37:16
      58歲大姐每天吃一把南瓜子,半年后去體檢,醫生問吃了啥?

      58歲大姐每天吃一把南瓜子,半年后去體檢,醫生問吃了啥?

      健康之光
      2026-05-07 17:45:07
      康熙長子被圈禁26年,瘋狂納妃生下20個孩子,卻因禍得福成贏家

      康熙長子被圈禁26年,瘋狂納妃生下20個孩子,卻因禍得福成贏家

      浩渺青史
      2026-05-06 00:41:01
      練了15年普拉提,她靠一個動作搞定深層核心

      練了15年普拉提,她靠一個動作搞定深層核心

      我是一個粉刷匠2
      2026-05-09 14:32:49
      3納米封鎖?英偉達防線已崩,華為強勢突圍,國產生態發起總攻!

      3納米封鎖?英偉達防線已崩,華為強勢突圍,國產生態發起總攻!

      近史閣
      2026-05-10 02:39:24
      周末影響A股的3件大事:國常會送出7萬億政策大禮包!下周穩了?

      周末影響A股的3件大事:國常會送出7萬億政策大禮包!下周穩了?

      丁丁鯉史紀
      2026-05-10 11:23:58
      重磅:烏克蘭在俄羅斯領土庫爾斯克構建90平方公里緩沖區!

      重磅:烏克蘭在俄羅斯領土庫爾斯克構建90平方公里緩沖區!

      項鵬飛
      2026-05-09 20:32:37
      2026-05-10 19:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142647關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      教育
      藝術
      游戲
      數碼
      房產

      教育要聞

      小升初必考!梯形面積的計算技巧!

      藝術要聞

      中國民生銀行總行新大樓掛牌!北京CBD“竹樓”成地標

      炸裂!熊孩子刮花6張PS5光盤 家長僅200元打發了事

      數碼要聞

      華為智慧屏S7正式開售,300Hz Super MiniLED超清護眼

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本边添边摸边做边爱喷水| 国产精品久久久久鬼色| 久久亚洲欧美国产精品| 成人做受视频试看60秒| 3P免费视频在线观看| 麻豆国产成人av高清在线| 小泽玛利亚区二区在线| 中文字幕日韩国产精品| 久久婷婷五月综合尤物色国产| 性欧美丰满熟妇xxxx性仙踪林| 91??蝌蚪老熟女偷拍| 亚洲视频一区| A级免费看| 亚洲av无码专区在线厂| 亚洲区成人综合一区二区| 国模一区二区| 邻居少妇张开双腿让我爽一夜| 成人福利涩app导航秘| 色噜噜久久综合伊人一本| 国产色综合久久无码有码| 91色色色| 久久国产乱子伦免费精品无码| 国产AⅤ无码久久丝袜美腿| 印度成人无码AV| 又黄又爽又刺激的网站| 26uuu另类亚洲欧美日本| 视频免费完整版在线播放| 玩弄丰满少妇| 久久www免费人成_网站 | 国产亚洲精品久久久999| 亚欧美日韩香蕉在线播放视频| 国产精品久久久久久久久免费| 欧美高清性| 精品国产一区二区三区四区| 中文字幕在线免费观看| 东京热无码中文字幕av专区| 欧美a级在线现免费观看| www国产亚洲精品| 污视频在线观看免费| 国产乱码精品一品二品| 亚洲国产精品天堂一区|