<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕“出廠即巔峰”!具身訓練系統再進化:LWD讓機器人自主開啟“打怪練級”

      0
      分享至


      智東西
      作者 江宇
      編輯 漠影

      當前具身智能的發展,正卡在一個越來越明確的瓶頸上:數據規模與真實世界經驗的不足

      過去幾年,VLA等大模型讓機器人在“預訓練階段”取得了顯著進展,但一旦進入真實部署環境,問題隨之暴露——面對復雜、多變的物理世界,模型能力很難持續提升,依然高度依賴人工標注數據和重復訓練

      這也意味著,具身智能尚未真正進入“規模化增長”的階段。

      僅依賴實驗室數據或仿真環境,很難支撐機器人能力的持續演進;真正能夠帶來躍遷的,仍然是來自真實世界、持續積累的高質量交互數據。但問題在于:這些數據從哪里來?

      現階段,大量訓練數據仍依賴人工示教或遙操作采集,規模有限、成本高昂,且難以覆蓋開放環境中的復雜長尾場景。

      要讓數據規模真正“滾動起來”,唯一可行的路徑,是讓機器人走出實驗室,在真實場景中長期運行,并將交互經驗持續回流。

      也正是在這一背景下,上海創智學院和智元具身研究中心聯合發布了最新成果羅劍嵐團隊提出LWD(Learning While Deploying)大規模強化學習訓練系統。該工作由創智學院導師,智元首席科學家羅劍嵐團隊完成。嘗試將“部署”本身轉化為學習過程的一部分。


      這項工作并不聚焦單一算法突破,更給出了一種更具工程可行性的方案——通過在真實世界中持續運行機器人,并將其行為數據統一回流與更新,讓每一臺機器人既是任務執行者,也是持續產生學習信號的數據源,從而推動通用策略在部署過程中不斷進化

      一、讓數據飛輪在物理世界自主狂奔

      傳統模仿學習范式下,非完美的運行軌跡往往被視為“廢數據”直接丟棄,機器人只能從成功的人類演示中刻板地模仿。

      LWD的核心顛覆在于,它構建了一個由真實世界強化學習驅動的閉環數據飛輪

      在這個飛輪中,機器人集群在真實任務中自主執行并積累異構的交互經驗,無論是完美的成功軌跡、試錯后的自我恢復、還是人類為了覆蓋邊界情況而引導的失敗案例,都會被統一輸送至云端的共享重放緩沖區。

      強化學習機制使得這些在傳統視角下的“失敗”或“意外”數據,全部轉化為了指導模型規避錯誤、優化價值評估的寶貴經驗。

      隨著集群部署規模的擴大和運行時間的累積,數據飛輪的轉速不斷提升,云端持續更新的強策略又會定期下發給機器人,形成真正的自主造血閉環。

      二、強化學習算法深層進化:在嘈雜數據中,精準捕捉“進步”信號

      將強化學習應用于真實世界部署的大規模機器人集群,面臨著極端的算法挑戰。

      不同機器人在不同任務中產生的數據極其龐雜,包含著完全不同的指令、長短不一的操作過程,以及非常稀疏的獎勵反饋。

      為了在這些充滿噪聲的“異質數據”中穩定提取有用的學習信號,LWD創新性地引入了分布隱式價值學習(DIVL)算法。

      簡單來說,以往的算法像是在給機器人的表現打一個固定的“平均分”,但在復雜環境中這種打分極不準確;而DIVL則讓機器人學會去理解表現的“概率分布”,它不再只看一個點,而是觀察整個可能性的區間。

      這讓機器人在很少得到明確獎勵的情況下,也能精準判斷哪些動作風險更高、哪些動作更值得嘗試,從而有效解決了評價不準、容易過度樂觀的老大難問題。

      與此同時,針對VLA模型通過多步去噪產生動作的特點,傳統的更新方式計算量大且容易跑偏。

      LWD結合了Q-learning with Adjoint Matching(QAM),為模型找到了一條數學上的“進化捷徑”,讓復雜的策略更新不再需要推倒重來,而是通過局部調整就能實現快速迭代,保證了機器人在大規模部署時的學習效率。


      三、煉就“通才策略”:挑戰5分鐘長程復雜操作的極限成功率

      為了驗證這套訓練框架的實戰表現,研究團隊在智元G1雙臂機器人集群上進行了大規模的真實世界部署測試

      測試涵蓋了八項極具挑戰性的多模態操作任務,包括四類考驗語義識別與泛化的商超貨架動態補貨任務,以及泡功夫茶、榨果汁、調酒、裝鞋入盒等四類長程連貫操作任務。


      ▲評測任務示意圖。(A)調制雞尾酒;(B)沖泡功夫茶;(C)制作果汁;(D)裝鞋入盒;(E)商超補貨。

      在這些持續時間長達5到8分鐘、包含數十個接觸豐富且存在長程依賴的物理交互任務中,LWD展現出了壓倒性的優勢。


      ▲各任務逐步成功率的實驗結果

      實驗數據顯示,經過在線真實經驗積累后,LWD訓練出的單一通用策略在所有任務上的平均成功率達到了驚人的0.95,遠超純行為克隆(0.76)以及先進的離線強化學習基線如RECAP(0.86)和 Dagger-SOP(0.82)。


      ▲八項真實世界操作任務的主要結果,涵蓋四類商超補貨任務和四類長程任務。結果顯示,LWD(在線)取得了最高的整體平均成績,并在四項長程任務中全部獲得最高分,同時在商超補貨任務中也保持在最優或接近最優水平。


      ▲調制雞尾酒

      尤其在最考驗中間錯誤恢復與長期信用分配的長程任務中,LWD在線更新后的成功率實現了極大幅度的躍升,證明了基于物理世界經驗的持續學習是突破復雜操作天花板的有效路徑。


      ▲圖中展示了功夫茶任務中一次成功執行(左)和一次失敗執行(右)的價值曲線。結果表明,所學習到的價值能夠對任務完成進度提供有意義的表征。

      結語:把“部署”變成能力增長起點,讓機器人在真實世界持續進化

      在具身智能的產業化進程中,LWD推動的不僅是算法框架的升級,更是機器人能力迭代方式的一次重要轉向。

      長久以來,業界習慣將“部署”視為模型訓練的終點,而LWD的提出證明了,自主改進應當成為通用機器人策略的基本屬性。

      學習不應是“出廠即封存的靜態能力”,而必須成為部署之后在真實世界里一直延續的進化過程。

      只有賦予機器人從海量無序的真實物理交互中自主提取“養分”、持續自我進化的能力,其才能真正打破被人工標注數據框定的舒適區,在千行百業的復雜、開放場景中長久地釋放商業價值。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

      不管有錢沒錢,盡快扔掉家里的這7樣東西!不是瞎說,有科學依據

      家居設計師宅哥
      2026-05-04 12:45:59
      CPO/光模塊:龍頭十五強,誰還在低位?

      CPO/光模塊:龍頭十五強,誰還在低位?

      普陀動物世界
      2026-05-08 09:15:08
      雷迪克:雷霆幾乎每回合都在犯規,裁判至少得把該吹的給吹了

      雷迪克:雷霆幾乎每回合都在犯規,裁判至少得把該吹的給吹了

      懂球帝
      2026-05-08 13:08:05
      抗戰時期最牛雜牌軍:兵力僅1.3萬人,機槍卻有660挺,哪里來的?

      抗戰時期最牛雜牌軍:兵力僅1.3萬人,機槍卻有660挺,哪里來的?

      飯小妹說歷史
      2026-03-24 09:31:22
      何潔近況令人詫異!暴瘦20斤,換了發色,面相大變,刁磊有福了

      何潔近況令人詫異!暴瘦20斤,換了發色,面相大變,刁磊有福了

      時間巡查
      2026-05-07 19:34:40
      皇馬“火藥桶”巴爾韋德:是鐵血圖騰,還是更衣室的毀滅者?

      皇馬“火藥桶”巴爾韋德:是鐵血圖騰,還是更衣室的毀滅者?

      星耀國際足壇
      2026-05-08 22:01:14
      5-0碾壓澳大利亞,日本女足豪取亞洲杯3連勝,以頭名晉級8強

      5-0碾壓澳大利亞,日本女足豪取亞洲杯3連勝,以頭名晉級8強

      側身凌空斬
      2026-05-08 17:22:23
      王楚欽、林詩棟、梁靖崑3-0戰勝韓國隊,國乒男團順利晉級四強

      王楚欽、林詩棟、梁靖崑3-0戰勝韓國隊,國乒男團順利晉級四強

      瀟湘晨報
      2026-05-08 21:57:12
      理想設計副總裁回應MEGA爭議:外觀是技術最優解,內飾承認“判斷失誤”

      理想設計副總裁回應MEGA爭議:外觀是技術最優解,內飾承認“判斷失誤”

      驅動中國
      2026-05-08 10:58:21
      中國最大二手車平臺沖刺IPO,騰訊、京東坐鎮

      中國最大二手車平臺沖刺IPO,騰訊、京東坐鎮

      華爾街見聞官方
      2026-05-07 21:59:05
      中國第四艘航母官宣亮相,舷號19或命名江蘇號

      中國第四艘航母官宣亮相,舷號19或命名江蘇號

      小蔣愛嘮嗑
      2026-05-08 07:35:11
      于文紅宣揚“換血”抗衰,兩周內年輕十幾歲,曬術后照引網友熱議

      于文紅宣揚“換血”抗衰,兩周內年輕十幾歲,曬術后照引網友熱議

      阿傖說事
      2026-05-08 19:33:51
      吳晨已任中國醫學科學院北京協和醫學院副院校長

      吳晨已任中國醫學科學院北京協和醫學院副院校長

      澎湃新聞
      2026-05-08 16:02:26
      北京局新任總經理已到位

      北京局新任總經理已到位

      軌道世界
      2026-05-07 23:53:47
      局勢突變,美伊再起沖突,為何挨揍的卻是阿聯酋?

      局勢突變,美伊再起沖突,為何挨揍的卻是阿聯酋?

      孤酒老巷QA
      2026-05-08 20:09:02
      全紅嬋近照顛覆往日形象,少女蛻變引發好奇,背后堅持值得深思

      全紅嬋近照顛覆往日形象,少女蛻變引發好奇,背后堅持值得深思

      川川八卦說
      2026-05-07 17:09:04
      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應終到來

      休想再回國!中國體壇兩大叛徒,奪冠后不承認是國人,報應終到來

      南書房
      2026-05-04 15:50:05
      老人財產轉給獨生子女:3個最佳時間,早知道少走彎路

      老人財產轉給獨生子女:3個最佳時間,早知道少走彎路

      小鹿姐姐情感說
      2026-05-05 10:43:52
      倫敦世乒賽爆大冷!瑞典男團無緣四強!林昀儒領銜中國臺北戰日本張本、松島!

      倫敦世乒賽爆大冷!瑞典男團無緣四強!林昀儒領銜中國臺北戰日本張本、松島!

      好乒乓
      2026-05-08 11:12:07
      國運來了,貴州發現萬億級寶藏,能用幾百年,美日也想分杯羹?

      國運來了,貴州發現萬億級寶藏,能用幾百年,美日也想分杯羹?

      瘋狂的小歷史
      2026-05-07 10:36:33
      2026-05-08 22:35:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11777文章數 117062關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      特朗普全球關稅又受阻,也能退款?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      藝術
      教育
      數碼
      公開課
      軍事航空

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      教育要聞

      關于舉辦“圖畫書里的中國”2026年山東省原創兒童圖畫書素材創意大賽、原創兒童圖畫書講讀大賽的通知

      數碼要聞

      華碩天選7系列發布 天選7 Pro/Pro Max已開啟預約

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区二区三区中文字幕5566| 天堂网在线观看| 性色av无码一区二区三区人妻 | 国产伦孑沙发午休精品| 国产在线视欧美亚综合| 狠狠操天天操| 亚洲精品国男人在线视频| 日韩精品毛片一区到三区| 色窝AV| 高清国产亚洲精品自在久久| 亚洲成av人片无码不卡播放器| 中文字幕无线观看不卡网站| 一本综合久久| 午夜福利一区二区在线| 国产综合色产在线精品| 亚洲一区二区激情| 国产精品免费亚洲一区| 成人国产精品一区二区网站| 99这里只有精品| 日本一卡2卡3卡四卡精品网站| 51精品国产人成在线观看| 99e久热只有精品8在线直播| 国产精品免费大片| jizz国产精品| 日韩一区二区三区无码人妻视频| 插我一区二区在线观看| 国产三级精品三级色噜噜| 91资源在线观看| 不卡av大香蕉在线| 91艹逼| 中文字幕理伦午夜福利片| 午夜在线a| 99精品全国免费观看视频| 国产美女裸身网站免费观看视频| 国产成人亚洲影院在线播放| 天堂中文在线资源库用| 国产成人亚洲精品狼色在线| 国产美女自拍国语对白| 欧美成人精品三级网站下载| 国产99视频精品免视看9| 亚洲人成网站观看在线观看 |