<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      告別「利用率崩潰」:GIPO開啟大模型強化學習高效訓練新方法

      0
      分享至



      在現代強化學習系統(如訓練視覺語言動作模型 VLA 或大規模機器人控制策略)中,由于策略滯后(Policy Lag)導致數據 Off-policy 現象已成為難以避免的常態。無論是在數據被反復復用迭代的同步更新中,還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下,存在數據與當前策略的脫節問題。特別是在具身真機場景下,由于物理采集緩慢且高度依賴歷史數據回放,這種滯后程度更是被推向了極端。



      近期,來自樹根科技與三一集團團隊聯合提出了GIPO算法,在機器人操控及大語言 / 視覺動作模型(VLA)強化學習訓練中,GIPO 既顯著緩解了數據短缺導致的策略滯后痛點,又有效改善了 PPO 硬截斷引發的 “利用率崩潰(Utilization Collapse)” 問題。



      • GIPO 論文鏈接:https://arxiv.org/abs/2603.03955
      • 論文標題 1:GIPO: Gaussian Importance Sampling Policy Optimization
      • AcceRL 論文鏈接:https://arxiv.org/abs/2603.18464
      • 論文標題 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

      GIPO :用比例看問題,而不是用絕對差值看問題

      核心公式















      對數空間對稱性:一種優雅的平衡







      平滑性與非零梯度:拯救 “死樣本”



      偏差 - 方差的 “帕累托旋鈕”









      Advantage-Aware GIPO







      理論基石:策略性能下界與有限樣本保證

      代理目標的理論下界







      有限樣本控制與穩定性

      在真實的 RL 訓練中,由于無法計算期望,只能從回放池中抽取有限的 Batch Size(假設為 N)來進行經驗估計(Empirical Estimation):













      實驗結果: 方差 - 偏差平衡性能和 7B VLA 工業落地

      方差 - 偏差平衡性能帕累托最優



      分析結果展現了 GIPO 良好的方差 - 偏差平衡性:在嚴重滯后的場景(Case A, B)中,PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩定,而是因為其硬截斷機制將所有樣本直接判斷為 “越界”,導致100% 的樣本梯度死亡。沒有梯度,自然沒有方差,這等同于模型停止了學習。





      圖 2:2x2 網格世界中的偏差 - 方差權衡。GIPO(虛線)真正定義了帕累托前沿(Pareto Frontier),而 PPO 在高滯后場景下完全停止了學習

      工業級驗證規模

      在當前的具身智能領域,受限于高昂的物理交互成本與長視野連續控制的復雜性,能將策略優化算法直接部署到數十億參數模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性(Scalability),投入了龐大的計算資源:模型基座使用了 7B 參數量的 OpenVLA-OFT 作為骨干網絡,整個評估過程耗費了超過10,000H200 GPU 小時,在 LIBERO 機器人多任務操作基準上,處理了超過 7.3 億次交互采樣。

      為了評估算法對策略滯后的魯棒性,研究團隊設計了兩種數據場景,通過控制采樣器(Actors)與訓練器(Trainers)的比例來人為制造不同程度的數據滯后。新鮮場景(Fresh Regime):配置 10 個采樣器對 1 個訓練器(或類似高吞吐配置),數據收集快,回放池中的樣本非常接近當前策略。陳舊場景(Stale Regime):強制降低吞吐量(例如 1 個采樣器對 1 個訓練器),導致訓練器不得不反復咀嚼回放池中陳舊的歷史數據,制造類似于真機場景的策略滯后。

      如圖 3 所示,在新鮮場景下,GIPO、PPO 與 SAPO 均能取得不錯的表現,GIPO 略占優或持平。然而,一旦切換到陳舊場景,算法之間的性能差距就會被拉開。在面對陳舊數據時,PPO 的學習曲線往往在早期就陷入停滯,最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控,但在處理高滯后數據時,依然表現出較大的波動和次優的樣本效率。而 GIPO 能更快逼近最優成功率,展現出很強的抗滯后能力和穩定性。



      圖 3:LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中,GIPO 的優勢被進一步放大,展現了在數十億參數 VLA 任務中實戰價值

      Metaworld 多種子實驗

      在 MetaWorld Stale(陳舊數據環境)下,團隊對比了 8 種算法配置(包含優勢感知變體),覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾,每一個配置 5 個隨機種子,總共運行 400 個獨立的訓練實例。在統計指標 IQM(Interquartile Mean,分位數均值) 排名中,GIPO 展示出了非常大的優勢,如下面的聚合排名表所示,GIPO 系列占據了前 6 名位置,其中 GIPO (1.0, 1.0) 平均歸一化得分(0.730)甚至達到了 PPO(0.180)的 4 倍之多。





      GIPO 變體的 IQM 表現顯著高于 SAPO 與 PPO 基準。即便在策略滯后環境下,其展現出的成功率提升曲線依然保持著驚人的平滑度。同時,實驗結果有力地驗證了 “對數對稱性” 與 “優勢感知” 可以兼容,而且相得益彰。GIPO 的數學框架可以輕松嵌入非對稱邏輯,同時維持其獨有的理論穩定性上限。

      值得注意的是,GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下,GIPO 同樣展現出了優良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規模 MetaWorld Fresh 實驗中,GIPO 依然保持了領先優勢。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位數均值)得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數據”,也能更好發揮 “新數據” 的價值,顯著提升了在線 RL 的學習效率。



      大模型落地的 “穩壓器”:GIPO 助推 AcceRL 登頂 SOTA



      如何高效地進行數十億參數規模的視覺 - 語言 - 動作(VLA)模型的強化學習訓練是行業公認的難題。為此,團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

      AcceRL 通過物理隔離訓練、推理與采樣流,打破了傳統框架中的同步屏障,并首次引入了 “即插即用” 的可訓練世界模型,實現了驚人的200 倍(20,000%)數據效率提升,然而,這種優秀的工程性能對底層算法的穩定性提出了更高要求,這正是 GIPO 大顯身手的舞臺。



      為什么 AcceRL 選擇 GIPO?

      AcceRL 通過物理隔離設計大幅提升了系統的吞吐量。然而,這種 “全異步” 的分布式架構是一把雙刃劍:它在消除硬件閑置、實現吞吐量超線性擴展的同時,不可避免地帶來了劇烈的策略滯后(Policy Lag)

      在 AcceRL 的非阻塞管道中,訓練與采樣獨立進行,導致回放池中充斥著陳舊的 Off-policy 數據。實驗證明,在這種滯后場景下,標準 PPO 會頻繁觸發硬截斷機制,導致大量包含關鍵修正信號的樣本梯度直接歸零,淪為毫無貢獻的 “死樣本”,阻礙訓練效率。

      GIPO 通過其標志性的平滑高斯信任權重,為 AcceRL 提供了一套具備數學保證的阻尼機制,使其能夠穩健地消化這些陳舊樣本,成為了整個框架處理異步偏差的核心優化引擎。此外 AcceRL 實現了利用世界模型想象生成強化學習訓練數據。雖然這些數據擴展了探索邊界,但也存在合成偏差。GIPO 利用對數空間對稱性,提取了這些想象數據中的改進信號,使得 “在想象中學習” 不再因梯度不穩定而崩潰。

      如下圖所示,在針對算法目標的消融實驗中,配備 GIPO 的系統表現出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平,標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環境下,GIPO 將樣本利用效率提升了整整 7.5 倍。



      圖 4:GIPO 和 PPO 在 AcceRL 中效果對比

      登頂 LIBERO

      在 LIBERO 的長視野(Long-horizon)操控任務中,GIPO 助力 AcceRL 展示了優秀的穩定性。相比于對早期誤差敏感的傳統監督微調(Success Rate 90.7%),AcceRL 在 GIPO 的支撐下實現了突破:在 LIBERO-Long 任務套件中,AcceRL 達成了99.1%的成功率。這種表現源于 GIPO 優異的偏差 - 方差權衡,它確保了模型在執行復雜多步動作時,能夠從輕微的擾動中恢復,維持了策略在長周期內的連續性與穩定性。

      結語:算法美學與工程力量的共振

      AcceRL 框架的成功,驗證了 GIPO 在大規模異步訓練中的底層基石作用。通過穩健地處理異策略偏差,GIPO 突破了分布式系統的穩定性瓶頸,為‘大規模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航,并最終在 LIBERO 基準測試中取得了 SOTA 成績。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國電信推出試商用Token套餐:個人及家庭月費9.9元/1000萬Tokens起,開發者及中小微企業39.9元/1500萬Tokens起

      中國電信推出試商用Token套餐:個人及家庭月費9.9元/1000萬Tokens起,開發者及中小微企業39.9元/1500萬Tokens起

      金融界
      2026-05-17 19:09:22
      廣西一地暴雨后,大量魚兒在水泥路上跳躍“趕路”,相關部門:系野生過山鯽魚,是正常自然現象;網友:還懂得靠右行駛

      廣西一地暴雨后,大量魚兒在水泥路上跳躍“趕路”,相關部門:系野生過山鯽魚,是正常自然現象;網友:還懂得靠右行駛

      臺州交通廣播
      2026-05-17 12:47:05
      張雪機車第5冠!獲得第2名的61號車手恩居心態崩了,對手的車太好

      張雪機車第5冠!獲得第2名的61號車手恩居心態崩了,對手的車太好

      火山詩話
      2026-05-18 05:25:33
      4死多傷!烏克蘭千架無人機突襲,莫斯科遭4年來最嚴重打擊

      4死多傷!烏克蘭千架無人機突襲,莫斯科遭4年來最嚴重打擊

      夏末moent
      2026-05-18 13:41:31
      原來這么多人拒絕過浪姐,但這撥姐姐拒的不是節目,而是那套規則,和《給阿嬤的情書》的逆襲是同一個道理!

      原來這么多人拒絕過浪姐,但這撥姐姐拒的不是節目,而是那套規則,和《給阿嬤的情書》的逆襲是同一個道理!

      毒舌八卦
      2026-05-15 19:36:40
      張雪兩連冠,浙江國資又開心了

      張雪兩連冠,浙江國資又開心了

      融資中國
      2026-05-18 11:50:25
      看不到就裝傻充愣,原來殲20早就已經在周邊到處飛

      看不到就裝傻充愣,原來殲20早就已經在周邊到處飛

      三叔的裝備空間
      2026-05-16 20:45:03
      西媒:穆里尼奧面臨的最大挑戰,就是獲得姆巴佩真正的尊重

      西媒:穆里尼奧面臨的最大挑戰,就是獲得姆巴佩真正的尊重

      懂球帝
      2026-05-17 12:45:29
      重磅打虎!王曉東被查

      重磅打虎!王曉東被查

      新京報
      2026-05-17 17:44:45
      失控的反常識信號,房價的玩笑這次開大了

      失控的反常識信號,房價的玩笑這次開大了

      重遠投資觀
      2026-05-16 20:07:04
      不幸!兩名香港游客在新西蘭遇難,現場慘烈

      不幸!兩名香港游客在新西蘭遇難,現場慘烈

      發現新西蘭
      2026-05-18 12:34:19
      馬克思的“東方臉”,基因謎題有答案: 不是華裔血統,另有真相

      馬克思的“東方臉”,基因謎題有答案: 不是華裔血統,另有真相

      烈史
      2026-05-17 19:29:46
      給央視《主角》演技最好的10位演員排名:秦海璐第3,張嘉益第2

      給央視《主角》演技最好的10位演員排名:秦海璐第3,張嘉益第2

      八斗小先生
      2026-05-15 17:41:26
      媒體人急喊參選人再不跳船來不及了,6月底前必須切割鄭麗文!

      媒體人急喊參選人再不跳船來不及了,6月底前必須切割鄭麗文!

      南風不及你溫柔
      2026-05-18 08:57:46
      《主角》朱繼儒當團長,胡三元出獄想回劇團,楚嘉禾醋醋地找茬

      《主角》朱繼儒當團長,胡三元出獄想回劇團,楚嘉禾醋醋地找茬

      兩年的海
      2026-05-18 09:04:48
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      特朗普不準備給日本撐腰,高市決定親自掛帥,要和中方好好斗一場

      特朗普不準備給日本撐腰,高市決定親自掛帥,要和中方好好斗一場

      滄海一粟1155
      2026-05-18 12:45:37
      25歲山東女生征婚!長得帥,有腹肌,有房,月收入1w以上全部上交

      25歲山東女生征婚!長得帥,有腹肌,有房,月收入1w以上全部上交

      火山詩話
      2026-05-17 07:57:38
      沒想到,紐約時報竟這樣評價中美會晤!這,反轉太大了吧

      沒想到,紐約時報竟這樣評價中美會晤!這,反轉太大了吧

      魔都姐姐雜談
      2026-05-17 06:44:02
      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      黃河新流域
      2026-05-14 15:10:42
      2026-05-18 14:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13021文章數 142650關注度
      往期回顧 全部

      科技要聞

      國產大模型集體更新后能力有多強?

      頭條要聞

      特朗普嚴厲警告"臺獨"后 賴清德首度發聲被指態度強硬

      頭條要聞

      特朗普嚴厲警告"臺獨"后 賴清德首度發聲被指態度強硬

      體育要聞

      哈登晉級東決:第5次分區決賽第5次贏搶七

      娛樂要聞

      小S曬全家福懷念大S,爺爺奶奶最疼姐姐

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      小米YU7 GT定檔5月21日19:00上市 跑車級轎跑SUV

      態度原創

      旅游
      手機
      藝術
      教育
      公開課

      旅游要聞

      鶴崗:深耕賞花經濟 賦能文旅發展

      手機要聞

      vivo S60系列官宣全系標配3D超聲波指紋!同檔唯一 沾水秒解鎖

      藝術要聞

      嚇一跳!京東上海總部大樓歪了?最新官方把事說清楚了

      教育要聞

      孩子主動表達的語言發展與成長策略

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丝袜 中出 制服 人妻 美腿| 国产亚洲高清在线精品不卡| 久久av一区二区三区| 人妻 色综合网站| 久久青青草原亚洲AV无码麻豆| sihu永久在线播放地址| 麻豆国产成人av在线播放欲色| 最近的中文字幕在线看视频| 日韩中文人妻无码不卡| 韩国福利一区二区美女视频| 乱中年女人伦av二区| 国产美女久久精品香蕉69| 一区二区三区四区在线不卡高清 | 被窝的午夜无码福利专区| 67pao国产成视频永久免费| 福利所第一导航福利| av中文字幕国产精品| 国产成人精品一区二区视频| 国产99视频精品免费专区| 免费AV网站| 成人1区2区| 成人黄色av播放免费| 国产精品自在线拍国产| 亚洲色婷婷综合开心网| 强行糟蹋人妻HD中文字幕| 人妻系列国产精品| 国产精品亚洲手机在线看片| 97夜夜澡人人爽人人模人人喊| 丝袜人妻| 艳妇臀荡乳欲伦交换在线播放| 久久久久成人精品免费播放网站 | 久久久久国产一区二区| 91久久老司机福利精品网| 天堂网国产| 男女激情四射网站| 无码精品国产va在线观看dvd | 国产午夜大片| 中文字幕久荜| 国产sm鞭打折磨调教视频| 亚洲国产精品自在在线观看| 久久精品国产亚洲av熟女|