<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      重構跨域RL框架!理論驅動「雙重對齊」讓跨域遷移「質變」

      0
      分享至



      本文作者來自香港城市大學、伊利諾伊大學厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學等機構。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中,第一作者為香港城市大學喬鐘健,通訊作者為香港城市大學邱爽。



      • 論文標題:Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
      • 文章鏈接:https://arxiv.org/pdf/2512.02435

      在現實世界中通過強化學習訓練智能體,往往需要大量在線試錯與環境探索,這不僅成本高昂,還可能帶來顯著安全風險:機器人可能因試錯而損壞,自動駕駛的在線探索可能危及行車安全,而持續采集交互數據本身也代價巨大。因此,離線強化學習(offline RL)通過直接利用歷史靜態數據進行策略學習,規避了持續在線交互需求,為在高成本、高風險場景中應用強化學習提供了更可行的路徑,成為推動強化學習走向真實世界的關鍵方向。

      然而,當目標環境數據稀缺時(例如,新部署的機器人僅擁有少量演示數據),僅憑目標域數據難以支撐高性能策略的學習。這一困境催生了跨域離線強化學習(Cross-Domain Offline RL)這一范式 —— 它致力于借助源域(如動力學存在差異但數據豐富的仿真環境)中的知識,彌補目標域數據不足,為數據匱乏的目標域注入學習動能,促進目標域完成策略學習。

      雖然跨領域離線強化學習的出發點很好,但源域與目標域之間往往存在動力學偏移(Dynamics Misalignment),即狀態轉移動力學規律不一致。在這種情況下,直接合并源域和目標域數據進行訓練會引發嚴重的分布外動力學 (OOD Dynamics)問題:模型學習到的轉移規律難以在目標域成立,因而性能往往會迅速退化,最終令訓練崩潰。目前解決這一問題的主流范式是動力學對齊驅動的數據過濾:首先通過對比學習或最優傳輸等方式度量源域樣本和目標域的動力學偏移程度,然后過濾掉部分動力學明顯不一致的源域數據,只保留那些動力學行為更接近目標域的樣本參與訓練。

      然而,這一范式在邏輯上依賴于一個極強的隱藏假設:動力學相似性足以刻畫源域數據的可遷移性,只要源域樣本在轉移動力學上與目標域的 “足夠接近”,源域數據便一定值得保留并用于訓練。但這一假設忽略了源域數據的另一項關鍵屬性 —— 數據質量。在現實問題中,源域不僅僅與目標域存在動力學偏移,更重要的是源域數據所含學習信號也未必同等有效,進而影響其對目標域策略學習的實際貢獻。如果一組源域數據在動力學上與目標域完全一致,卻是從環境中隨機收集的低質量數據,它對學習目標域策略的貢獻真的大嗎?

      研究動機:動力學對齊真的充分嗎?



      為了探究上述問題,作者們設計了一個啟發性實驗:在 Hopper 機器人控制任務中,源域數據由兩種類別構成:動力學對齊,但低質量的隨機樣本;以及存在動力學偏差,但高質量的專家樣本。按照現有的 IGDF 等方法,由于專家樣本存在動力學偏差,它們會被立刻過濾掉,最終只會保留隨機樣本進行策略訓練。然而,隨機樣本對策略性能的提升是相當有限的,這導致最終策略僅僅收斂到次優性能。這表明,低質量源域數據提供的有效信息較少,進而削弱其對目標域策略學習的貢獻。

      針對現有方法所存在的問題,論文首先從理論層面定位了其根源所在:現有跨域離線強化學習的主流分析框架與其真正的學習目標并不匹配。這一錯位直接導致現有方法只聚焦于動力學對齊,系統性忽視了源域數據質量。為此,論文進一步重構理論框架,通過直接推導目標域策略學習的次優性差距(sub-optimality gap)上界,從理論上明確:高效的跨域離線強化學習必須兼顧動力學偏移與價值偏差。在該理論結論驅動下,論文提出DVDF 方法:設計統一的數據過濾框架同時實現源域樣本的動力學對齊與價值對齊,選擇 “既像又值” 的源域數據用于訓練。DVDF 可作為插件(plug-in)模塊無縫集成到現有的方法中(如 IGDF、OTDF 等),并帶來穩定的性能提升。

      理論重構:修正跨域離線強化學習的優化目標

















      動力學和價值雙對齊的數據過濾框架

      基于以上分析,我們需要同時度量價值對齊和動力學對齊程度。對于動力學對齊,我們可采用現有工作中成熟的方案,如對比學習和最優傳輸等。文章需要解決的關鍵問題在于價值對齊程度的度量。為了解決這個問題,文章首先推導出了價值對齊項的上界:







      值得注意的是,預訓練得到的優勢函數的近似誤差不可忽視。為了進一步降低近似誤差的影響,文章首先推導出了優勢近似誤差的具體形式:





      然而,IQL 學習價值函數時,易受數據集中次優動作的影響,導致價值函數常被低估,從而導致優勢函數被高估。進一步,為了解決該問題,我們選用了 Sparse Q-learning (SQL) 算法進行預訓練。SQL 通過在價值函數訓練中顯式引入稀疏性,從而降低了次優動作對價值估計的影響,能夠估計出更準確的優勢函數。











      實驗驗證

      1. 動力學偏移場景下的性能對比

      論文中設計了多個動力學偏移場景以驗證 DVDF 的有效性。論文通過在四種機器人控制任務中(halfcheetah, hopper, walker2d, ant)引入兩種動力學偏移:關節偏移(kinematic shifts)和形體偏移(morphology shifts)以構建源域環境,并在相應環境中收集不同質量的離線數據以構建源域數據集。同時,論文直接從標準的 D4RL 數據集中進行采樣以構建目標域數據集。下表展示了在動態偏移場景下 DVDF 和多個基線方法的標準化得分(Normalized Score)對比。可以看出,DVDF 在絕大多數數據集中的性能都優于基線方法,這是因為 DVDF 利用了源域數據集中的數據質量的信息,能夠篩選出更具有價值的高質量樣本。

      具體而言,在關節偏移場景下,DVDF 與多個基線方法的標準化得分對比。DVDF 為基礎算法 IGDF 和 OTDF 帶來了顯著的性能提升:DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1001.6 提升至 1164.7,增幅達 16.3%;DVDF-OTDF 則在 15 個任務上超越了原 OTDF 方法,總分從 986.5 提升至 1172.3,增幅達 18.8%。在形體偏移這一設定下,DVDF 依然保持了顯著的性能優勢。DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法,總分從 1039.0 提升至 1198.7,增幅達 15.4%;DVDF-OTDF 則在 14 個任務上超越了原 OTDF 方法,總分從 1042.1 提升至 1156.3,增幅達 11.0%。





      2. 消融實驗

      在消融實驗部分,論文主要分析了分別使用 SQL 和 IQL 算法進行優勢函數預訓練對策略性能和優勢估計偏差的影響。如下圖所示,相比于 IQL 算法,使用 SQL 算法進行優勢函數預訓練能夠得到更高的策略性能以及更低的優勢估計誤差。



      3. 參數敏感性實驗





      總結

      本論文聚焦于動力學偏移下的跨域離線強化學習,通過實驗和理論層面的探究,證明了動力學和價值雙重對齊對于跨域離線強化學習至關重要。基于這一發現,論文提出全新的跨域離線強化學習框架 DVDF。通過在源域上預訓練優勢函數來度量樣本價值,并與動力學對齊相結合,DVDF 能夠識別并篩選出對策略學習有價值源域樣本。在多種場景下的實驗結果表明,DVDF 都展示了比基線算法更高的性能,充分驗證了其有效性。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2分!1球!哈蘭德每天都想冠軍,阿森納三步登頂,第一步最難

      2分!1球!哈蘭德每天都想冠軍,阿森納三步登頂,第一步最難

      嗨皮看球
      2026-05-10 14:26:05
      進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

      進去就沒命!四川黃泉路有去無回,政府封禁400年,至今無解!

      網絡易不易
      2026-04-19 14:59:01
      5月9日閱兵的俄羅斯,走向垃圾時間

      5月9日閱兵的俄羅斯,走向垃圾時間

      黔有虎
      2026-05-09 16:22:09
      “萬人迷”豆包,這回踢到鐵板上了

      “萬人迷”豆包,這回踢到鐵板上了

      金錯刀
      2026-05-08 09:40:44
      1965年,見到楊尚昆時,彭德懷落淚:我只是對主席的思想跟不上

      1965年,見到楊尚昆時,彭德懷落淚:我只是對主席的思想跟不上

      涼州辭
      2026-05-10 10:55:03
      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      紙鳶奇譚
      2026-04-13 16:06:54
      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      含董量高!U17國足將出局?這題熟悉,球迷:別慌,卡塔爾會做人

      足球大腕
      2026-05-10 11:48:48
      倫敦世乒賽暖心一幕:王楚欽、梁靖崑、林詩棟場上拼搏,馬龍、許昕場邊觀賽助威!

      倫敦世乒賽暖心一幕:王楚欽、梁靖崑、林詩棟場上拼搏,馬龍、許昕場邊觀賽助威!

      生活新鮮市
      2026-05-10 13:44:01
      丑鞋出海賣爆了,賣家狂賺400萬

      丑鞋出海賣爆了,賣家狂賺400萬

      跨境派Pro
      2026-05-09 14:14:21
      奶奶剛死3天,瞎子上門討飯,臨走時說:明天你們家要多一口棺材

      奶奶剛死3天,瞎子上門討飯,臨走時說:明天你們家要多一口棺材

      千秋文化
      2026-04-27 20:12:24
      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      史政先鋒
      2026-05-09 10:50:10
      一滴也違法!內蒙古7人鉆進大興安嶺,在樹上打孔收集汁液被抓

      一滴也違法!內蒙古7人鉆進大興安嶺,在樹上打孔收集汁液被抓

      萬象硬核本尊
      2026-05-09 20:05:57
      曬太陽被關注!醫生發現:曬得越久,壽命越長?告訴你答案

      曬太陽被關注!醫生發現:曬得越久,壽命越長?告訴你答案

      橘子約定
      2026-05-09 20:46:06
      擺拍!“賓利車主高速救新人”全是假 賬號被封

      擺拍!“賓利車主高速救新人”全是假 賬號被封

      看看新聞Knews
      2026-05-09 17:24:03
      劉濤在媽祖誕辰1066周年盛典現場,攙扶一名突然摔倒的攝影師

      劉濤在媽祖誕辰1066周年盛典現場,攙扶一名突然摔倒的攝影師

      韓小娛
      2026-05-10 09:26:39
      西班牙、英國宣布發現漢坦病毒疑似病例,張文宏最新發聲

      西班牙、英國宣布發現漢坦病毒疑似病例,張文宏最新發聲

      21世紀經濟報道
      2026-05-10 09:45:48
      爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

      爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

      青青會講故事
      2025-04-21 14:09:37
      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰吉爾吉斯斯坦

      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰吉爾吉斯斯坦

      我愛英超
      2026-05-10 02:56:29
      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      月薪幾萬卻招不到人?遠洋海員背后的殘酷,配偶:男女關系太亂了

      李將平老師
      2026-05-08 09:42:27
      女子稱凌晨在出租屋疑遭陌生人闖入 床上出現不明液體 警方已立案

      女子稱凌晨在出租屋疑遭陌生人闖入 床上出現不明液體 警方已立案

      紅星新聞
      2026-05-09 19:45:20
      2026-05-10 14:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142647關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      中國在德7名精英組群性侵女性手段殘忍 群主哈工大畢業

      頭條要聞

      中國在德7名精英組群性侵女性手段殘忍 群主哈工大畢業

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      藝術
      數碼
      家居
      健康

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      毛主席83歲時寫給華國鋒的6字真相令人震驚!

      數碼要聞

      銘瑄新板,小身材大能量?

      家居要聞

      菁英人居 全能豪宅

      干細胞能讓人“返老還童”嗎

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲高清无码在线观看| 久久中文字幕人妻丝袜| 女被男啪到哭的视频网站| 日韩精品中文字幕无码一区| 日韩欧美亚洲国产高清在线| 国产真人做受视频在线观看| 久久亚洲欧美日本精品| 在线观看av片永久免费| 少妇人妻无码专区视频| 中文字幕一二区| 久久精品国产久精国产果冻传媒| 亚洲精品久久麻豆蜜桃 | 精品国产一区二区三区四区阿崩| 午夜av福利| 人妻日韩精品中文字幕| 狠狠撸综合| 西西444www无码大胆| 申扎县| 亚洲一区在线观看青青蜜臀 | 小泽玛利亚一区二区在线观看| 日韩中文av在线| 四虎国产精品成人免费久久| 明水县| 亚洲欧美激情在线一区| 美女成人网站| AV影院二区| a国产在线v的不卡视频| 久久精品国产中文字幕| 黄瓜视频91| 成人亚洲区无码区在线点播| 成人国内精品久久久久一区| 日韩一区二区在线看精品| 色婷婷Av| 国产一区二区三区资源在线观看| 国产精品成人一区二区三区| 少妇粗大进出白浆嘿嘿视频| 亚洲夜色噜噜av在线观看| 97精品国产97久久久久久免费| 国产中文字幕精品免费| 国产人人人| 狠狠干视频网站|