<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      結(jié)構(gòu)化策略初始化加速大規(guī)模離散動作空間離線強化學(xué)習(xí)

      0
      分享至

      IMPROVING AND ACCELERATING OFFLINE RL INLARGE DISCRETE ACTION SPACES WITH STRUCTUREDPOLICY INITIALIZATION

      結(jié)構(gòu)化策略初始化加速大規(guī)模離散動作空間離線強化學(xué)習(xí)

      https://arxiv.org/pdf/2601.04441



      摘要

      在離散組合動作空間中進(jìn)行強化學(xué)習(xí),需搜索指數(shù)級數(shù)量的聯(lián)合動作,以同時選擇多個能形成協(xié)調(diào)組合的子動作。現(xiàn)有方法要么通過假設(shè)子動作相互獨立來簡化策略學(xué)習(xí),但這常導(dǎo)致不協(xié)調(diào)或無效的動作;要么嘗試聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)與控制,但這往往緩慢且不穩(wěn)定。我們提出了結(jié)構(gòu)化策略初始化(SPIN),這是一種兩階段框架:首先預(yù)訓(xùn)練動作結(jié)構(gòu)模型(ASM)以捕捉有效動作的流形,隨后凍結(jié)該表示,并訓(xùn)練輕量級策略頭用于控制。在具有挑戰(zhàn)性的離散DM Control基準(zhǔn)測試中,SPIN較當(dāng)前最優(yōu)方法將平均回報最高提升了39%,同時將收斂時間最多縮短至原來的1/12.8(即提速12.8倍)。

      1 引言

      許多現(xiàn)實世界的問題需要在高維離散動作空間中進(jìn)行決策,包括醫(yī)療保健(Liu et al., 2020)、機器人裝配(Driess et al., 2020)、推薦系統(tǒng)(Zhao et al., 2018)以及網(wǎng)約車(Lin et al., 2018)等領(lǐng)域的應(yīng)用。在這些領(lǐng)域中,在線探索(online exploration)可能代價高昂或不安全,這使得離線強化學(xué)習(xí)(RL)(Lange et al., 2012; Levine et al., 2020)成為一個極具吸引力的框架。然而,標(biāo)準(zhǔn)的離線RL方法(Fujimoto et al., 2019; Agarwal et al., 2020; Fu et al., 2020; Kumar et al., 2020; Kostrikov et al., 2021)并非專為大型離散動作空間設(shè)計,因為它們需要在整個離散動作集上最大化Q函數(shù)或?qū)Σ呗赃M(jìn)行參數(shù)化——隨著動作空間隨
      呈指數(shù)級擴展,這些操作將變得難以處理(intractable),其中 A 是子動作維度的數(shù)量,是每個維度的可選數(shù)量。

      在這些復(fù)雜場景中進(jìn)行學(xué)習(xí)需要解決兩個相關(guān)問題:(i)在指數(shù)級數(shù)量的聯(lián)合動作中進(jìn)行搜索,以及(ii)確保所選子動作形成協(xié)調(diào)一致的組合。針對此類組合空間設(shè)計的方法傳統(tǒng)上通過施加強結(jié)構(gòu)先驗(例如假設(shè)子動作間條件獨立)來簡化策略學(xué)習(xí)(Tang et al., 2022; Beeson et al., 2024)。然而,這犧牲了表示能力,致使模型無法捕捉有效控制所需的交互作用。其他方法嘗試同時學(xué)習(xí)動作表示與優(yōu)化策略(Zhang et al., 2018; Landers et al., 2024; 2025),但這種目標(biāo)耦合往往導(dǎo)致學(xué)習(xí)過程緩慢且不穩(wěn)定。

      我們提出了結(jié)構(gòu)化策略初始化(Structured Policy Initialization, SPIN),這是一個將表示學(xué)習(xí)與控制解耦的兩階段框架。在第一階段,通過自監(jiān)督訓(xùn)練一個動作結(jié)構(gòu)模型(Action Structure Model, ASM),以學(xué)習(xí)一個表示函數(shù);該函數(shù)以狀態(tài) s s 為條件,在子動作上誘導(dǎo)產(chǎn)生一個特征空間,其中結(jié)構(gòu)上連貫的聯(lián)合動作集中在一個低維流形上。隨后,在第二階段凍結(jié)該動作空間表示,此時控制問題簡化為針對下游強化學(xué)習(xí)(RL)任務(wù),在動作流形上學(xué)習(xí)輕量級策略頭。通過先學(xué)習(xí)結(jié)構(gòu)再學(xué)習(xí)策略,SPIN 允許智能體利用底層的動作幾何結(jié)構(gòu),而不是在原始組合空間中進(jìn)行搜索。這帶來了更快的訓(xùn)練速度和提升的策略性能(圖 1)。在數(shù)據(jù)集大小和質(zhì)量、動作維度以及動作基數(shù)各異的多樣化基準(zhǔn)測試中,SPIN 相比當(dāng)前最先進(jìn)方法(state of the art)將平均回報最高提升了 39%,并將達(dá)到最先進(jìn)性能所需的訓(xùn)練時間最多縮短了 12.8 倍。

      我們的貢獻(xiàn)如下:

      • 我們將離散結(jié)構(gòu)化動作空間中的離線強化學(xué)習(xí)(RL)重新構(gòu)建為一個表示問題,將動作結(jié)構(gòu)學(xué)習(xí)與控制分離開來。
      • 我們提出了 SPIN,這是一個兩階段框架,通過預(yù)訓(xùn)練并凍結(jié)動作空間表示來加速并改進(jìn)策略學(xué)習(xí)。
      • 我們展示了 SPIN 在具有挑戰(zhàn)性的基準(zhǔn)測試中實現(xiàn)了最先進(jìn)(SOTA)的性能,在顯著更快的同時優(yōu)于現(xiàn)有方法。
      • 我們分析了學(xué)習(xí)到的表示,以證明在離散組合動作空間中進(jìn)行有效策略學(xué)習(xí)時,捕捉動作結(jié)構(gòu)至關(guān)重要。

      2 相關(guān)工作

      大離散動作空間中的強化學(xué)習(xí)。 針對路由(Nazari et al., 2018; Delarue et al., 2020)和資源分配(Chen et al., 2024)等領(lǐng)域的組合動作空間,已開發(fā)出多種強化學(xué)習(xí)方法,但這些方法通常依賴于特定任務(wù)的知識。研究也引入了通用方法(Dulac-Arnold et al., 2015; Tavakoli et al., 2018; Farquhar et al., 2020; Van de Wiele et al., 2020; Zhao et al., 2023),但它們通常面向在線學(xué)習(xí)設(shè)計,難以直接適應(yīng)離線數(shù)據(jù)集的約束條件。在離線強化學(xué)習(xí)中,現(xiàn)有方法通常對策略或 Q 函數(shù)進(jìn)行分解(factorize)(Tang et al., 2022; Beeson et al., 2024)。然而,這種分解強制子動作之間滿足條件獨立性,從而限制了模型的表征能力,并在子動作存在強依賴關(guān)系時失效。其他方法則顯式地捕捉依賴關(guān)系——例如 BraVE(Landers et al., 2024)對跨維度交互進(jìn)行建模,但其計算復(fù)雜度隨動作規(guī)模擴大而急劇增加(擴展性差);而自回歸策略(Zhang et al., 2018)則強加了固定的動作順序,破壞了排列不變性。最近,SAINT(Landers et al., 2025)引入了一種基于 Transformer 的策略,通過自注意力機制捕捉子動作間的依賴關(guān)系,但其聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)與控制策略的方式,導(dǎo)致了訓(xùn)練緩慢且不穩(wěn)定。另一條相關(guān)研究線致力于為大規(guī)模但平坦(flat)的動作空間學(xué)習(xí)表征。其中最相關(guān)的是 MERLION(Gu et al., 2022),它為離線強化學(xué)習(xí)學(xué)習(xí)了一種基于偽度量(pseudometric)的動作表征。然而,MERLION 的策略執(zhí)行需要在每個時間步對整個枚舉動作集進(jìn)行最近鄰搜索,這在我們所考慮的組合場景中計算上是不可行的。此外,其架構(gòu)將動作視為原子實體,并未對其底層的組合結(jié)構(gòu)進(jìn)行建模。相比之下,SPIN 專為這種組合設(shè)定設(shè)計,其結(jié)構(gòu)化策略逐維度生成聯(lián)合動作,而非枚舉完整的組合動作集。

      強化學(xué)習(xí)中的自監(jiān)督預(yù)訓(xùn)練。 強化學(xué)習(xí)中的自監(jiān)督預(yù)訓(xùn)練已呈現(xiàn)多種形式,包括作為表征塑造(representation shaping)的輔助目標(biāo)(Jaderberg et al., 2016; Shelhamer et al., 2016)、對比與預(yù)測編碼器(Laskin et al., 2020; Schwarzer et al., 2021; Stooke et al., 2021; Liu & Abbeel, 2021b;a)以及世界模型建模(Ha & Schmidhuber, 2018)。其他研究探索了掩碼決策建模或軌跡建模(Cai et al., 2023; Liu et al., 2022; Wu et al., 2023; Sun et al., 2023)。大規(guī)模行為預(yù)訓(xùn)練已催生出通用策略(generalist policies)與視覺-語言-動作模型(VLA models)(Brohan et al., 2022; Zitkovich et al., 2023; O’Neill et al., 2024; Kim et al., 2024; Team et al., 2024; Tirinzoni et al., 2025),并配套了預(yù)訓(xùn)練后的快速適應(yīng)方法(Sikchi et al., 2025)。這些方法大多以狀態(tài)或軌跡為中心,且通常預(yù)設(shè)了在線交互或多任務(wù)微調(diào)的場景。相比之下,SPIN 預(yù)訓(xùn)練了一個能夠捕捉動作組合規(guī)律的動作結(jié)構(gòu)模型(ASM),從而在無需任何在線交互的情況下,為組合動作空間中的策略學(xué)習(xí)提供結(jié)構(gòu)化初始化。

      3 預(yù)備知識






      4 結(jié)構(gòu)化策略初始化 (SPIN)

      結(jié)構(gòu)化策略初始化(Structured Policy INitialization, SPIN)是一個針對結(jié)構(gòu)化動作空間中離線強化學(xué)習(xí)的兩階段框架,它顯式地將表示學(xué)習(xí)與控制解耦。在第一階段,通過自監(jiān)督訓(xùn)練一個動作結(jié)構(gòu)模型(Action Structure Model, ASM),以學(xué)習(xí)一個表示函數(shù);該函數(shù)以狀態(tài) s 為條件,在子動作上誘導(dǎo)產(chǎn)生一個特征空間,其中結(jié)構(gòu)上連貫的聯(lián)合動作集中在一個低維流形上。在第二階段,該表示被凍結(jié),策略學(xué)習(xí)簡化為在誘導(dǎo)出的動作流形上訓(xùn)練輕量級頭(heads),以用于下游的強化學(xué)習(xí)任務(wù)。

      4.1 動作結(jié)構(gòu)建模 (ASM)


      ASM 的預(yù)訓(xùn)練過程總結(jié)在算法 1 中。我們在附錄 C 中通過實證驗證了這一目標(biāo),展示了它優(yōu)于強大的生成式和判別式替代方案。


      4.2 基于凍結(jié)表示的策略學(xué)習(xí)

      在第二階段,SPIN 在 ASM 提供的凍結(jié)表示上執(zhí)行策略學(xué)習(xí)。策略網(wǎng)絡(luò) π θ 僅更新輕量級組件,如查詢向量和輸出頭,而 ASM 保持固定。這種分離保留了學(xué)習(xí)到的動作結(jié)構(gòu),并保持策略優(yōu)化的可處理性(tractability)。






      5 實驗評估


      為了隔離架構(gòu)選擇的影響,所有方法均使用 IQL(Kostrikov et al., 2021)目標(biāo)進(jìn)行訓(xùn)練。為了評估魯棒性,我們在附錄 D 中也報告了使用替代目標(biāo)(包括 AWAC (Nair et al., 2020) 和 BCQ (Fujimoto et al., 2019))的結(jié)果。為了驗證 SPIN 在運動(locomotion)之外的泛化能力,我們在 Maze(Beeson et al., 2024)上評估了其性能,結(jié)果見附錄 E。為了證明 SPIN 的有效性歸因于其以動作為中心(action-centric)的預(yù)訓(xùn)練目標(biāo),而非僅僅源于預(yù)訓(xùn)練本身,我們在附錄 F 中將其性能與一種以軌跡為中心(trajectory-centric)的預(yù)訓(xùn)練方法進(jìn)行了比較。在所有這些設(shè)置中,SPIN 在性能和效率上均一致優(yōu)于基線方法。

      所有實驗均使用 Python 3.9 和 PyTorch 2.6 在單塊 NVIDIA A40 GPU 上運行。報告的結(jié)果是五個隨機種子的平均值, ± ± 值表示跨種子的一個標(biāo)準(zhǔn)差。

      5.1 漸近性能與訓(xùn)練效率

      表 1 報告了跨環(huán)境和數(shù)據(jù)集質(zhì)量的最終性能與訓(xùn)練效率(完整的學(xué)習(xí)曲線見附錄 A)。SPIN 取得了比所有基線方法 consistently 更高的回報,并且比所有基線方法用更少的掛鐘時間(wall-clock time)達(dá)到了目標(biāo)性能。

      SPIN 達(dá)到了最高的總體平均回報 594.1,超過了次優(yōu)基線 SAINT 的 572.1。這種提升在整個基準(zhǔn)測試套件中是系統(tǒng)性的,而非集中在個別環(huán)境中。這種優(yōu)勢在異構(gòu)的 medium-expert(中等 - 專家)和 random-medium-expert(隨機 - 中等 - 專家)數(shù)據(jù)集中最為顯著,它們代表了最現(xiàn)實且具有挑戰(zhàn)性的基準(zhǔn)設(shè)置。在 random-medium-expert 數(shù)據(jù)集上,SPIN 實現(xiàn)了 499.2 的平均回報,比次優(yōu)方法 SAINT(438.9)提升了超過 13%。

      我們還測量了每種方法達(dá)到 F-IQL 漸近性能 95% 所需的掛鐘時間(以分鐘為單位報告)。F-IQL 是結(jié)構(gòu)化動作空間中廣泛采用的最先進(jìn)(state-of-the-art)基線(Tang et al., 2022; Beeson et al., 2024; Landers et al., 2024),在各環(huán)境中均提供了可處理性(tractability)和穩(wěn)定的收斂性。使用 F-IQL 作為目標(biāo)使得收斂到不同回報水平的方法之間能夠進(jìn)行公平比較,避免了因在次優(yōu)性能處提前終止而產(chǎn)生的誤導(dǎo)性優(yōu)勢。我們采用 95% 的閾值而不是 100%,是因為有些方法永遠(yuǎn)無法達(dá)到 F-IQL 的漸近性能。直接處理這些情況——無論是通過排除運行次數(shù)還是報告完整運行時間——都會使結(jié)果產(chǎn)生偏差,而 95% 的標(biāo)準(zhǔn)提供了一致且可比的度量。

      每個環(huán)境的到達(dá)目標(biāo)時間(time-to-target)完整結(jié)果報告在附錄 B 中。總計,SPIN 在 223.3 分鐘內(nèi)達(dá)到目標(biāo)性能,大約比 F-IQL 本身快 2.5 倍,比 SAINT 快 3.8 倍。這種加速在 medium-expert 數(shù)據(jù)集中尤為明顯,SPIN 僅需 62 分鐘的訓(xùn)練時間,而所有其他方法則需要超過 250 分鐘。SPIN 的所有運行時間均包含 ASM 預(yù)訓(xùn)練階段的全過程。

      這些發(fā)現(xiàn)表明,在專用的預(yù)訓(xùn)練階段顯式地對動作結(jié)構(gòu)進(jìn)行建模,使得表示層能夠捕捉連貫動作的流形。在策略學(xué)習(xí)期間凍結(jié)該表示保留了這種結(jié)構(gòu),使得輕量級頭(heads)能夠高效地適應(yīng)下游任務(wù)。與 Factored(因子化)和 Autoregressive(自回歸)方法相比(它們要么丟棄跨維度依賴關(guān)系,要么對其施加強制性的剛性結(jié)構(gòu)),SPIN 在保留靈活性的同時沒有犧牲可處理性。與試圖聯(lián)合學(xué)習(xí)動作結(jié)構(gòu)和控制的 SAINT 不同,SPIN 的解耦設(shè)計實現(xiàn)了更高的漸近性能和更快的收斂速度。

      5.2 對動作基數(shù)的魯棒性


      結(jié)果總結(jié)在表 2 中。SPIN 在每個基數(shù)下都取得了最高的平均回報,且相對于基線的差距隨著動作空間的增大而增加。在三個區(qū)間時,SPIN 略微優(yōu)于最強的基線 SAINT。在三十個區(qū)間時,SPIN 達(dá)到了 703.9 的平均回報,相比之下 SAINT 為 562.5,提升幅度超過 25%。AR-IQL 表現(xiàn)出不穩(wěn)定的性能,從三個區(qū)間時的 526.5 下降到十個區(qū)間時的 457.4,而 F-IQL 則未顯示出從增加粒度中獲益,停留在 480 左右。


      訓(xùn)練效率遵循相同的趨勢。即使在最大的動作空間中,SPIN 始終需要更少的掛鐘時間(wall-clock time)來達(dá)到目標(biāo)性能(完整運行時間結(jié)果見附錄 B)。這些結(jié)果表明,隨著組合復(fù)雜性的增長,將結(jié)構(gòu)學(xué)習(xí)與控制分離開來日益有益,因為智能體可以在學(xué)習(xí)到的低維流形上行動,而端到端(end-to-end)的方法仍然受制于原始聯(lián)合空間的規(guī)模。

      6 SPIN 有效性的底層機制

      第 5 節(jié)的實驗表明,SPIN 在學(xué)習(xí)速度和最終性能上均優(yōu)于現(xiàn)有方法。我們現(xiàn)在考察這些提升背后的機制。

      6.1 表示質(zhì)量對策略性能的影響

      為了評估 ASM 預(yù)訓(xùn)練的貢獻(xiàn),我們在 medium-expert(中等 - 專家)數(shù)據(jù)集上將 ASM 表示訓(xùn)練了 10–100 個 epoch。隨后,將每個表示函數(shù)凍結(jié),并用于初始化一個新的策略,該策略隨后在控制任務(wù)上訓(xùn)練至收斂。

      圖 2 顯示,下游回報(return)通常隨著更多的 ASM 預(yù)訓(xùn)練而提升,其中前 20 個 epoch 的增益最為陡峭。在 20 個 epoch 之后,策略在所有任務(wù)上均超過了完全收斂的 F-IQL 參考值。由未訓(xùn)練的 ASM(Epoch 0)初始化的策略表現(xiàn)不佳。這些結(jié)果表明,最終策略性能在很大程度上取決于預(yù)訓(xùn)練動作表示的質(zhì)量;一旦學(xué)習(xí)到了連貫的表示,控制優(yōu)化就會變得 substantially 更容易。

      6.2 量化表示質(zhì)量

      圖 2 中隨機初始化(epoch 0)與預(yù)訓(xùn)練智能體之間的巨大差距,可能是由于預(yù)訓(xùn)練僅提供了方便的初始化而未編碼結(jié)構(gòu),也可能是由于預(yù)訓(xùn)練學(xué)習(xí)到了能夠賦能下游性能的表示。我們通過測試 ASM 表示是否使用線性探針(linear probe)捕捉聯(lián)合動作依賴關(guān)系來直接評估這一點,線性探針是自監(jiān)督表示的標(biāo)準(zhǔn)診斷工具(Chen et al., 2020; He et al., 2020)。


      在本實驗中,ASM 表示被凍結(jié)——無論是預(yù)訓(xùn)練了 100 個 epoch 還是隨機初始化——并在其嵌入上訓(xùn)練一個輕量級線性分類器,以根據(jù)狀態(tài)預(yù)測數(shù)據(jù)集動作。為此探針(probe)學(xué)習(xí)了新的動作查詢和線性頭。分析是在 dog-trot 環(huán)境中進(jìn)行的,該環(huán)境擁有 38 個子動作維度,被離散化為 30 個區(qū)間(bins),從而產(chǎn)生了 DM Control 套件中最大且最具挑戰(zhàn)性的組合動作空間。


      6.3 分離學(xué)習(xí)到的表示的貢獻(xiàn)



      訓(xùn)練后,學(xué)生網(wǎng)絡(luò)被凍結(jié),并作為下游策略的輕量級、無注意力機制的特征提取器發(fā)揮作用。表 3 報告了該實驗的結(jié)果。


      SPIN-Distill 與完整 SPIN 模型的漸近性能相差無幾,并且顯著優(yōu)于所有其他基線方法,同時速度比 SAINT 快近 8 倍。這些結(jié)果提供了強有力的證據(jù),表明 SPIN 的性能提升歸因于預(yù)訓(xùn)練表示本身的質(zhì)量,而非策略網(wǎng)絡(luò)的具體架構(gòu)。

      6.4 涌現(xiàn)的快速適應(yīng)

      在確立了預(yù)訓(xùn)練和表示質(zhì)量的重要性之后,我們接下來考察學(xué)習(xí)動態(tài)。表 4 報告了在 10,000 個梯度步之后達(dá)到的 F-IQL 漸近性能的百分比,這僅相當(dāng)于總訓(xùn)練預(yù)算的 1%。在幾乎所有環(huán)境中,SPIN 學(xué)習(xí)到的策略都能達(dá)到至少 90% 的目標(biāo)性能,而基線方法的提升則緩慢得多。這種效應(yīng)在異構(gòu)數(shù)據(jù)集上最為顯著。在使用 medium-expert 數(shù)據(jù)集的人形機器人(humanoid)任務(wù)中,SPIN 達(dá)到了目標(biāo)性能的 93.4%,而次優(yōu)方法 SAINT 僅達(dá)到了 9.3%。在 random-medium-expert 數(shù)據(jù)集上,在此期間,SPIN 在 cheetah 和 humanoid 任務(wù)中均超過了 F-IQL 漸近性能的 100%。


      這種快速學(xué)習(xí)也闡明了 SPIN 的掛鐘時間效率(表 1)。下游 RL 階段的計算開銷主要由 Actor-Critic 循環(huán)占據(jù),該循環(huán)需要在每個梯度步對 Actor、Critic 和目標(biāo)網(wǎng)絡(luò)進(jìn)行重復(fù)評估,以及進(jìn)行貝爾曼備份(Bellman backups)。相比之下,ASM 預(yù)訓(xùn)練階段是一個應(yīng)用于掩碼子動作的、穩(wěn)定的、單次遍歷(single-pass)的監(jiān)督目標(biāo)。因此,其相對成本極低:在 medium-expert 數(shù)據(jù)集上,預(yù)訓(xùn)練僅占 cheetah 總掛鐘時間的 5.6%,finger 的 1.4%,以及 humanoid 和 quadruped 的 1.6%。

      綜上所述,這些結(jié)果表明 ASM 提供了一個強有力的結(jié)構(gòu)先驗,極大地簡化了下游學(xué)習(xí)。端到端基線方法必須聯(lián)合發(fā)現(xiàn)動作結(jié)構(gòu)和控制,導(dǎo)致初始進(jìn)展緩慢,而 SPIN 則利用連貫的表示開始策略學(xué)習(xí),從而實現(xiàn)了高效的早期適應(yīng)并減少了整體訓(xùn)練時間。

      7 討論與結(jié)論

      在離散組合動作空間中進(jìn)行強化學(xué)習(xí),需要在指數(shù)級數(shù)量的組合動作中進(jìn)行搜索,同時確保所選子動作構(gòu)成連貫的動作組合。一些方法通過忽略動作結(jié)構(gòu)來簡化策略學(xué)習(xí)(Tang et al., 2022; Beeson et al., 2024),但代價是丟棄了關(guān)鍵的子動作依賴關(guān)系。其他方法嘗試同時捕捉結(jié)構(gòu)并求解控制問題(Zhang et al., 2018; Landers et al., 2024; 2025),但通常計算開銷極大且不穩(wěn)定。相比之下,SPIN 采用兩階段過程將表示學(xué)習(xí)與策略學(xué)習(xí)分離。在第一階段,動作結(jié)構(gòu)模型(ASM)學(xué)習(xí)一個表示函數(shù),該函數(shù)以狀態(tài) s s 為條件,在子動作上誘導(dǎo)一個特征空間,其中結(jié)構(gòu)連貫的聯(lián)合動作位于一個低維流形上。隨后,該表示被凍結(jié)并在第二階段重用,此時控制問題簡化為在預(yù)訓(xùn)練 ASM 之上訓(xùn)練輕量級策略頭。

      在數(shù)據(jù)集大小和質(zhì)量、動作維度以及動作基數(shù)各異的基準(zhǔn)測試中,SPIN 相比當(dāng)前最優(yōu)方法將平均回報最高提升了 39%,并將達(dá)到強基線性能所需的時間最多縮短了 12.8 倍。這些收益在具有挑戰(zhàn)性且更貼近現(xiàn)實的 medium-expert(中等-專家)和 random-medium-expert(隨機-中等-專家)數(shù)據(jù)集中最為顯著。

      針對性分析闡明了 SPIN 的有效性。最終性能隨著學(xué)習(xí)到的表示質(zhì)量的提升而提高,證實了控制問題的瓶頸在于結(jié)構(gòu)發(fā)現(xiàn)。一旦該結(jié)構(gòu)可用,策略便能快速學(xué)習(xí),在極小的訓(xùn)練比例內(nèi)即可達(dá)到其最終回報的大部分。線性探針進(jìn)一步表明,學(xué)習(xí)到的表示在生成完全協(xié)調(diào)的動作方面比隨機基線有效 45 倍,為下游智能體的成功提供了直接且定量的解釋。

      盡管 SPIN 展現(xiàn)了強大的性能,但仍存在若干未來工作方向。將 SPIN 擴展至 CQL 等值正則化方法是一個有前景的方向。一個自然的下一步是開發(fā)混合目標(biāo),將 SPIN 的“表示優(yōu)先”設(shè)計與溫和的保守正則化相結(jié)合——例如,將懲罰限制在 ASM 提議的候選聯(lián)合動作上,或應(yīng)用于子動作級別,從而避免在完整組合空間上進(jìn)行難以處理的全局操作。將 SPIN 適配于具有除排列等變性以外結(jié)構(gòu)假設(shè)的動作空間(例如有序或基于序列的子動作)是另一個未來方向。最后,與所有離線方法一樣,SPIN 的泛化能力最終取決于數(shù)據(jù)集的覆蓋范圍,在稀疏或有偏數(shù)據(jù)下提高魯棒性仍然是一個重要的開放挑戰(zhàn)。

      SPIN 為結(jié)構(gòu)化動作空間中的控制引入了一種“表示優(yōu)先”的視角。通過首先學(xué)習(xí)合理動作的流形,隨后重用表示函數(shù)進(jìn)行下游決策,它將復(fù)雜的組合問題簡化為可處理的策略學(xué)習(xí)任務(wù)。這種解耦為高維、結(jié)構(gòu)化領(lǐng)域的強化學(xué)習(xí)提供了一個原則性框架。

      原文鏈接:https://arxiv.org/pdf/2601.04441

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      布魯斯·威利斯30年前爛片逆襲,Netflix前十

      時光慢旅人
      2026-05-18 01:38:00
      安理會重磅發(fā)聲!中方強硬亮劍:以色列必須無條件撤出

      安理會重磅發(fā)聲!中方強硬亮劍:以色列必須無條件撤出

      低調(diào)看天下
      2026-05-17 16:59:30
      全網(wǎng)都猜錯了!張?zhí)m突然停更阿姨被臨時調(diào)休,真相是汪小菲的用心

      全網(wǎng)都猜錯了!張?zhí)m突然停更阿姨被臨時調(diào)休,真相是汪小菲的用心

      阿廢冷眼觀察所
      2026-05-16 16:21:06
      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網(wǎng)友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      賭王孫女不幸離世終年58歲!追思會內(nèi)部曝光,親友送別最后一程

      賭王孫女不幸離世終年58歲!追思會內(nèi)部曝光,親友送別最后一程

      喜歡歷史的阿繁
      2026-05-17 22:27:50
      耿同學(xué)扳倒多個學(xué)術(shù)大拿,本人背景曝光,他這么干的原因找到了

      耿同學(xué)扳倒多個學(xué)術(shù)大拿,本人背景曝光,他這么干的原因找到了

      平老師666
      2026-05-15 21:35:30
      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      中國為啥能迅速崛起,德國專家給出看法:中國沒覆蓋全民族的宗教

      抽象派大師
      2026-05-16 15:17:29
      為什么男人每次偷情要開房,女人每次偷情都在車?yán)锬兀?>
    </a>
        <h3>
      <a href=思絮
      2026-04-28 10:25:11
      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      玩嗨了!黃仁勛在大爺煙斗上簽名,庫克買咖啡,特朗普兒子游長城

      青杉依舊啊啊
      2026-05-17 07:47:44
      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進(jìn)一次毒?

      多名院士調(diào)查發(fā)現(xiàn):吃一口久放至黑斑的香蕉,或等于進(jìn)一次毒?

      路醫(yī)生健康科普
      2026-05-17 19:35:03
      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      慌了!知名化工平臺暴雷!十億元無法履約!1600家企業(yè)錢貨兩空!

      新浪財經(jīng)
      2026-05-17 12:12:48
      網(wǎng)友說未來盡量別去夜場,小仙女們要化債了!

      網(wǎng)友說未來盡量別去夜場,小仙女們要化債了!

      燈錦年
      2026-05-16 14:42:03
      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統(tǒng)一新路徑

      臺灣回歸終極方案:土地回歸中國,人員自由往來,兩岸統(tǒng)一新路徑

      陳腕特色體育解說
      2026-05-17 21:12:19
      一個人認(rèn)知在不在你之上,看這4個細(xì)節(jié)就夠了

      一個人認(rèn)知在不在你之上,看這4個細(xì)節(jié)就夠了

      洞見
      2026-04-16 11:35:51
      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      炸了!溫州砸 23 億干大事,214 萬畝荒山變綠

      奇葩游戲醬
      2026-05-18 03:26:37
      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      圖片報:1860球迷惡搞拜仁奪冠慶典,被眼尖的諾伊爾先發(fā)現(xiàn)

      懂球帝
      2026-05-17 21:39:36
      35美元小配件,讓有線CarPlay變無線

      35美元小配件,讓有線CarPlay變無線

      賽博蘭博
      2026-05-17 03:15:05
      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      99%的女人出軌完男人后,都會默契地做出這3種行為,不信你看看

      加油丁小文
      2026-05-03 08:30:16
      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      朱珠與老公上海南京西路街邊喝咖啡被偶遇,美的像拍偶像劇!

      動物奇奇怪怪
      2026-05-16 12:41:37
      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      俄烏打完后,俄國際地位會下降到何種地步?看俄羅斯周邊就知道!

      忠于法紀(jì)
      2026-05-16 17:49:52
      2026-05-18 04:20:49
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應(yīng)

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認(rèn)識到問題嚴(yán)重性!

      財經(jīng)要聞

      長鑫科技 預(yù)計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預(yù)售權(quán)益價18.89萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      房產(chǎn)
      數(shù)碼
      親子
      手機

      藝術(shù)要聞

      特朗普回去第一條動態(tài),猛夸人民大會堂:美國也得有!

      房產(chǎn)要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      數(shù)碼要聞

      銳龍5000仍是主流寵兒!38%玩家死守DDR4:DDR5輸在太貴

      親子要聞

      健康夜話 | 觸摸世界,不止屏幕一種方式

      手機要聞

      小米玄戒芯片確認(rèn)迭代!Air機型取消原因曝光

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲AV熟女| 日本三级成人中文字幕乱码| 久久精品女同亚洲女同| AV永久天堂网| 精品国产美女福到在线不卡| 亚欧女AV| 日本野外强奷在线播放va| 亚洲精品国产乱码av在线观看| 97精品人人妻人人| 四虎成人在线观看免费| 插美女少妇| 国产成人精品1024免费下载| 日韩中文字幕不卡在线| 中文字幕在线日亚州9| 国产爆乳美女娇喘呻吟| 国产熟女AAV久久| 3d动漫精品啪啪一区二区| 国产粗大| 精品一区二区三区在线观看l| 国产精品亚洲片在线观看不卡 | 久久精品国产亚洲av高清蜜臀| 国产成+人+综合+欧美亚洲| 国产成人影院一区二区三区| 日韩av无码免费播放| 亚洲天堂无码| 亚洲色天| 奇米888在线看奇米999| 久久99精品久久水蜜桃| 国产一级毛片卡| 亚洲国产三级在线观看| WWW.黄色| 国产女人被狂躁到高潮小说| 蜜桃麻豆av在线| 国产中文字幕乱码在线| 国产精品高潮露脸在线观看| 国产精品久久久久无码AV| 国产精品9999久久久久| 97福利| 亚洲精品一区二区区别| 日韩第六页| 日本高清中文字幕一区二区三区|