網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

強(qiáng)化學(xué)習(xí)課程的熱力學(xué)

2026-04-21 14:21:16　來源: CreateAMind

上海舉報(bào)

分享至

Thermodynamics of Reinforcement Learning Curricula

強(qiáng)化學(xué)習(xí)課程的熱力學(xué)

https://arxiv.org/pdf/2603.12324

摘要

統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的聯(lián)系已被反復(fù)證明是富有成效的，為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解。在本研究中，我們延續(xù)這一傳統(tǒng)，利用非平衡熱力學(xué)的成果來形式化強(qiáng)化學(xué)習(xí)（RL）中的課程學(xué)習(xí)。具體而言，我們提出了一種用于RL的幾何框架，將獎勵參數(shù)解釋為任務(wù)流形上的坐標(biāo)。我們表明，通過最小化超額熱力學(xué)功，最優(yōu)課程對應(yīng)于該任務(wù)空間中的測地線。作為該框架的一個(gè)應(yīng)用，我們提供了一種算法“MEW”（最小超額功），用于推導(dǎo)最大熵RL中溫度退火的有理論依據(jù)的調(diào)度方案。

1 引言

現(xiàn)代強(qiáng)化學(xué)習(xí)（RL）系統(tǒng)很少在單一、靜態(tài)的任務(wù)上進(jìn)行訓(xùn)練。相反，通過課程學(xué)習(xí)、溫度退火、獎勵塑形以及其他非平穩(wěn)目標(biāo)，智能體通常會接觸一系列相關(guān)任務(wù)。然而，關(guān)于任務(wù)應(yīng)如何變化的指導(dǎo)原則仍然缺乏深入理解。一種簡單實(shí)用的方法是隨時(shí)間對任務(wù)（即獎勵函數(shù)）參數(shù)進(jìn)行線性插值。這種選擇隱含地假設(shè)了任務(wù)空間是平坦且各向同性的。在本研究中，我們假設(shè)這一假設(shè)是錯誤的，并旨在證明由智能體及其學(xué)習(xí)動力學(xué)所誘導(dǎo)出的非平凡幾何結(jié)構(gòu)的存在。具體而言，我們采用一種基于統(tǒng)計(jì)力學(xué)的方法來研究參數(shù)化獎勵函數(shù)空間，揭示出一種自然度量，該度量量化了適應(yīng)新任務(wù)所涉及的難度或“摩擦”。更具體地說，我們引入了一個(gè)摩擦張量，該張量在非平衡統(tǒng)計(jì)力學(xué)（NESM）中量化了控制系統(tǒng)所需的代價(jià)，使得最優(yōu)參數(shù)協(xié)議對應(yīng)于由該摩擦張量所誘導(dǎo)的幾何空間中的測地線。通過將RL映射到該框架上，我們獲得了一個(gè)關(guān)于課程最優(yōu)性的有理論依據(jù)的假設(shè)，且該假設(shè)在實(shí)驗(yàn)上易于處理：最優(yōu)獎勵參數(shù)調(diào)度方案最小化了來自摩擦張量的路徑依賴超額成本，并遵循誘導(dǎo)任務(wù)空間中的測地線。這一幾何圖景有望統(tǒng)一RL中的幾種現(xiàn)象，例如基于勢函數(shù)的獎勵塑形、模擬退火以及特征坍塌。在本研究中，我們專注于線性獎勵函數(shù)參數(shù)化，并推導(dǎo)出一維任務(wù)調(diào)度的閉式表達(dá)式，從而提出了一種可直接應(yīng)用于深度RL的熵溫度退火新方法。

2 背景

2.1 統(tǒng)計(jì)力學(xué)

在非平衡物理系統(tǒng)的控制中，出現(xiàn)了與強(qiáng)化學(xué)習(xí)（RL）中“課程”類似的概念。在統(tǒng)計(jì)力學(xué)框架下，系統(tǒng)動力學(xué)依賴于隨時(shí)間變化的外部控制參數(shù)（例如溫度、耦合強(qiáng)度、場強(qiáng)、勢阱位置等）。當(dāng)這些參數(shù)的變化無限緩慢時(shí)（即在課程步驟之間允許策略完全收斂），系統(tǒng)保持在近平衡狀態(tài)，且此變化所需的外部功僅取決于端點(diǎn)。然而，當(dāng)參數(shù)以有限速率變化時(shí)，系統(tǒng)保持在非平衡狀態(tài)，并產(chǎn)生額外的、路徑依賴的耗散，該耗散被量化為“超額功”（Jarzynski, 2008）。線性響應(yīng)理論的一個(gè)核心結(jié)果表明，該超額功可關(guān)于參數(shù)變化速率進(jìn)行二次近似（Sivak & Crooks, 2012）。該框架已在一系列經(jīng)典與量子控制問題的建模中得到成功應(yīng)用。

在本研究中，我們證明RL中的任務(wù)插值具有類似的幾何結(jié)構(gòu)：獎勵參數(shù)的變化會引發(fā)瞬態(tài)次優(yōu)性與學(xué)習(xí)低效性，而這種適應(yīng)過程的主導(dǎo)階（leading-order）成本可由任務(wù)空間上的一個(gè)度量來刻畫，該度量由長期的、策略誘導(dǎo)的相關(guān)性所定義。歷史上，統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的此類聯(lián)系已被證明極具價(jià)值，為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解（Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024）。本研究的貢獻(xiàn)延續(xù)了這一傳統(tǒng)，即利用非平衡熱力學(xué)來形式化強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)與任務(wù)插值。

2.2 最大熵強(qiáng)化學(xué)習(xí)

重要的是，該目標(biāo)在軌跡上誘導(dǎo)了一個(gè)玻爾茲曼分布：最優(yōu)策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此，來自統(tǒng)計(jì)力學(xué)的許多高級概念，如自由能、溫度和漲落，在MaxEnt RL中允許存在直接的類比。該表述構(gòu)成了現(xiàn)代算法（如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a)）以及理論框架（如線性可解MDP (Todorov, 2006) 及其擴(kuò)展 (Arriojas et al., 2023)）的基礎(chǔ)。

在本研究中，MaxEnt RL在與非平衡熱力學(xué)的物理圖像連接中扮演兩個(gè)角色：首先，它提供了軌跡上清晰的概率結(jié)構(gòu)，使得閉式分析成為可能。其次，它允許將獎勵參數(shù)的動態(tài)變化解釋為底層分布的受控形變，使得將課程解釋為"非平衡驅(qū)動協(xié)議"變得精確。

3 課程學(xué)習(xí)的熱力學(xué)框架

對于這種參數(shù)化，我們將任務(wù)調(diào)度，或課程（curricula）， λ ( t ) ，定義為任務(wù)空間中連接兩個(gè)獎勵函數(shù)的（二階可微）路徑。于是核心問題變?yōu)椋簯?yīng)當(dāng)如何選擇 λ ( t ) 以最小化適應(yīng)的總成本？

我們現(xiàn)在簡要概述用于解決此問題的框架，更多細(xì)節(jié)見附錄 A。在此框架中，為了形式化適應(yīng)成本，我們追蹤隨著任務(wù)參數(shù)的變化，智能體可實(shí)現(xiàn)的期望累積獎勵是如何變化的。沿著一個(gè)課程 λ ( t ) ，總變化可以進(jìn)行精確分解：一部分貢獻(xiàn)來自對外部獎勵函數(shù)的修改，另一部分貢獻(xiàn)源于策略本身的適應(yīng)。沿著課程對這一分解進(jìn)行積分，會產(chǎn)生一個(gè)路徑依賴的“超額功”（excess work），它僅在準(zhǔn)靜態(tài)極限（quasistatic limit）下消失。將這一超額功解釋為適應(yīng)的累積成本，我們將其最小化作為最優(yōu)課程設(shè)計(jì)的目標(biāo)。重要的是，如果我們在準(zhǔn)靜態(tài)機(jī)制（quasistatic regime）下工作，使得任務(wù)參數(shù)相對于策略誘導(dǎo)的馬爾可夫鏈的混合時(shí)間（mixing time）變化緩慢，那么線性響應(yīng)理論適用。因此，我們可以如下近似超額功（Sivak & Crooks, 2012）：

關(guān)鍵在于，通過上述摩擦張量來近似超額功，我們能夠?qū)ⅰ皩W(xué)習(xí)難度”這一抽象概念轉(zhuǎn)化為可測量的幾何量。這使我們能夠超越啟發(fā)式的獎勵參數(shù)調(diào)整，轉(zhuǎn)而預(yù)測智能體將在何處遇到困難，從而使學(xué)習(xí)過程更加透明。

通常情況下，這些方程無法解析求解，因此我們訴諸數(shù)值方法和簡化設(shè)置以進(jìn)一步洞察所得解。方程 3 的解產(chǎn)生的最優(yōu)課程會在度量較大（對應(yīng)于代價(jià)高昂的適應(yīng)）的方向上減速，而在度量較小的地方加速（視覺示例見圖 1）。

3.1 案例研究：線性獎勵參數(shù)化

4 溫度退火

我們在圖2中通過實(shí)驗(yàn)檢驗(yàn)了這一策略。具體而言，我們將MEW應(yīng)用于高維的Humanoid-v5 MuJoCo任務(wù)（Todorov et al., 2012）。根據(jù)圖2，我們可以看到MEW在該任務(wù)中優(yōu)于Haarnoja等人（2018b）的標(biāo)準(zhǔn)方法。通過檢查兩種方法的溫度調(diào)度，我們可以看到標(biāo)準(zhǔn)協(xié)議（來自Haarnoja等人（2018b））最初會快速降低溫度，導(dǎo)致產(chǎn)生一個(gè)近乎確定性的策略，而隨著溫度隨后升高，該策略必須進(jìn)行調(diào)整。另一方面，我們的調(diào)度是單調(diào)的，并且在每一步都根據(jù)適應(yīng)的相對成本進(jìn)行調(diào)整，從而允許策略系統(tǒng)地適應(yīng)摩擦的固定增量。我們的方法產(chǎn)生的協(xié)議在多次運(yùn)行間也具有顯著更高的一致性，如圖2中的陰影區(qū)域所示（實(shí)驗(yàn)細(xì)節(jié)和更多結(jié)果見附錄B）。

5 討論

在本研究中，我們引入了一種基于超額功最小化的課程學(xué)習(xí)幾何框架，為任務(wù)空間賦予了一種偽黎曼結(jié)構(gòu)，從而定義并指導(dǎo)最優(yōu)課程。在此過程中，我們驗(yàn)證了我們的假設(shè)：最優(yōu)獎勵參數(shù)調(diào)度方案最小化了源于摩擦張量的路徑依賴超額成本，并遵循誘導(dǎo)任務(wù)空間中的測地線。所得框架可直接適用于深度強(qiáng)化學(xué)習(xí)設(shè)置，如圖2所示的一維溫度退火實(shí)驗(yàn)所證實(shí)（另見附錄B）。在此，我們發(fā)現(xiàn)標(biāo)準(zhǔn)的降溫方法通過我們框架推導(dǎo)出的冷卻調(diào)度得到了顯著改善。更廣泛地說，這些結(jié)果表明，強(qiáng)化學(xué)習(xí)中的某些經(jīng)驗(yàn)不穩(wěn)定性可能不僅應(yīng)被理解為算法失敗，而是作為在彎曲且動態(tài)演變的參數(shù)流形上過于激進(jìn)地驅(qū)動高維非平衡系統(tǒng)所導(dǎo)致的后果。

5.1 未來工作

本研究引出了幾個(gè)研究方向。在理論方面，闡明與標(biāo)準(zhǔn)遺憾（regret）定義的聯(lián)系，并進(jìn)一步利用誘導(dǎo)的幾何結(jié)構(gòu)（例如用于學(xué)習(xí)自適應(yīng)特征或理解度量退化的作用），將擴(kuò)展此處開發(fā)的工具。在算法方面，開發(fā)深度強(qiáng)化學(xué)習(xí)中摩擦張量的可擴(kuò)展估計(jì)器仍是一項(xiàng)重要挑戰(zhàn)。最后，在大規(guī)模持續(xù)學(xué)習(xí)與終身學(xué)習(xí)基準(zhǔn)上進(jìn)行實(shí)證驗(yàn)證，對于評估所提框架的預(yù)測能力至關(guān)重要。

原文鏈接： https://arxiv.org/pdf/2603.12324

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.