Thermodynamics of Reinforcement Learning Curricula
強(qiáng)化學(xué)習(xí)課程的熱力學(xué)
https://arxiv.org/pdf/2603.12324
![]()
![]()
摘要
統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的聯(lián)系已被反復(fù)證明是富有成效的,為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解。在本研究中,我們延續(xù)這一傳統(tǒng),利用非平衡熱力學(xué)的成果來形式化強(qiáng)化學(xué)習(xí)(RL)中的課程學(xué)習(xí)。具體而言,我們提出了一種用于RL的幾何框架,將獎勵參數(shù)解釋為任務(wù)流形上的坐標(biāo)。我們表明,通過最小化超額熱力學(xué)功,最優(yōu)課程對應(yīng)于該任務(wù)空間中的測地線。作為該框架的一個(gè)應(yīng)用,我們提供了一種算法“MEW”(最小超額功),用于推導(dǎo)最大熵RL中溫度退火的有理論依據(jù)的調(diào)度方案。
1 引言
現(xiàn)代強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)很少在單一、靜態(tài)的任務(wù)上進(jìn)行訓(xùn)練。相反,通過課程學(xué)習(xí)、溫度退火、獎勵塑形以及其他非平穩(wěn)目標(biāo),智能體通常會接觸一系列相關(guān)任務(wù)。然而,關(guān)于任務(wù)應(yīng)如何變化的指導(dǎo)原則仍然缺乏深入理解。一種簡單實(shí)用的方法是隨時(shí)間對任務(wù)(即獎勵函數(shù))參數(shù)進(jìn)行線性插值。這種選擇隱含地假設(shè)了任務(wù)空間是平坦且各向同性的。在本研究中,我們假設(shè)這一假設(shè)是錯誤的,并旨在證明由智能體及其學(xué)習(xí)動力學(xué)所誘導(dǎo)出的非平凡幾何結(jié)構(gòu)的存在。具體而言,我們采用一種基于統(tǒng)計(jì)力學(xué)的方法來研究參數(shù)化獎勵函數(shù)空間,揭示出一種自然度量,該度量量化了適應(yīng)新任務(wù)所涉及的難度或“摩擦”。更具體地說,我們引入了一個(gè)摩擦張量,該張量在非平衡統(tǒng)計(jì)力學(xué)(NESM)中量化了控制系統(tǒng)所需的代價(jià),使得最優(yōu)參數(shù)協(xié)議對應(yīng)于由該摩擦張量所誘導(dǎo)的幾何空間中的測地線。通過將RL映射到該框架上,我們獲得了一個(gè)關(guān)于課程最優(yōu)性的有理論依據(jù)的假設(shè),且該假設(shè)在實(shí)驗(yàn)上易于處理:最優(yōu)獎勵參數(shù)調(diào)度方案最小化了來自摩擦張量的路徑依賴超額成本,并遵循誘導(dǎo)任務(wù)空間中的測地線。這一幾何圖景有望統(tǒng)一RL中的幾種現(xiàn)象,例如基于勢函數(shù)的獎勵塑形、模擬退火以及特征坍塌。在本研究中,我們專注于線性獎勵函數(shù)參數(shù)化,并推導(dǎo)出一維任務(wù)調(diào)度的閉式表達(dá)式,從而提出了一種可直接應(yīng)用于深度RL的熵溫度退火新方法。
2 背景
2.1 統(tǒng)計(jì)力學(xué)
在非平衡物理系統(tǒng)的控制中,出現(xiàn)了與強(qiáng)化學(xué)習(xí)(RL)中“課程”類似的概念。在統(tǒng)計(jì)力學(xué)框架下,系統(tǒng)動力學(xué)依賴于隨時(shí)間變化的外部控制參數(shù)(例如溫度、耦合強(qiáng)度、場強(qiáng)、勢阱位置等)。當(dāng)這些參數(shù)的變化無限緩慢時(shí)(即在課程步驟之間允許策略完全收斂),系統(tǒng)保持在近平衡狀態(tài),且此變化所需的外部功僅取決于端點(diǎn)。然而,當(dāng)參數(shù)以有限速率變化時(shí),系統(tǒng)保持在非平衡狀態(tài),并產(chǎn)生額外的、路徑依賴的耗散,該耗散被量化為“超額功”(Jarzynski, 2008)。線性響應(yīng)理論的一個(gè)核心結(jié)果表明,該超額功可關(guān)于參數(shù)變化速率進(jìn)行二次近似(Sivak & Crooks, 2012)。該框架已在一系列經(jīng)典與量子控制問題的建模中得到成功應(yīng)用。
在本研究中,我們證明RL中的任務(wù)插值具有類似的幾何結(jié)構(gòu):獎勵參數(shù)的變化會引發(fā)瞬態(tài)次優(yōu)性與學(xué)習(xí)低效性,而這種適應(yīng)過程的主導(dǎo)階(leading-order)成本可由任務(wù)空間上的一個(gè)度量來刻畫,該度量由長期的、策略誘導(dǎo)的相關(guān)性所定義。歷史上,統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的此類聯(lián)系已被證明極具價(jià)值,為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的貢獻(xiàn)延續(xù)了這一傳統(tǒng),即利用非平衡熱力學(xué)來形式化強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)與任務(wù)插值。
2.2 最大熵強(qiáng)化學(xué)習(xí)
![]()
重要的是,該目標(biāo)在軌跡上誘導(dǎo)了一個(gè)玻爾茲曼分布:最優(yōu)策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此,來自統(tǒng)計(jì)力學(xué)的許多高級概念,如自由能、溫度和漲落,在MaxEnt RL中允許存在直接的類比。該表述構(gòu)成了現(xiàn)代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理論框架(如線性可解MDP (Todorov, 2006) 及其擴(kuò)展 (Arriojas et al., 2023))的基礎(chǔ)。
在本研究中,MaxEnt RL在與非平衡熱力學(xué)的物理圖像連接中扮演兩個(gè)角色:首先,它提供了軌跡上清晰的概率結(jié)構(gòu),使得閉式分析成為可能。其次,它允許將獎勵參數(shù)的動態(tài)變化解釋為底層分布的受控形變,使得將課程解釋為"非平衡驅(qū)動協(xié)議"變得精確。
3 課程學(xué)習(xí)的熱力學(xué)框架
![]()
對于這種參數(shù)化,我們將任務(wù)調(diào)度,或課程(curricula), λ ( t ) ,定義為任務(wù)空間中連接兩個(gè)獎勵函數(shù)的(二階可微)路徑。于是核心問題變?yōu)椋簯?yīng)當(dāng)如何選擇 λ ( t ) 以最小化適應(yīng)的總成本?
我們現(xiàn)在簡要概述用于解決此問題的框架,更多細(xì)節(jié)見附錄 A。在此框架中,為了形式化適應(yīng)成本,我們追蹤隨著任務(wù)參數(shù)的變化,智能體可實(shí)現(xiàn)的期望累積獎勵是如何變化的。沿著一個(gè)課程 λ ( t ) ,總變化可以進(jìn)行精確分解:一部分貢獻(xiàn)來自對外部獎勵函數(shù)的修改,另一部分貢獻(xiàn)源于策略本身的適應(yīng)。沿著課程對這一分解進(jìn)行積分,會產(chǎn)生一個(gè)路徑依賴的“超額功”(excess work),它僅在準(zhǔn)靜態(tài)極限(quasistatic limit)下消失。將這一超額功解釋為適應(yīng)的累積成本,我們將其最小化作為最優(yōu)課程設(shè)計(jì)的目標(biāo)。重要的是,如果我們在準(zhǔn)靜態(tài)機(jī)制(quasistatic regime)下工作,使得任務(wù)參數(shù)相對于策略誘導(dǎo)的馬爾可夫鏈的混合時(shí)間(mixing time)變化緩慢,那么線性響應(yīng)理論適用。因此,我們可以如下近似超額功(Sivak & Crooks, 2012):
關(guān)鍵在于,通過上述摩擦張量來近似超額功,我們能夠?qū)ⅰ皩W(xué)習(xí)難度”這一抽象概念轉(zhuǎn)化為可測量的幾何量。這使我們能夠超越啟發(fā)式的獎勵參數(shù)調(diào)整,轉(zhuǎn)而預(yù)測智能體將在何處遇到困難,從而使學(xué)習(xí)過程更加透明。
![]()
通常情況下,這些方程無法解析求解,因此我們訴諸數(shù)值方法和簡化設(shè)置以進(jìn)一步洞察所得解。方程 3 的解產(chǎn)生的最優(yōu)課程會在度量較大(對應(yīng)于代價(jià)高昂的適應(yīng))的方向上減速,而在度量較小的地方加速(視覺示例見圖 1)。
![]()
![]()
3.1 案例研究:線性獎勵參數(shù)化
![]()
4 溫度退火
![]()
![]()
我們在圖2中通過實(shí)驗(yàn)檢驗(yàn)了這一策略。具體而言,我們將MEW應(yīng)用于高維的Humanoid-v5 MuJoCo任務(wù)(Todorov et al., 2012)。根據(jù)圖2,我們可以看到MEW在該任務(wù)中優(yōu)于Haarnoja等人(2018b)的標(biāo)準(zhǔn)方法。通過檢查兩種方法的溫度調(diào)度,我們可以看到標(biāo)準(zhǔn)協(xié)議(來自Haarnoja等人(2018b))最初會快速降低溫度,導(dǎo)致產(chǎn)生一個(gè)近乎確定性的策略,而隨著溫度隨后升高,該策略必須進(jìn)行調(diào)整。另一方面,我們的調(diào)度是單調(diào)的,并且在每一步都根據(jù)適應(yīng)的相對成本進(jìn)行調(diào)整,從而允許策略系統(tǒng)地適應(yīng)摩擦的固定增量。我們的方法產(chǎn)生的協(xié)議在多次運(yùn)行間也具有顯著更高的一致性,如圖2中的陰影區(qū)域所示(實(shí)驗(yàn)細(xì)節(jié)和更多結(jié)果見附錄B)。
![]()
5 討論
在本研究中,我們引入了一種基于超額功最小化的課程學(xué)習(xí)幾何框架,為任務(wù)空間賦予了一種偽黎曼結(jié)構(gòu),從而定義并指導(dǎo)最優(yōu)課程。在此過程中,我們驗(yàn)證了我們的假設(shè):最優(yōu)獎勵參數(shù)調(diào)度方案最小化了源于摩擦張量的路徑依賴超額成本,并遵循誘導(dǎo)任務(wù)空間中的測地線。所得框架可直接適用于深度強(qiáng)化學(xué)習(xí)設(shè)置,如圖2所示的一維溫度退火實(shí)驗(yàn)所證實(shí)(另見附錄B)。在此,我們發(fā)現(xiàn)標(biāo)準(zhǔn)的降溫方法通過我們框架推導(dǎo)出的冷卻調(diào)度得到了顯著改善。更廣泛地說,這些結(jié)果表明,強(qiáng)化學(xué)習(xí)中的某些經(jīng)驗(yàn)不穩(wěn)定性可能不僅應(yīng)被理解為算法失敗,而是作為在彎曲且動態(tài)演變的參數(shù)流形上過于激進(jìn)地驅(qū)動高維非平衡系統(tǒng)所導(dǎo)致的后果。
5.1 未來工作
本研究引出了幾個(gè)研究方向。在理論方面,闡明與標(biāo)準(zhǔn)遺憾(regret)定義的聯(lián)系,并進(jìn)一步利用誘導(dǎo)的幾何結(jié)構(gòu)(例如用于學(xué)習(xí)自適應(yīng)特征或理解度量退化的作用),將擴(kuò)展此處開發(fā)的工具。在算法方面,開發(fā)深度強(qiáng)化學(xué)習(xí)中摩擦張量的可擴(kuò)展估計(jì)器仍是一項(xiàng)重要挑戰(zhàn)。最后,在大規(guī)模持續(xù)學(xué)習(xí)與終身學(xué)習(xí)基準(zhǔn)上進(jìn)行實(shí)證驗(yàn)證,對于評估所提框架的預(yù)測能力至關(guān)重要。
原文鏈接: https://arxiv.org/pdf/2603.12324
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.