<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      強(qiáng)化學(xué)習(xí)課程的熱力學(xué)

      0
      分享至

      Thermodynamics of Reinforcement Learning Curricula

      強(qiáng)化學(xué)習(xí)課程的熱力學(xué)

      https://arxiv.org/pdf/2603.12324



      摘要

      統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的聯(lián)系已被反復(fù)證明是富有成效的,為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解。在本研究中,我們延續(xù)這一傳統(tǒng),利用非平衡熱力學(xué)的成果來形式化強(qiáng)化學(xué)習(xí)(RL)中的課程學(xué)習(xí)。具體而言,我們提出了一種用于RL的幾何框架,將獎勵參數(shù)解釋為任務(wù)流形上的坐標(biāo)。我們表明,通過最小化超額熱力學(xué)功,最優(yōu)課程對應(yīng)于該任務(wù)空間中的測地線。作為該框架的一個(gè)應(yīng)用,我們提供了一種算法“MEW”(最小超額功),用于推導(dǎo)最大熵RL中溫度退火的有理論依據(jù)的調(diào)度方案。

      1 引言

      現(xiàn)代強(qiáng)化學(xué)習(xí)(RL)系統(tǒng)很少在單一、靜態(tài)的任務(wù)上進(jìn)行訓(xùn)練。相反,通過課程學(xué)習(xí)、溫度退火、獎勵塑形以及其他非平穩(wěn)目標(biāo),智能體通常會接觸一系列相關(guān)任務(wù)。然而,關(guān)于任務(wù)應(yīng)如何變化的指導(dǎo)原則仍然缺乏深入理解。一種簡單實(shí)用的方法是隨時(shí)間對任務(wù)(即獎勵函數(shù))參數(shù)進(jìn)行線性插值。這種選擇隱含地假設(shè)了任務(wù)空間是平坦且各向同性的。在本研究中,我們假設(shè)這一假設(shè)是錯誤的,并旨在證明由智能體及其學(xué)習(xí)動力學(xué)所誘導(dǎo)出的非平凡幾何結(jié)構(gòu)的存在。具體而言,我們采用一種基于統(tǒng)計(jì)力學(xué)的方法來研究參數(shù)化獎勵函數(shù)空間,揭示出一種自然度量,該度量量化了適應(yīng)新任務(wù)所涉及的難度或“摩擦”。更具體地說,我們引入了一個(gè)摩擦張量,該張量在非平衡統(tǒng)計(jì)力學(xué)(NESM)中量化了控制系統(tǒng)所需的代價(jià),使得最優(yōu)參數(shù)協(xié)議對應(yīng)于由該摩擦張量所誘導(dǎo)的幾何空間中的測地線。通過將RL映射到該框架上,我們獲得了一個(gè)關(guān)于課程最優(yōu)性的有理論依據(jù)的假設(shè),且該假設(shè)在實(shí)驗(yàn)上易于處理:最優(yōu)獎勵參數(shù)調(diào)度方案最小化了來自摩擦張量的路徑依賴超額成本,并遵循誘導(dǎo)任務(wù)空間中的測地線。這一幾何圖景有望統(tǒng)一RL中的幾種現(xiàn)象,例如基于勢函數(shù)的獎勵塑形、模擬退火以及特征坍塌。在本研究中,我們專注于線性獎勵函數(shù)參數(shù)化,并推導(dǎo)出一維任務(wù)調(diào)度的閉式表達(dá)式,從而提出了一種可直接應(yīng)用于深度RL的熵溫度退火新方法。

      2 背景

      2.1 統(tǒng)計(jì)力學(xué)

      在非平衡物理系統(tǒng)的控制中,出現(xiàn)了與強(qiáng)化學(xué)習(xí)(RL)中“課程”類似的概念。在統(tǒng)計(jì)力學(xué)框架下,系統(tǒng)動力學(xué)依賴于隨時(shí)間變化的外部控制參數(shù)(例如溫度、耦合強(qiáng)度、場強(qiáng)、勢阱位置等)。當(dāng)這些參數(shù)的變化無限緩慢時(shí)(即在課程步驟之間允許策略完全收斂),系統(tǒng)保持在近平衡狀態(tài),且此變化所需的外部功僅取決于端點(diǎn)。然而,當(dāng)參數(shù)以有限速率變化時(shí),系統(tǒng)保持在非平衡狀態(tài),并產(chǎn)生額外的、路徑依賴的耗散,該耗散被量化為“超額功”(Jarzynski, 2008)。線性響應(yīng)理論的一個(gè)核心結(jié)果表明,該超額功可關(guān)于參數(shù)變化速率進(jìn)行二次近似(Sivak & Crooks, 2012)。該框架已在一系列經(jīng)典與量子控制問題的建模中得到成功應(yīng)用。

      在本研究中,我們證明RL中的任務(wù)插值具有類似的幾何結(jié)構(gòu):獎勵參數(shù)的變化會引發(fā)瞬態(tài)次優(yōu)性與學(xué)習(xí)低效性,而這種適應(yīng)過程的主導(dǎo)階(leading-order)成本可由任務(wù)空間上的一個(gè)度量來刻畫,該度量由長期的、策略誘導(dǎo)的相關(guān)性所定義。歷史上,統(tǒng)計(jì)力學(xué)與機(jī)器學(xué)習(xí)之間的此類聯(lián)系已被證明極具價(jià)值,為優(yōu)化、泛化與表示學(xué)習(xí)提供了深刻見解(Pennington & Worah, 2017; Yaida, 2019; Bahri et al., 2020; Barr et al., 2020; Huang, 2021; Das et al., 2021; Roberts et al., 2022; Gillman et al., 2024; Bahri et al., 2024)。本研究的貢獻(xiàn)延續(xù)了這一傳統(tǒng),即利用非平衡熱力學(xué)來形式化強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)與任務(wù)插值。

      2.2 最大熵強(qiáng)化學(xué)習(xí)


      重要的是,該目標(biāo)在軌跡上誘導(dǎo)了一個(gè)玻爾茲曼分布:最優(yōu)策略為具有較大累積獎勵的軌跡分配更高的概率 (Levine, 2018)。因此,來自統(tǒng)計(jì)力學(xué)的許多高級概念,如自由能、溫度和漲落,在MaxEnt RL中允許存在直接的類比。該表述構(gòu)成了現(xiàn)代算法(如Soft Q-Learning和Soft Actor-Critic (Haarnoja et al., 2018a))以及理論框架(如線性可解MDP (Todorov, 2006) 及其擴(kuò)展 (Arriojas et al., 2023))的基礎(chǔ)。

      在本研究中,MaxEnt RL在與非平衡熱力學(xué)的物理圖像連接中扮演兩個(gè)角色:首先,它提供了軌跡上清晰的概率結(jié)構(gòu),使得閉式分析成為可能。其次,它允許將獎勵參數(shù)的動態(tài)變化解釋為底層分布的受控形變,使得將課程解釋為"非平衡驅(qū)動協(xié)議"變得精確。

      3 課程學(xué)習(xí)的熱力學(xué)框架


      對于這種參數(shù)化,我們將任務(wù)調(diào)度,或課程(curricula), λ ( t ) ,定義為任務(wù)空間中連接兩個(gè)獎勵函數(shù)的(二階可微)路徑。于是核心問題變?yōu)椋簯?yīng)當(dāng)如何選擇 λ ( t ) 以最小化適應(yīng)的總成本?

      我們現(xiàn)在簡要概述用于解決此問題的框架,更多細(xì)節(jié)見附錄 A。在此框架中,為了形式化適應(yīng)成本,我們追蹤隨著任務(wù)參數(shù)的變化,智能體可實(shí)現(xiàn)的期望累積獎勵是如何變化的。沿著一個(gè)課程 λ ( t ) ,總變化可以進(jìn)行精確分解:一部分貢獻(xiàn)來自對外部獎勵函數(shù)的修改,另一部分貢獻(xiàn)源于策略本身的適應(yīng)。沿著課程對這一分解進(jìn)行積分,會產(chǎn)生一個(gè)路徑依賴的“超額功”(excess work),它僅在準(zhǔn)靜態(tài)極限(quasistatic limit)下消失。將這一超額功解釋為適應(yīng)的累積成本,我們將其最小化作為最優(yōu)課程設(shè)計(jì)的目標(biāo)。重要的是,如果我們在準(zhǔn)靜態(tài)機(jī)制(quasistatic regime)下工作,使得任務(wù)參數(shù)相對于策略誘導(dǎo)的馬爾可夫鏈的混合時(shí)間(mixing time)變化緩慢,那么線性響應(yīng)理論適用。因此,我們可以如下近似超額功(Sivak & Crooks, 2012):

      關(guān)鍵在于,通過上述摩擦張量來近似超額功,我們能夠?qū)ⅰ皩W(xué)習(xí)難度”這一抽象概念轉(zhuǎn)化為可測量的幾何量。這使我們能夠超越啟發(fā)式的獎勵參數(shù)調(diào)整,轉(zhuǎn)而預(yù)測智能體將在何處遇到困難,從而使學(xué)習(xí)過程更加透明。


      通常情況下,這些方程無法解析求解,因此我們訴諸數(shù)值方法和簡化設(shè)置以進(jìn)一步洞察所得解。方程 3 的解產(chǎn)生的最優(yōu)課程會在度量較大(對應(yīng)于代價(jià)高昂的適應(yīng))的方向上減速,而在度量較小的地方加速(視覺示例見圖 1)。



      3.1 案例研究:線性獎勵參數(shù)化


      4 溫度退火



      我們在圖2中通過實(shí)驗(yàn)檢驗(yàn)了這一策略。具體而言,我們將MEW應(yīng)用于高維的Humanoid-v5 MuJoCo任務(wù)(Todorov et al., 2012)。根據(jù)圖2,我們可以看到MEW在該任務(wù)中優(yōu)于Haarnoja等人(2018b)的標(biāo)準(zhǔn)方法。通過檢查兩種方法的溫度調(diào)度,我們可以看到標(biāo)準(zhǔn)協(xié)議(來自Haarnoja等人(2018b))最初會快速降低溫度,導(dǎo)致產(chǎn)生一個(gè)近乎確定性的策略,而隨著溫度隨后升高,該策略必須進(jìn)行調(diào)整。另一方面,我們的調(diào)度是單調(diào)的,并且在每一步都根據(jù)適應(yīng)的相對成本進(jìn)行調(diào)整,從而允許策略系統(tǒng)地適應(yīng)摩擦的固定增量。我們的方法產(chǎn)生的協(xié)議在多次運(yùn)行間也具有顯著更高的一致性,如圖2中的陰影區(qū)域所示(實(shí)驗(yàn)細(xì)節(jié)和更多結(jié)果見附錄B)。


      5 討論

      在本研究中,我們引入了一種基于超額功最小化的課程學(xué)習(xí)幾何框架,為任務(wù)空間賦予了一種偽黎曼結(jié)構(gòu),從而定義并指導(dǎo)最優(yōu)課程。在此過程中,我們驗(yàn)證了我們的假設(shè):最優(yōu)獎勵參數(shù)調(diào)度方案最小化了源于摩擦張量的路徑依賴超額成本,并遵循誘導(dǎo)任務(wù)空間中的測地線。所得框架可直接適用于深度強(qiáng)化學(xué)習(xí)設(shè)置,如圖2所示的一維溫度退火實(shí)驗(yàn)所證實(shí)(另見附錄B)。在此,我們發(fā)現(xiàn)標(biāo)準(zhǔn)的降溫方法通過我們框架推導(dǎo)出的冷卻調(diào)度得到了顯著改善。更廣泛地說,這些結(jié)果表明,強(qiáng)化學(xué)習(xí)中的某些經(jīng)驗(yàn)不穩(wěn)定性可能不僅應(yīng)被理解為算法失敗,而是作為在彎曲且動態(tài)演變的參數(shù)流形上過于激進(jìn)地驅(qū)動高維非平衡系統(tǒng)所導(dǎo)致的后果。

      5.1 未來工作

      本研究引出了幾個(gè)研究方向。在理論方面,闡明與標(biāo)準(zhǔn)遺憾(regret)定義的聯(lián)系,并進(jìn)一步利用誘導(dǎo)的幾何結(jié)構(gòu)(例如用于學(xué)習(xí)自適應(yīng)特征或理解度量退化的作用),將擴(kuò)展此處開發(fā)的工具。在算法方面,開發(fā)深度強(qiáng)化學(xué)習(xí)中摩擦張量的可擴(kuò)展估計(jì)器仍是一項(xiàng)重要挑戰(zhàn)。最后,在大規(guī)模持續(xù)學(xué)習(xí)與終身學(xué)習(xí)基準(zhǔn)上進(jìn)行實(shí)證驗(yàn)證,對于評估所提框架的預(yù)測能力至關(guān)重要。

      原文鏈接: https://arxiv.org/pdf/2603.12324

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      20名中國教授赴美參會,中國大腦剛落地就被關(guān),簽證當(dāng)場作廢!

      20名中國教授赴美參會,中國大腦剛落地就被關(guān),簽證當(dāng)場作廢!

      獨(dú)舞獨(dú)舞
      2026-05-17 13:41:29
      西紅柿再次被關(guān)注?研究發(fā)現(xiàn):常吃西紅柿的人,或可收獲3大好處

      西紅柿再次被關(guān)注?研究發(fā)現(xiàn):常吃西紅柿的人,或可收獲3大好處

      39健康網(wǎng)
      2026-05-17 20:20:33
      剛說要和中國好好相處,轉(zhuǎn)頭就收3個(gè)噩耗,特朗普回國

      剛說要和中國好好相處,轉(zhuǎn)頭就收3個(gè)噩耗,特朗普回國

      諦聽骨語本尊
      2026-05-16 14:58:39
      人一旦開竅,搞錢如喝水

      人一旦開竅,搞錢如喝水

      洞見
      2026-05-16 12:16:46
      貴州省兩縣政府主要領(lǐng)導(dǎo)調(diào)整

      貴州省兩縣政府主要領(lǐng)導(dǎo)調(diào)整

      汲古知新
      2026-05-17 23:48:06
      許利民:上海沒有發(fā)揮出真實(shí)水平,他們的實(shí)力還是在我們之上

      許利民:上海沒有發(fā)揮出真實(shí)水平,他們的實(shí)力還是在我們之上

      懂球帝
      2026-05-17 22:11:51
      格力集團(tuán)原董事長主動投案

      格力集團(tuán)原董事長主動投案

      新浪財(cái)經(jīng)
      2026-05-17 12:54:23
      馬刺季后賽場邊超美女球迷走紅網(wǎng)絡(luò)!她是健身教練 身材太絕了

      馬刺季后賽場邊超美女球迷走紅網(wǎng)絡(luò)!她是健身教練 身材太絕了

      Emily說個(gè)球
      2026-05-17 20:02:03
      27.3萬起!特斯拉宣布:新車調(diào)價(jià)

      27.3萬起!特斯拉宣布:新車調(diào)價(jià)

      高科技愛好者
      2026-05-17 22:46:47
      郵報(bào):曼城內(nèi)部人士稱瓜帥已決心離隊(duì),且教練組會有較大變動

      郵報(bào):曼城內(nèi)部人士稱瓜帥已決心離隊(duì),且教練組會有較大變動

      懂球帝
      2026-05-17 20:04:42
      梅根·福克斯40歲生日曬性感照:渴望毀滅自己的東西

      梅根·福克斯40歲生日曬性感照:渴望毀滅自己的東西

      赴一場山海啊
      2026-05-18 02:02:23
      生吃解毒,熟吃潤肺;大量上市,10元5斤,兩天吃一次,作用真多

      生吃解毒,熟吃潤肺;大量上市,10元5斤,兩天吃一次,作用真多

      觀星賞月
      2026-05-15 15:54:17
      4月授課88.6課時(shí),實(shí)發(fā)僅7424.46元!一江蘇教培老師哭訴工資太低

      4月授課88.6課時(shí),實(shí)發(fā)僅7424.46元!一江蘇教培老師哭訴工資太低

      火山詩話
      2026-05-17 16:52:36
      得熬夜!U17國足VS澳大利亞,開球時(shí)間公布,誰能踢進(jìn)亞洲杯決賽

      得熬夜!U17國足VS澳大利亞,開球時(shí)間公布,誰能踢進(jìn)亞洲杯決賽

      體育大學(xué)僧
      2026-05-17 11:47:42
      韓星成東鎰欽點(diǎn)兒媳人選:等她長大嫁給我兒子

      韓星成東鎰欽點(diǎn)兒媳人選:等她長大嫁給我兒子

      娛圈觀察員
      2026-05-17 00:26:30
      中國最好吃的6個(gè)城市,50歲前要去一次

      中國最好吃的6個(gè)城市,50歲前要去一次

      簡食記工作號
      2026-05-14 00:06:06
      廣汽董事長回應(yīng)埃安被稱作“網(wǎng)約車之王”:如果沒高品質(zhì) 就不會受到司機(jī)的歡迎

      廣汽董事長回應(yīng)埃安被稱作“網(wǎng)約車之王”:如果沒高品質(zhì) 就不會受到司機(jī)的歡迎

      快科技
      2026-05-17 11:52:04
      利好果然來了!

      利好果然來了!

      平點(diǎn)金基
      2026-05-17 22:44:00
      我一直糾結(jié)劉濤的長相很久了,昨天拿去讓老人家?guī)兔纯疵嫦唷?>
    </a>
        <h3>
      <a href=小光侃娛樂
      2026-05-13 11:59:03
      30年美債沒守住5%“生死線”!美銀Hartnett:“地獄之門”已打開  6月初是“賣出窗口”

      30年美債沒守住5%“生死線”!美銀Hartnett:“地獄之門”已打開 6月初是“賣出窗口”

      新浪財(cái)經(jīng)
      2026-05-17 09:47:49
      2026-05-18 04:23:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數(shù) 19關(guān)注度
      往期回顧 全部

      科技要聞

      三大運(yùn)營商即將免月租?多方回應(yīng)

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      頭條要聞

      內(nèi)塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      體育要聞

      生死戰(zhàn)只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認(rèn)識到問題嚴(yán)重性!

      財(cái)經(jīng)要聞

      長鑫科技 預(yù)計(jì)上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預(yù)售權(quán)益價(jià)18.89萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      教育
      親子
      手機(jī)
      健康

      藝術(shù)要聞

      特朗普回去第一條動態(tài),猛夸人民大會堂:美國也得有!

      教育要聞

      南京大學(xué):熱門專業(yè),就業(yè)現(xiàn)狀及報(bào)考分析#搜索千校視頻計(jì)劃

      親子要聞

      健康夜話 | 觸摸世界,不止屏幕一種方式

      手機(jī)要聞

      小米玄戒芯片確認(rèn)迭代!Air機(jī)型取消原因曝光

      專家揭秘干細(xì)胞回輸?shù)陌踩L(fēng)險(xiǎn)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 91豆花视频18| 少妇激情av一区二区三区| 日韩电影在线观看视频| 亚洲成人资源| 三级网站在线播放| 免费在线成人网| 亚洲 另类 日韩 制服 无码| 国产精品av免费观看| 国产成人午夜电影网| 女人与牲口性恔配视频免费| 高级黄区18勿进视频免费| 首页 综合国产 亚洲 丝袜日本| 不卡一区二区视频日本| 日韩高清在线亚洲专区不卡 | 99ri国产在线观看| 亚洲日韩亚洲另类激情文学一| 伊人精品无码av一区二区三区| 亚洲一区二区三区 无码| 久久婷婷五月国产色综合| 亚洲狠狠| 亚洲国产日韩在线视频| 不卡不卡?欧美一区?在线| 丁香六月婷婷久久综合| 国产精品亚洲二区在线看| 波多野结衣AV一区二区全免费观看| 亚洲国产精品久久网午夜| 黑人VA| 国产精品成人网| 国模冰冰高清炮轰图150p| 国产www| 欧美成aⅴ人高清ww| 在线a亚洲老鸭窝天堂| av中文在线天堂| 午夜成人福利| 精品少妇爆乳无码aⅴ区| 国产探花AV在线日韩精品| 中文字幕久久久久人妻无码| 国产色网站| 日韩av在线免费观看| 伊人色综合久久天天| 日韩熟妇中文色在线视频|