<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      期望自由能最小化的消息傳遞實現

      0
      分享至

      A Message Passing Realization of Expected Free Energy Minimization

      期望自由能最小化的消息傳遞實現

      https://arxiv.org/pdf/2508.02197


      摘要

      我們基于[15]中提出的理論,提出了一種在因子圖上進行期望自由能(EFE)最小化的消息傳遞方法。通過將EFE最小化重新表述為帶有認知先驗的變分自由能最小化,我們將一個組合搜索問題轉化為一個可通過標準變分技術求解的易處理推理問題。將我們的消息傳遞方法應用于因子化狀態空間模型,能夠實現高效的政策推斷。我們在存在認知不確定性的環境中評估了我們的方法:一個隨機網格世界和一個部分可觀察的Minigrid任務。使用我們方法的智能體在這些任務上 consistently 優于傳統的KL控制智能體,表現出更穩健的規劃和在不確定性下的高效探索。在隨機網格世界環境中,最小化EFE的智能體會避開危險路徑;而在部分可觀察的minigrid環境中,它們會進行更系統的信息尋求行為。該方法架起了主動推理理論與實際實現之間的橋梁,為人工智能體中認知先驗的效率提供了經驗證據。

      關鍵詞:主動推理 · 認知規劃 · 期望自由能 · 因子圖 · 消息傳遞

      1 引言

      期望自由能(EFE)最小化源于自由能原理,通過統一追求獎勵(實用性)和尋求信息(認知性)的驅動力,為智能行為建模提供了一個框架[17,19]。雖然“控制即推理”方法在將決策制定表述為概率推理問題方面取得了顯著進展[21,1],但EFE最小化通過明確考慮認知不確定性擴展了這一范式[12],然而其實際應用在面對長規劃時域和高維狀態空間時仍面臨計算挑戰[31]。

      計算EFE的傳統方法通常涉及評估所有可能的動作序列,這對于非平凡問題變得難以處理。盡管已經開發了各種近似方法來解決這一可處理性問題,但傳統方法通常將EFE用作評估策略的成本函數,而不是作為信念變分優化的目標函數[30,8,20]。

      本文為[15]中提出的理論基礎提供了實證驗證,該理論將EFE最小化直接重新表述為因子圖上的變分推理問題。通過引入合適的認知先驗,我們證明最小化EFE可以通過標準的變分自由能(VFE)最小化來實現,這使得它與自由能原理的核心原則——即所有過程從根本上都基于變分自由能最小化——保持一致。

      我們通過一種在因子化狀態空間模型上的迭代消息傳遞算法來實現該方法。我們在具有不同不確定性特征的環境中評估其性能:一個存在危險轉移的隨機網格世界,以及一個需要主動探索才能成功完成的部分可觀察Minigrid環境。我們的結果證實,使用我們基于推理的方法的智能體,相比KL控制智能體,展現出了與直接EFE計算相同的特征性優勢,尤其是在處理認知不確定性方面。這驗證了我們的方法,同時為不確定性下的規劃提供了一個計算高效的框架。

      本文的其余部分組織如下:
      – 第2節:提供必要的背景材料。
      – 第3節:討論控制即推理和主動推理方面的相關工作。
      – 第4節:介紹我們將EFE最小化重新表述為推理問題的方法。
      – 第5節:描述我們的評估環境和實驗設計。

      2 背景 2.1 變分推理


      2.2 因子圖

      因子圖是一種特定類型的概率圖模型,它顯式地表示了模型的分解結構,其中因子代表(條件)概率分布。在我們的工作中,我們采用了Forney式因子圖(FFG)[16],它提供了一種特定的表示方法,符號表示遵循文獻[28]。

      一個FFG將一個分解函數 f ( s ) 表示為



      當每個 s i 可以取 10 個值時,這個求和包含大約一千項。然而,考慮到生成模型的分解結構以及乘法分配律,式 (3) 可以重寫為:


      式 (4) 中的計算僅需幾百次求和,從計算角度來看更為可取。在更大的模型中,計算量隨因子節點數量線性增長,而非指數增長。中間結果 可以被解釋為模型 FFG 表示中的局部消息,如圖 1 所示。關于因子圖及相關(變分)消息傳遞算法的全面論述,我們建議讀者參閱 [28,29,40,14,36]。


      3 相關工作

      不確定性下的自主決策仍然是控制理論和人工智能領域的核心挑戰。本節回顧了為我們工作的貢獻提供背景的關鍵進展。

      3.1 控制即推理

      對高效且高性能自主系統的追求推動了控制理論領域的重大研究。最優控制[3,4,33]為確定給定系統的最小化預定義成本函數的控制輸入提供了數學框架。在此基礎上,模型預測控制(MPC)算法通過引入反饋回路和滾動時域策略來應對實時控制的挑戰[5,34,35,11]。這種方法允許在線適應擾動和約束。

      近年來的一個重要范式轉變是將控制視為一個推理問題。這一視角允許應用強大的概率工具來應對控制挑戰,尤其是在復雜和不確定的環境中。在確定性動力學下,閉環滾動時域MPC中的序貫決策過程可以優雅地映射到因子圖上的推理[27,26]。

      當處理隨機動力學或不確定性下的狀態估計需求時,隨機最優控制方法可以通過變分推理進行重新表述[23,21]。在這里,關于狀態和/或控制的難處理后驗分布被一個易處理的變分分布所近似。

      主動推理[12,13]通過提出關于系統獲得的信息也是一種獎勵形式來解決不確定性下的控制問題。該框架表明,變分推理通過優化期望自由能[19]自然地平衡了探索與利用,這優雅地結合了最小化環境不確定性(信息增益)的驅動力與實現期望結果的需求。然而,主動推理當前的一個局限性在于計算期望自由能所帶來的計算成本[19],這激發了近期對高效算法的研究[30,18,31,8]。

      最近,[15]提出了一種期望自由能最小化的替代方法,將EFE最小化構建為一個常規的變分自由能最小化任務。這種方法對于可擴展地實現EFE最小化規劃算法很有前景,但僅提供了理論說明,未考慮實際實現或實證驗證。在下一節中,我們將提出該方法的一個消息傳遞實現。

      4 方法

      作為本文的主要貢獻,我們將詳細闡述文獻[15]中的定理1。為方便起見,我們在此重復該定理,盡管不包含模型參數 θ :




      在接下來的章節中,我們將描述一種基于因子圖的消息傳遞算法,該算法可作為尋找自由能泛函駐點的一種實用方法。

      4.1 因子化模型與因子化后驗

      定理1是一個一般性的結果,然而在實踐中,我們通常關注如下形式的因子化狀態空間模型:


      雖然該推論是定理1的一個特例和直接應用,但其詳細證明在附錄A中給出。該推論表明,偏好先驗和認知先驗可以歸結為局部貢獻。我們將把偏好先驗和認知先驗實現為因子節點,在推理過程中充當先驗分布。圖2展示了增強后的因子圖的一個時間片。


      這種方法的好處在于,因子圖上的推理已經得到充分研究,并且可以使用反應式消息傳遞[2]高效實現。這實際上意味著,期望自由能最小化的計算復雜度與因子圖上變分推理的計算復雜度相同。

      4.2 推斷策略后驗

      推論1在模型定義中引入了一個循環依賴:為了定義帶有認知先驗(式13)的VFE泛函,我們需要訪問變分后驗分布,但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

      這個循環依賴可以通過在因子圖上實現為消息傳遞的迭代變分推理過程來解決。我們首先初始化變分后驗,然后迭代更新后驗信念和認知先驗,直到收斂。

      在因子圖上,我們可以使用消息傳遞算法實現變分推理,該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此,設 q τ ( ? ) 為第 τ τ次迭代時的變分后驗分布,則我們將認知先驗定義為:

      推論1在模型定義中引入了一個循環依賴:為了定義帶有認知先驗(式13)的VFE泛函,我們需要訪問變分后驗分布,但變分后驗只能通過給定生成模型下最小化VFE泛函來獲得。

      這個循環依賴可以通過在因子圖上實現為消息傳遞的迭代變分推理過程來解決。我們首先初始化變分后驗,然后迭代更新后驗信念和認知先驗,直到收斂。

      在因子圖上,我們可以使用消息傳遞算法實現變分推理,該算法迭代更新后驗分布[32]。每一次消息傳遞迭代 τ 同時精化后驗分布和先驗分布。為此,設 q τ ( ? ) 為第 τ 次迭代時的變分后驗分布,則我們將認知先驗定義為:


      5 評估

      本節評估我們提出的最小化EFE的策略推斷方法。在本節中,我們將評估所提方法的性能。偏好先驗的加入與KL控制文獻[37,38]一致,這意味著我們關注的主要焦點是認知先驗對策略后驗的影響。為此,我們將在有和沒有認知先驗兩種情況下進行實驗,分別對應KL控制策略和最小化EFE的策略。已知KL控制在面對隨機性和不確定性時容易產生樂觀規劃[26,27],因此我們將探索具有隨機動力學和觀測噪聲的部分可觀察馬爾可夫決策過程(POMDP)。

      在我們的實驗評估中,我們考慮環境動態對智能體完全已知的場景,盡管這些動態可能是隨機的或包含固有的不確定性。這種已知動態的假設使我們能夠隔離并評估認知先驗對決策的具體影響,而不會將其與模型學習混為一談。

      5.1 實驗設計

      我們設計了一個隨機網格環境,專門用于挑戰智能體在動態和觀測中的不確定性處理能力。此外,我們還在Minigrid門-鑰匙環境[9]上評估我們的方法,該環境測試智能體如何處理部分可觀察性。這兩個環境都突顯了在存在認知不確定性的情況下,KL控制策略與最小化EFE策略之間的差異。

      隨機網格環境 在我們的第一個實驗中,我們聚焦于一個隨機網格環境。在該環境中,智能體需要從一端穿越網格到達另一端,途中存在危險和隨機轉移。關鍵的挑戰在于,從起點到終點的最短路徑上,有些網格單元的轉移矩陣是隨機的,智能體有最終落入吸收態的風險。這種隨機性直接測試了智能體如何處理動力學中的不確定性:預期KL控制智能體會樂觀地規劃通過這些不確定的轉移,而最小化EFE的智能體應該識別出認知風險并避開這些網格單元。該環境還包含觀測噪聲,這增加了另一層不確定性,迫使智能體維持對可能狀態的信念,而非完全可觀測。

      存在一條更長但更安全的路徑,可以避開所有隨機轉移。對于風險感知的智能體來說,最優策略是走這條更安全的路徑,盡管這需要更多步數。該環境的可視化如圖3所示。


      智能體到達目標獲得獎勵+1。當落入吸收態時,智能體受到懲罰-1。生成模型的完整規范見附錄B。

      Minigrid門-鑰匙環境 我們考慮的第二個環境是一個Minigrid環境,具體是一個4x4的門-鑰匙環境。該環境測試了認知不確定性的另一個方面,即部分可觀察性。智能體的視野有限,這意味著它必須主動探索以減少對環境狀態的認知不確定性。

      任務要求智能體找到并拾取鑰匙,找到并打開門,最后到達目標方格。這個多步驟過程形成了一個自然的探索挑戰,測試了智能體如何處理部分可觀察性。智能體位置、鑰匙位置和門位置在每個回合中都是隨機化的,這意味著智能體對環境狀態存在認知不確定性。

      最小化EFE的智能體應表現出更具方向性的探索行為,主動尋求減少關于鑰匙和門位置的認知不確定性。相比之下,KL控制智能體(沒有認知先驗)可能表現出較低效的探索模式,因為它缺乏解決不確定性的內在驅動力。

      Minigrid環境為任務增加了另一層復雜性,因為視野意味著觀測是相對于智能體自身的,而目標則是在外部參考系中定義的。這意味著智能體的觀測空間遠大于狀態空間。觀測空間大小約為,這使得諸如精細推理[18]之類的算法難以處理。此外,22個時間步的規劃時域使得將標準期望自由能計算作為策略評估的方法也變得難以處理。門-鑰匙環境的計算復雜度正是我們所提方法優勢最明顯的地方。

      Minigrid環境初始狀態的可視化如圖4所示。智能體到達目標時獲得的獎勵與所走步數成反比。所用生成模型的完整規范見附錄C。本文中所有實驗的源代碼和實現細節均可在我們的在線代碼倉庫3中公開獲取。


      5.2 結果

      隨機網格環境 我們評估了兩種智能體在100個回合中的表現,表1(左)總結了定量結果。

      該表表明兩種智能體之間存在著明顯不同的導航模式。最小化EFE的智能體始終選擇繞過隨機轉移單元的更長但更安全的路徑,表現出與理論預測一致的風險規避行為。相比之下,KL控制智能體嘗試穿越隨機轉移單元的較短路徑,表現出錯誤處理系統偶然不確定性的方法所特有的樂觀規劃傾向。兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄D。


      Minigrid門-鑰匙環境 我們在200個實驗回合中評估了兩種智能體,規劃時域為25步。表1(右)展示了在Minigrid門-鑰匙環境中,最小化EFE的智能體與KL控制智能體之間的定量比較。

      最小化EFE的智能體表現出更有效的探索模式,尤其是在需要主動信息尋求的場景中。這一點在找到鑰匙所需時間的縮短上尤為明顯,證實了認知先驗能夠在部分可觀察環境中實現更具方向性的信息尋求。

      兩種智能體軌跡的更詳細可視化以及我們算法的實證收斂性分析見附錄E。

      6 討論

      我們的實驗結果表明,使用所提出的消息傳遞方法進行EFE最小化的智能體展現出了主動推理的特征行為:在隨機環境中選擇風險規避的路徑,以及在部分可觀察環境中進行信息尋求的探索。這些行為自然地源于在變分自由能目標中納入認知先驗,而無需顯式計算期望自由能。

      將EFE最小化重新表述為變分推理問題具有若干優勢:它與自由能原理的核心原則保持了理論一致性;將組合搜索問題轉化為使用因子圖消息傳遞的易處理推理過程;并且消除了對特設策略剪枝的需求,代之以原則性的反應式處理,即智能體在每個時間點最小化VFE。這種方法在傳統EFE計算變得難以處理的復雜環境中尤為有價值,正如我們在Minigrid實驗中所展示的那樣。

      盡管我們的實現展示了有希望的結果,但處理自指認知先驗的迭代方法的收斂性質需要進一步的理論研究。未來的研究應探討在生成模型中納入額外參數,特別是與環境動態相關的參數。我們工作的一個自然擴展是在認知先驗內部整合參數學習。這將允許智能體推斷出有助于對模型參數進行樣本高效學習的策略。這一概念已在文獻[15]中提出,然而,經驗先驗的具體函數形式尚未推導出來。

      7 結論

      在本文中,我們提出了一種在因子圖上進行期望自由能最小化的消息傳遞實現。我們的方法將EFE最小化重新構建為一個變分推理問題,從而允許我們使用標準的消息傳遞算法進行高效的策略推斷。關鍵的見解在于,通過引入適當的認知先驗,我們可以將期望自由能目標轉化為一個修正后的變分自由能目標,該目標可以通過標準的推理技術進行優化。

      我們在隨機環境和部分可觀察環境中的實驗結果表明,該方法再現了主動推理的特征行為:在具有危險隨機性的環境中表現出風險規避,在部分可觀察環境中表現出信息尋求。與傳統的期望自由能計算方法相比,消息傳遞實現在計算效率上顯示出顯著優勢,尤其是在具有高維觀測空間和長規劃時域的復雜環境中。

      通過將EFE最小化重新表述為變分推理,我們的工作有助于將自由能原理和主動推理的理論框架與不確定性下決策的實際實現相統一。這架起了智能行為理論解釋與人工智能體高效算法之間的橋梁,為在復雜和不確定環境中平衡實用目標與認知目標提供了一種原則性的方法。

      原文鏈接:https://arxiv.org/pdf/2508.02197

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      20名中國教授赴美參會,中國大腦剛落地就被關,簽證當場作廢!

      20名中國教授赴美參會,中國大腦剛落地就被關,簽證當場作廢!

      獨舞獨舞
      2026-05-17 13:41:29
      西紅柿再次被關注?研究發現:常吃西紅柿的人,或可收獲3大好處

      西紅柿再次被關注?研究發現:常吃西紅柿的人,或可收獲3大好處

      39健康網
      2026-05-17 20:20:33
      剛說要和中國好好相處,轉頭就收3個噩耗,特朗普回國

      剛說要和中國好好相處,轉頭就收3個噩耗,特朗普回國

      諦聽骨語本尊
      2026-05-16 14:58:39
      人一旦開竅,搞錢如喝水

      人一旦開竅,搞錢如喝水

      洞見
      2026-05-16 12:16:46
      貴州省兩縣政府主要領導調整

      貴州省兩縣政府主要領導調整

      汲古知新
      2026-05-17 23:48:06
      許利民:上海沒有發揮出真實水平,他們的實力還是在我們之上

      許利民:上海沒有發揮出真實水平,他們的實力還是在我們之上

      懂球帝
      2026-05-17 22:11:51
      格力集團原董事長主動投案

      格力集團原董事長主動投案

      新浪財經
      2026-05-17 12:54:23
      馬刺季后賽場邊超美女球迷走紅網絡!她是健身教練 身材太絕了

      馬刺季后賽場邊超美女球迷走紅網絡!她是健身教練 身材太絕了

      Emily說個球
      2026-05-17 20:02:03
      27.3萬起!特斯拉宣布:新車調價

      27.3萬起!特斯拉宣布:新車調價

      高科技愛好者
      2026-05-17 22:46:47
      郵報:曼城內部人士稱瓜帥已決心離隊,且教練組會有較大變動

      郵報:曼城內部人士稱瓜帥已決心離隊,且教練組會有較大變動

      懂球帝
      2026-05-17 20:04:42
      梅根·福克斯40歲生日曬性感照:渴望毀滅自己的東西

      梅根·福克斯40歲生日曬性感照:渴望毀滅自己的東西

      赴一場山海啊
      2026-05-18 02:02:23
      生吃解毒,熟吃潤肺;大量上市,10元5斤,兩天吃一次,作用真多

      生吃解毒,熟吃潤肺;大量上市,10元5斤,兩天吃一次,作用真多

      觀星賞月
      2026-05-15 15:54:17
      4月授課88.6課時,實發僅7424.46元!一江蘇教培老師哭訴工資太低

      4月授課88.6課時,實發僅7424.46元!一江蘇教培老師哭訴工資太低

      火山詩話
      2026-05-17 16:52:36
      得熬夜!U17國足VS澳大利亞,開球時間公布,誰能踢進亞洲杯決賽

      得熬夜!U17國足VS澳大利亞,開球時間公布,誰能踢進亞洲杯決賽

      體育大學僧
      2026-05-17 11:47:42
      韓星成東鎰欽點兒媳人選:等她長大嫁給我兒子

      韓星成東鎰欽點兒媳人選:等她長大嫁給我兒子

      娛圈觀察員
      2026-05-17 00:26:30
      中國最好吃的6個城市,50歲前要去一次

      中國最好吃的6個城市,50歲前要去一次

      簡食記工作號
      2026-05-14 00:06:06
      廣汽董事長回應埃安被稱作“網約車之王”:如果沒高品質 就不會受到司機的歡迎

      廣汽董事長回應埃安被稱作“網約車之王”:如果沒高品質 就不會受到司機的歡迎

      快科技
      2026-05-17 11:52:04
      利好果然來了!

      利好果然來了!

      平點金基
      2026-05-17 22:44:00
      我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

      我一直糾結劉濤的長相很久了,昨天拿去讓老人家幫忙看看面相。

      小光侃娛樂
      2026-05-13 11:59:03
      30年美債沒守住5%“生死線”!美銀Hartnett:“地獄之門”已打開  6月初是“賣出窗口”

      30年美債沒守住5%“生死線”!美銀Hartnett:“地獄之門”已打開 6月初是“賣出窗口”

      新浪財經
      2026-05-17 09:47:49
      2026-05-18 04:23:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1407文章數 19關注度
      往期回顧 全部

      科技要聞

      三大運營商即將免月租?多方回應

      頭條要聞

      內塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      頭條要聞

      內塔尼亞胡與特朗普通話 討論重啟對伊朗軍事打擊

      體育要聞

      生死戰只拿3分的核心,還有留的必要嗎?

      娛樂要聞

      盧昱曉道歉:認識到問題嚴重性!

      財經要聞

      長鑫科技 預計上半年凈利至少500億元

      汽車要聞

      車長超5米/雙動力可選 昊鉑S600預售權益價18.89萬起

      態度原創

      教育
      藝術
      時尚
      數碼
      軍事航空

      教育要聞

      南京大學:熱門專業,就業現狀及報考分析#搜索千校視頻計劃

      藝術要聞

      特朗普回去第一條動態,猛夸人民大會堂:美國也得有!

      “這條裙子”是今年夏天的頂流!誰穿誰好看

      數碼要聞

      銳龍5000仍是主流寵兒!38%玩家死守DDR4:DDR5輸在太貴

      軍事要聞

      黎以停火再延長 空襲卻未停止

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国精品无码免费专区午夜| аⅴ资源中文在线天堂| 67194欧洲| 国语自产拍精品香蕉在线播放| 日本一区二区三区专线| 日韩伦理在线| 麻豆国产人妻欲求不满| 中文国产成人精品久久APP | 亚洲色成人网站www永久四虎| 午夜成人视频| 免费观看18禁无遮挡真人网站 | 摸丰满大乳奶水www免费| 国产三级a在线观看| 国产精品久久久久久人妻精品动漫 | 99久久国产福利自产拍| 国产xxxx| AV一区二区三区| 中文字幕人妻无码系列第三区 | 亚洲熟妇熟女久久精品一区| 亚洲国产精品一区第二页| 久热在线免费观看视频| 少妇被躁爽到高潮| 精品国产粉嫩一区二区三区| 国产美女精品自产拍在线观看| 成人欧美日韩一区二区三区| 在线视频 一区 色| 国产亚洲熟妇综合视频| 国产黄a三级三级三级| 制服中文字幕在线| 人妻忍着娇喘被中进中出视频| yy6080午夜国产免费福利| 亚洲人av高清无码| 亚洲国产精品综合久久20| 色伊人网| 四虎成人精品国产永久免费| 国产精品不卡无码AV在线播放| 国产精品久久久久久熟妇吹潮软件 | 亚洲第一福利网站在线| 久久狠狠一本精品综合网| 熟女丝袜在线| 视频一区视频二区卡通动漫|