網易首頁 > 網易號 > 正文申請入駐

統一貝葉斯推斷、博弈論和熱力學的集體變分原理

2026-05-03 16:38:10　來源: CreateAMind

上海舉報

分享至

A Collective Variational Principle Unifying Bayesian Inference, Game Theory, and Thermodynamics

統一貝葉斯推斷、博弈論和熱力學的集體變分原理

摘要

集體智能在生物、物理和人工系統中無中央協調地涌現，然而支配此類行為的統一原理仍難以捉摸。自由能原理通過變分推斷解釋了單個智能體如何適應，而博弈論則將策略交互形式化。在此，我們引入博弈論自由能原理，這是一個統一框架，表明執行局部自由能最小化的多智能體系統隱式地實現了一個隨機博弈。我們證明，在有限理性和局部信息約束下，集體自由能的駐點對應于所誘導博弈的近似納什均衡。反之，一類廣泛的合作博弈允許一種變分表示，其中均衡作為聯盟上的吉布斯分布涌現，從而在貝葉斯推斷與策略交互之間建立了橋梁。為了刻畫高階效應，我們引入了哈桑尼紅利（Harsanyi dividend）的自由能公式，分離出不可約的多智能體協同效應。這產生了一個合作預測理論，其中包括感知精度與智能體影響力之間可證偽的非單調關系。我們在神經、生物和人工多智能體系統中驗證了這一預測。這些結果揭示了一個共同的變分原理，它構成了推斷、熱力學和博弈論均衡的基礎。

引言

大量相互作用的單元——從物理粒子和分子[1]、細胞，到神經元、動物以及工程化的多智能體系統——如何在沒有集中控制的情況下實現連貫的集體行為？這個問題橫跨神經科學、生物學、物理學、經濟學和人工智能領域，在這些領域中，由有限且僅具備局部信息的智能體組成的系統依然展現出全局協調與自適應結構。近期的觀點強調，集體智能跨越自然與人工系統，動物與機器人面臨共同的功能挑戰[2]。一個核心挑戰在于，現有的理論框架僅解決了該現象互補但不完整的方面。自由能原理提供了一個通用解釋，說明個體系統如何通過貝葉斯推斷最小化變分自由能來維持自適應組織[3, 4, 5, 6]。然而，該公式本質上是單智能體的，并未解釋多個智能體如何協調、競爭或形成協同聯盟。近期將自由能原理擴展至多智能體系統的努力探索了智能體群體如何共享信念和世界模型以達成共同理解[?]，如何通過集體馬爾可夫毯形成更大的群體級智能體[?]，以及如何在多智能體環境中實現穩健決策[7]。然而，這些方法側重于涌現的通信和群體級推斷，而非提供策略交互的形式化博弈論分析、不可約協同效應的可計算度量，或關于聯盟內個體影響力的可證偽預測。

與此同時，博弈論提供了策略交互的描述性與規范性理論，包含納什均衡[8, 9]等均衡概念以及聯盟分解[10]等工具。近期工作已開始在深度神經網絡架構中 bridging 博弈論與統計物理[11, 12]。聯盟博弈論也被用于解釋深度神經網絡[13]，突顯了此類工具在理解復雜系統中的相關性。然而，經典博弈論缺乏基于推斷或物理原理的機制基礎，也無法自然解釋均衡行為如何從分布式系統中的局部概率計算中涌現。

在此，我們提出一個統一視角，將多智能體系統描述為在共享環境誘導的聯合構型上執行分布式變分推斷。在該框架中，每個智能體最小化其自身的變分自由能，智能體間的交互在聯盟結構上誘導出一個隱式隨機博弈。我們證明，在有限理性、隨機策略選擇和局部信息約束下，所得變分動力學的駐點對應于所誘導博弈的ε-納什均衡。反之，一類廣泛的合作博弈允許一種變分表示，其中均衡策略作為聯盟上的吉布斯分布涌現。為了超越均衡刻畫并捕捉合作的內部結構，我們引入了哈桑尼分解[14, 15, 16]的變分公式。這使得聯盟的能量可以用不可約的高階貢獻來表示，從而以自由能減少的形式直接度量協同與沖突。近期關于高階拓撲動力學的工作進一步支持了在復雜系統中超越成對交互的必要性[17]。這一視角產生了一個定量且可證偽的預測：智能體在集體中的影響力非單調地依賴于其感知精度。多智能體系統中合作的涌現已被確定為一個基本的統計物理問題[18]。我們的框架通過將自由能最小化與博弈論均衡相聯系來解決此問題，得出以下預測：精度的適度提高會增強協調性和全局影響力，而過度的精度則會導致過度專門化，并因局部噪聲的放大而降低系統級影響。我們在神經、生物和人工多智能體系統中測試了這一預測。

最后，我們表明，統計物理和機器學習中的經典模型，包括伊辛模型、玻爾茲曼機和基于注意力的架構[19]，在對交互結構和平均場近似施加適當限制的情況下，均作為所提出變分框架的特例涌現。

結果

博弈論自由能原理（理論）

這些量定義了一種交互結構的原理性分解，該分解可從生成模型中計算得出，而無需行為觀測。

解釋。該框架在貝葉斯推斷、隨機博弈論和統計物理之間建立了變分等價性。智能體充當局部變分優化器，而全局行為作為聯盟結構上的吉布斯后驗涌現。哈桑尼分解提供了該后驗背后的交互幾何結構，且經典模型（如伊辛系統、玻爾茲曼機和基于注意力的架構）作為能量泛函在受限交互結構或平均場近似下的極限情況涌現。

聯盟協同與自由能的哈桑尼紅利

可證偽預測：感知精度的非單調影響力

我們要預測的是，智能體在集體中的因果影響力（通過其沙普利值或邊際聯盟概率衡量）作為其感知精度的函數，遵循倒 U 型曲線。在低精度下，推斷能力差且影響力低；在中等精度下，協調性達到峰值；在高精度下，對局部噪聲的過擬合會降低影響力。這種非單調規律是有限理性下變分推斷中偏差-方差權衡 [23, 24, 25, 26, 27] 的直接后果。

跨三個領域的實證驗證

我們在橫跨神經科學、生物學和人工智能的三個截然不同的多智能體系統中，測試了感知精度與個體影響力之間預測的非單調關系。在每個領域中，我們改變了每個智能體觀測值的精度（方差的倒數），測量了智能體對集體行為的因果影響力（通過沙普利值或源自哈桑尼紅利的邊際聯盟概率量化），并觀察到了預測的倒 U 型形狀。

跨領域總結。圖 4 疊加了來自所有三個系統的歸一化影響力曲線，揭示了一種普遍的倒 U 型形狀。最佳精度區間在數量上有所不同，但定性模式——即先達到峰值隨后下降——在神經、生物和人工集體中是一致的。這支持了以下主張：博弈論自由能原理為分布式、有限理性系統中的協同效應和影響力提供了統一的解釋。

經典模型作為變分極限的統一

我們表明，統計物理學和機器學習的經典模型作為所提出框架的特例而出現。

圖 5 展示了博弈論自由能原理的完整架構。

我們引入了博弈論自由能原理（GT-FEP），這是一個連接變分推斷、隨機博弈論和統計物理的統一框架。我們的核心結果是納什-FEP 定理，該定理確立了集體變分自由能的駐點對應于由智能體共享環境定義的隱式隨機博弈的 ? ?-納什均衡，反之，任何合作博弈都可以通過聯盟上的吉布斯分布進行變分表示。這種形式等價性首次為貝葉斯推斷中的策略交互提供了機制基礎，同時將自由能原理擴展到了多智能體系統，超越了近期工作中涌現通信的方法。

第二個主要貢獻是哈桑尼紅利的自由能公式，它將聯盟的能量分解為不可約的高階協同效應。正的紅利表示無法還原為個體或成對效應的真正合作，而負的紅利則揭示了隱藏的沖突 [35]。這種分解不僅僅是描述性的：它可以直接從智能體的生成模型中計算得出，無需行為觀測，從而提供了一種原理性的集體智能熱力學度量。哈桑尼紅利也是沙普利值的基礎，我們將其用作因果影響力的度量，從而將聯盟的協同結構與每個智能體的個體影響力聯系起來。

該理論提出了一個明確且可證偽的預測：智能體在集體中的影響力隨其感知精度呈倒 U 型變化。我們在三個分析聯盟模型（神經集合、魚群游動和多智能體合作）中證實了這一關系。這種非單調特征在跨領域的一致性強烈支持了 GT-FEP 的普遍性，并與關于分布式感知和集體計算的進化觀點 [36] 相一致。

此外，我們表明，統計物理和機器學習的經典模型——伊辛模型、玻爾茲曼機和 Transformer 注意力機制——作為我們變分框架在適當限制（成對截斷、高階擴展或平均場近似 [37]）下的特例而出現。這種統一性不僅證明了 GT-FEP 的通用性，還為從聯盟推斷中推導出注意力提供了第一性原理的推導，補充了我們早期關于博弈論神經網絡的工作。

與近期多智能體 FEP 研究的比較

盡管 Friston 及其同事探索了信念共享和聯邦推斷，但這些方法側重于涌現的通信和群體級馬爾可夫毯。它們并未提供對策略交互的形式化博弈論分析，也未提供不可約協同效應的可計算度量或關于個體影響力的可證偽預測。我們的 GT-FEP 直接解決了這些空白，且對非單調預測的實證驗證使我們的工作區別于純粹的描述性模型。

我們在自由能最小化與納什均衡之間的形式等價性為最近的算法方法（如因子化主動推斷 [38]，其中智能體相互建模內部狀態）提供了理論基礎。此外，它直接回應了長期以來對自由能原理缺乏規范性基礎的批評。通過證明集體自由能最小化必然蘊含 ? ?-納什均衡行為，我們表明博弈論理性并非外部附加物，而是變分推斷的涌現屬性，從而將 FEP 從描述推向預測。

局限性

聯盟自由能和哈桑尼紅利的精確計算需要枚舉所有個子集，這對于較大的 N N來說是計算上不可行的 [39]。在我們的模擬中，我們利用了對稱的智能體屬性和沙普利值的精確公式來規避這種組合爆炸；對于一般的異構系統，可擴展的近似方法（例如，聯盟的蒙特卡洛采樣或平均場方法）將是必要的。此外，我們的分析假設智能體能夠訪問已知的生成模型，并且環境以平穩的方式耦合它們的觀測——擴展到無模型或非平穩設置仍有待解決。

未來方向

GT-FEP 開辟了幾個途徑：(i) 為大規模集體開發哈桑尼紅利的高效近似算法；(ii) 將該框架應用于現實世界的生物系統（例如，蟻群、鳥群），在這些系統中感知精度可以通過實驗進行操縱；(iii) 設計內置協同效應檢測的人工多智能體系統，以實現魯棒的協調；(iv) 探索大語言模型中超越成對截斷的高階交互，這可能會導致新的注意力架構。更一般地說，這里提出的變分原理表明，推斷、熱力學和博弈論并非獨立的學科，而是單一原理的不同側面——這一視角可能會統一生命、心智和社會的理論。

總之，博弈論自由能原理為集體智能提供了一個通用的、可預測的且基于計算的基礎，對神經科學、生態學、人工智能及其他領域具有深遠影響。

方法

模擬概覽

所有模擬均使用自定義代碼在 Python 3.9 中實現：（代碼地址：https://github.com/dbouchaffra/game-theoretic-free-energy-principle）。這三個多智能體系統（神經集合、魚群游動、多智能體強化學習）是使用解析高斯聯盟模型建模的。對于每個系統，感知精度 β 在預定義范圍內變化（見補充信息），并且每個智能體的影響力通過源自聯盟自由能的沙普利值進行量化。完整的模型方程、聯盟值公式和過擬合參數在補充信息 S4 節中提供。

原文鏈接：https://arxiv.org/pdf/2604.27942

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.