網易首頁 > 網易號 > 正文申請入駐

間歇主動推理 Intermittent Active Inference

2026-03-31 11:23:24　來源: CreateAMind

上海舉報

分享至

Intermittent Active Inference

間歇性主動推理

https://www.mdpi.com/1099-4300/28/3/269

摘要

主動推理為感知和行動提供了一個統一框架，將它們視為在給定環境生成模型下最小化預測誤差的過程。盡管標準表述假設推理和控制是連續的，但實證證據表明人類會間歇性地更新其控制策略，這降低了計算需求，并抑制了相關噪聲在閉環反饋回路中的傳播。為解決這一問題，我們提出了間歇主動推理（IAIF），這是一種新穎的變體，其中感知、推理、規劃或行動可以間歇性地進行。本文研究了間歇規劃，在此模式下，IAIF 智能體遵循其當前計劃，僅當預測誤差超過預定義閾值，或與當前計劃相關的預期自由能超出先驗估計時，才進行重新規劃。我們在鼠標指向任務中評估間歇規劃，將其與連續規劃進行比較，同時考察不同閾值參數對性能和效率的影響。研究結果表明，IAIF 在保持任務性能的同時減少了計算時間，特別是在規劃期間采樣的計劃數量增加時。針對所提出的基于預期自由能的觸發機制，無需為此進行額外的校準。IAIF 的簡便集成使其在實際建模工作流中具有價值。

關鍵詞： 主動推理；間歇控制；自由能原理；計算效率；人機交互；資源感知算法；鼠標指向

1. 引言

智能體行為的計算模型通常在馬爾可夫決策過程（MDPs）框架下進行研究，其中智能體與其環境分別以離散時間間隔更新動作狀態和觀測狀態。這些時間間隔通常具有恒定持續時間，且往往被保守地設定得較短，以確保高頻動態能夠在連續的狀態更新中得到足夠精確的表征 [1]。主動推理（AIF）智能體模擬多種內部認知過程，以確定一系列未來動作的規劃。此處所說的認知過程包括：根據新觀測更新其關于環境隱藏狀態的內部信念；在更新動作狀態后更新其關于環境隱藏狀態的內部信念；根據新觀測更新其關于環境的內部模型；以及更新一系列連續的未來動作。AIF 智能體的標準表述假設所有內部認知過程均以相同的時間頻率執行，即每個 MDP 時間步執行一次 [2]。目前尚不清楚這一設計選擇在系統辨識（學習）收斂性、狀態推斷、計算效率和行為性能方面會帶來何種權衡。特別是，隨著主動推理日益被采納為基于智能體的人工智能和自主機器人領域的一種范式 [3–5]，解決與推理和規劃相關的計算困難構成了一個重要的實際問題。

在另一條研究脈絡中，人類運動控制的某些要素已被證明更符合間歇控制模型，即開環"彈道式"運動基于事件觸發和不應期進行間歇性更新，而非連續控制或嚴格時間觸發控制 [6]。這類模型在系統辨識方面展現出計算優勢，以及對延遲、噪聲和約束的魯棒性。在強化學習（RL）中，通過廣義動作（選項）和半馬爾可夫決策過程 [7] 實現的時間抽象已被證明能夠加速規劃與學習。在網絡化系統中，事件觸發控制顯著降低了通信帶寬和計算資源需求 [8]。顯然，對于任何計算資源受限的智能體而言，基于各認知過程對最大化效用 [9] 或最小化驚訝的預期貢獻，審慎地決定何時以及以何種頻率執行各個認知過程，將是明智之舉。

本文引入間歇主動推理（IAIF），借鑒間歇控制的思想，提出事件觸發的、間歇性的感知、推斷、系統辨識與規劃。我們此前曾在 [10] 中提出，主動推理可為人機交互（HCI）研究與設計提供有益基礎。因此，我們現在在鼠標指向任務中探索間歇規劃，并通過計算仿真提供定量證據，以刻畫觸發機制及相關閾值對計算效率和任務性能的影響。為模擬智能體行為，我們基于近期提出的、適用于具有連續狀態、觀測與動作系統的 AIF 智能體 [11] 進行構建。有趣的是，我們觀察到，與連續重新規劃相比，任務性能保持一致的同時計算成本有所降低，并發現這一現象源于基于采樣的近似展開評估。圖 1 并列展示了經典 AIF 與間歇 AIF 的鼠標光標軌跡。IAIF 智能體僅在當前規劃變得比預期更差或結束時才啟動規劃階段。這釋放了計算資源，尤其對于較大目標而言。對于較小目標，則需要頻繁重新規劃以確保光標保持在目標范圍內。我們提供了基于 JAX（https://docs.jax.dev/en/latest/index.html，訪問于 2026 年 2 月 5 日）的 IAIF 實現代碼，以及用于運行本工作中所執行仿真的代碼，均已公開于 GitHub（https://github.com/mkl4r/iaif，訪問于 2026 年 2 月 27 日）。

貢獻

本工作對主動推理與人機交互領域的主要貢獻包括：

? 提出間歇主動推理（Intermittent Active Inference），作為經典 AIF 的一種簡潔擴展，具有減少計算時間并提升人類運動控制仿真真實性的潛力；

? 在一維鼠標指向任務（一個人機交互領域的經典問題）中，評估了兩種用于間歇規劃的觸發機制及其組合，并與標準 AIF 智能體進行對比；

? 探討了間歇性在主動推理框架下的進一步意涵；

? 提供了 Python（版本 3.12.12）代碼（https://www.python.org/），用于仿真具備感知噪聲與延遲的連續控制任務中的 IAIF 智能體。

2. 相關工作

2.1. 連續主動推理

主動推理是一種用于建模智能體行為的閉環計算理論 [2,12]。研究文獻中的許多入門示例出于計算便利的考慮，涉及對狀態空間的離散化處理。其他應對連續空間挑戰的方法包括：(1) 學習潛在嵌入，(2) 分層模型，(3) 習慣控制，以及 (4) 事件驅動/間歇方法：

(1) Matsumoto 等人 [13–15] 通過推斷低維潛在變量，在連續動作空間中執行高效的目標導向規劃搜索。文獻 [16] 提出了混合方法，并將其應用于連續山地車問題。

(2) 使用分層生成模型可使智能體在多個時間與空間尺度上進行規劃，這有望緩解與頻繁重新規劃相關的問題 [2]。

(3) 習慣控制行為已被用于主動推理中，以降低智能體在熟悉情境下基于預測的控制所產生的計算成本 [17]。智能體依賴于關于策略的先驗信念，這些先驗編碼了過往策略成功的頻率。這會產生一種偏向，即傾向于選擇經過充分練習的、熟悉的動作，即使這些動作在當前情境下未經預測性仿真的充分評估。主動推理智能體可被賦予一種機制，以"緩存"先前試驗中的策略概率，并復用以減少審慎處理過程中的推理步驟 [18]。在文獻 [19] 中，增加了一個元認知控制層級，以便在情境變化時在習慣控制器與預測控制器之間進行切換。

(4) 貝葉斯推理套件 RxInfer 包含了在感知推斷中表現出事件驅動更新的智能體，但尚未在規劃、策略選擇與動作執行中實現此類更新 [20]。據我們所知，尚未有在控制中直接采用間歇性的單智能體主動推理系統得到探索。

這些問題不僅與主動推理系統相關，因此主動推理研究可從其他領域借鑒經驗，例如 (a) 強化學習（RL）與 (b) 模型預測控制（MPC）系統：

(a) 在基于模型的強化學習中，何時重新規劃至關重要。Honda 等人 [21] 指出："過多的重新規劃也可能導致路徑振蕩，尤其是在使用基于采樣的全局規劃器或環境存在眾多分支路徑時"，這恰恰是連續動作主動推理所面臨的情況。

(b) 在基于采樣的模型預測控制中，樣本間的規劃一致性是一個關鍵挑戰，因為不同優化運行或采樣所得的解可能存在高度可變性，從而導致控制動作出現抖動或不一致 [22]。采樣方法通常是迭代的局部搜索，無法保證收斂到全局最優解，或在不同采樣迭代中收斂到一致的局部最優解，尤其在高維問題中，或當計算限制導致可用樣本量不足時更是如此。諸如熱啟動（warm-starting）——即使用前一步的最優軌跡——等方法可顯著降低方差與計算時間，并提升時間步間的一致性。文獻 [23] 是一個將模型預測控制與主動推理相聯系的示例，其方法是將預期自由能（EFE）作為模型預測控制的目標函數。

2.2. 人機交互

正如 Martín 等人 [24] 所指出的，自圖形用戶界面問世以來，朝向空間定義目標的有向運動已成為向計算機輸入信息的主要方式。在與計算機交互過程中，此類運動本質上是動態的，并發生在反饋回路之中。用戶觀察計算機的當前狀態（例如光標位置），并調整其運動以將該狀態改變為其期望的狀態——"運動只有在時間與空間上被精確定位時才有意義，也就是說，當它們作為尋求達成目標的行動的一部分時才有意義。從這個意義上講，簡單的目標導向運動，如指向與抓握，可被視為更復雜行動的基本構建單元" [25]。

仿真在人機交互領域的作用近年來日益增長 [26]，已有研究引入了結合人體上肢生物力學模型、基于模型預測控制（MPC）或強化學習（RL）的交互仿真模型 [27,28]。這些仿真能夠生成完整的關節運動軌跡或肌肉激活模式，從而支持對交互系統進行調優，以提升其性能與人機工效。

2.2.1. 子運動與交互

在人機交互中，運動也常被理解為一系列事件，例如子運動，而 Crossman 和 Goodeve [29] 提出的迭代修正子運動模型被廣泛使用。這是一個將有向運動理解為一系列朝向目標的獨立子運動的模型，每個子運動具有恒定的誤差和恒定的持續時間。Crossman 和 Goodeve 展示了如何從該模型推導出菲茨定律。這包括知名的人機交互模型，例如 Card 等人 [30] 的工作，他們引入了"GOMS"框架，其中人類處理器模型將運動表示為一系列離散步驟。施密特定律 [31] 通過操縱振幅和運動時間并測量有效目標寬度 We 來解決變異性和動態性問題，從而得出關系式 We = k W MT。施密特定律背后的見解是，人類通過離散的力脈沖控制運動，整體變異性源于所施加力的大小和持續時間的變化。Meyer 等人 [32,33] 將其進一步發展為優化雙子運動模型，該模型與施密特定律和菲茨定律均一致，其中子運動的變異性與平均速度成正比，而這種變異性導致需要多個子運動以最小化總運動時間為目標進行優化。對人類光標指向任務的分析也發現了開環和閉環控制的不同階段 [34]。這些模型包括連續二階動力學模型，以及具有切換特性的 Costello 突增模型 [35]。

2.2.2. 人類運動控制

雖然人類運動控制常被視為帶有附加噪聲的連續控制問題 [36]，但有大量證據表明運動控制中結合了開環和閉環過程，例如在不應期 [37] 的背景下，以及人類運動動力學和變異性的頻率內容限制方面 [38]。

2.3. 間歇控制

間歇控制（IC）間歇性地使用反饋信息，在需要時重新規劃開環控制動作。盡管存在多種間歇控制方法（概述見 [39]），但重新規劃事件通常由觀測狀態與預測狀態的偏差觸發 [6]。IC 源于存在約束情況下模型預測控制（MPC）的實際實現 [40]。與連續反饋控制（其中控制動作基于觀測在每個時間點重新計算）相比，間歇控制降低了整體帶寬，為優化任務釋放了資源 [6]。IC 為人類平衡控制和其他運動任務中非線性和非連續觀測提供了生理學上合理的解釋 [41,42]。運動控制的一般描述包括與快速反射動作相關的皮層下連續反饋元素，并結合涉及皮層處理且由基底神經節門控的較慢的間歇反饋回路 [43,44]。僅間歇性地使用反饋信息來修改控制計劃，而不是連續更新控制動作，也被證明有助于在存在噪聲的情況下促進閉環配置中的參數估計和系統辨識 [45]，其中由于開環間隔的存在，相關噪聲的傳播得以減少。

3. 材料與方法

在 3.1 節中，我們將首先介紹方法學背景，即連續的、基于采樣的主動推理（AIF）。本節不提供新穎的方法論，其主要目的是介紹 AIF 智能體與環境之間的一般交互循環及符號表示。熟悉應用 AIF 的讀者可能希望直接跳轉到 3.2 節，我們在該節介紹間歇主動推理以及如何實現間歇推斷和間歇規劃。隨后，我們提出了兩種不同的觸發規劃階段的方法，分別基于信念發散（3.2.1 節）和預期自由能誤差（3.2.2 節）。最后，在 3.3 節中，我們描述了一維鼠標指向任務的設計，并提供了被評估智能體的詳細信息。

3.1. 具有連續狀態、動作和觀測模型的主動推理

主動推理就近似貝葉斯推斷過程而言，提供了關于能動性的數學闡述 [46]。AIF 智能體的根本要求在于必須預測和預判智能體所處環境的各種動態。這一過程最終服務于智能體的自創生目標，即實現其偏好的滿足。AIF 智能體嵌入于環境之中，這在數學上通過狀態空間及其相關動態來表述。通常，這些狀態是隱藏狀態，即它們不能被智能體直接觀測。智能體進行的觀測是隱藏狀態的函數，在此基礎上，智能體可以對產生特定觀測的潛在/隱藏狀態進行推斷。因此，主動推理提供了一個概率框架，用于建模表征智能體與環境交互的感知 - 行動循環。

在這項關于生物力學光標指向應用的研究中，我們關注的是力、位移和速度的連續狀態空間。因此，智能體及其環境均被描述為具有連續潛在狀態、動作和觀測的動力系統。這些要素均在離散時間內演化。

我們采用術語“生成過程”來表示智能體所處的環境動態，這與更廣泛的主動推理文獻一致 [2]。在本工作中，我們假設離散時間步 t ∈ N，且生成過程的特征為確定性狀態轉移，同時隱藏狀態為智能體提供隨機觀測。因此，對于連續潛在狀態 s[t] ∈ S、控制輸入/動作 a[t] ∈ A 和觀測 o[t] ∈ O，生成過程的形式如下：

方程 (3) 和 (4) 規定了智能體生成模型的結構形式；連同關于隱藏狀態、參數和噪聲變量的先驗，該系統共同誘導了一個聯合概率生成模型（完整的）。推斷是通過保持對該模型潛在變量的變分信念來進行的。我們使用了“帶帽號”的上標：?·來表示生成模型的組件，以區別于生成過程。GP 和 GM 是獨立的動力系統。重要的是，生成模型不必與真實的生成過程完全吻合，通常構成對 GP 的粗粒度近似。因此，借助 GM，智能體擁有了 GP 的內部表征，可借此進行預測并形成信念。

在 3.1.1 節中，我們將看到智能體保持關于內部變量的概率信念，表示為諸如 Qs 之類的分布。為符號簡便起見，下文我們將直接用表示智能體關于外部狀態的信念，需理解該信念實際上始終由內部模型變量所支撐。綜上所述，GP 和 GM 共同定義了一個閉合的感知運動循環。觀測由環境（GP）生成，并被智能體——通過推斷——加以同化，以更新其關于隱藏狀態、參數和噪聲變量的信念。隨后，這些信念被用于通過在 GM 下進行預測性展開來評估候選動作序列，從而構成規劃與動作選擇。選定的動作被施加于 GP，影響其后續的狀態轉移和觀測，從而閉合當前時間步的感知 - 行動循環。在經典 AIF 中，推斷和規劃在每個時間步均被執行。感知運動循環中的信念更新組成部分將在 3.1.1 節中詳細說明。規劃與動作選擇機制同樣將在 3.1.2 節中詳細說明。

3.1.1. 信念更新

我們現在概述 AIF 中信念更新的機制。與我們之前的工作 [11] 一致，我們賦予智能體關于潛在狀態 s、模型參數 θ 和觀測噪聲 Σp 的近似后驗信念。我們假設該聯合信念等同于近似后驗的均值場分解：

為了在執行動作時高效地更新智能體的信念，我們應用無跡卡爾曼濾波（UKF），該方法通過非線性動力學傳播正態分布 [47,48]。因此，在時間步 t ∈ N，智能體施加動作 a[t] 并利用其生成模型（GM）f?θ 以及關于系統參數（例如目標位置）的信念 Qθ，來更新其關于系統狀態 Qs[t] 的信念，

在接收到來自環境的新觀測后，智能體理想情況下會根據貝葉斯法則更新其關于潛在狀態的先驗信念：

在大多數應用中，潛在狀態的維度使得方程 (7) 分母中的邊緣化問題變得難以處理。AIF 不采用精確貝葉斯推斷，而是使用變分推斷（VI），即從特定的分布族中選擇一個近似后驗分布 q(s) ≈ p(s | o)，并對其進行優化以逼近真實后驗。在時間 t ∈ N，對于給定的預測信念 Q?s[t] 和觀測 o[t]，我們將 VI 步驟表示為：

從而得到智能體更新后的信念。與廣義濾波 [49] 不同，UKF 和 VI 步驟顯式地估計信念協方差。這能更好地跟蹤控制不佳及更為混沌的系統，但也帶來了額外的計算成本。

3.2. 間歇主動推理

AIF 智能體內部的經典過程包括感知、推斷、規劃和動作。傳統上，它們每一個都在每個時間步執行。如上所述，降低這一頻率可縮短計算時間，并可能提高在人類運動控制等應用中的真實性。因此，我們引入間歇主動推理（IAIF）這一術語，用于描述那些間歇性地進行感知、推斷、規劃或動作，或其組合的 AIF 智能體（見圖 2）。間歇性感知可應用于進行觀測本身帶有代價的情況，例如，視覺皮層處理視覺信息所需的能量。間歇性動作意味著智能體可以選擇不執行動作，例如，在動作干擾感知或最佳感知速率與動作頻率不同的情況下。間歇性推斷允許偶爾跳過信念更新以節省計算時間，例如，當預測的信息增益較低時。

間歇規劃為減少計算時間提供了最強的杠桿，特別是對于基于采樣的 AIF 而言。因此，在這項初步工作中，我們專注于那些連續進行感知、推斷和動作，但間歇性進行規劃的智能體——在本文的其余部分，當我們使用術語 IAIF 智能體時，指的就是這種情況。IAIF 智能體將遵循一個計劃并持續觀察世界，直到觸發重新規劃。當規劃期間做出的預測出現錯誤時，就會觸發這種重新規劃。以下情況即屬于此類：要么智能體關于狀態的信念與規劃期間的預測顯著偏離，要么所選計劃的結果比預期的更差——例如，如果環境或目標發生了意外變化。圖 3 展示了一個通用的控制圖，比較了經典 IC 與我們提出的方法。主要區別在于確定性（IC）與概率性（IAIF）方法，以及決定何時啟動新規劃階段的觸發機制。在下文中，我們將介紹信念發散觸發器（3.2.1 節）和預期自由能誤差觸發器（3.2.2 節）的實際實現。智能體可以僅應用這些觸發器中的一種，或組合應用，以決定何時啟動新的規劃階段。

3.2.1. 信念發散觸發器

在經典 IC 中，當預測誤差超過預定義閾值時，會觸發閉環。該誤差通常定義為預測狀態與觀察者推斷的狀態之間的距離，后者通常是某種卡爾曼濾波器（見圖 3）。在 AIF 中，智能體關于狀態的信念被描述為一個概率分布。該信念利用智能體的生成模型和新觀測進行持續更新。因此，經典 IC 觸發器的自然轉換是計算規劃期間狀態的預測分布與進行觀測后更新的信念之間的差異。我們利用 Jensen-Shannon 發散作為衡量這些分布之間差異的度量。與經典 IC 類似，如果該預測誤差超過預定義閾值，則觸發新的規劃階段。否則，智能體繼續遵循其當前計劃。圖 4 展示了應用此信念發散觸發器（Div Trigger）的智能體的一般控制流程。

可以將這一思想擴展到智能體關于系統參數
的信念上。由于這些信念不會因對系統施加動作而改變，因此沒有必要跟蹤預測。相反，規劃期間的信念與隨后更新的信念之間的 JS 距離可以直接用作“學習率”的度量。如果該學習率超過預定義的閾值，則表明系統參數或噪聲與智能體在規劃期間的假設存在顯著差異，從而證明啟動新的規劃階段是合理的。

3.2.2. 預期自由能誤差觸發器

結合 3.2.1 節定義的信念發散觸發器，一旦智能體的信念與規劃期間做出的預測產生足夠大的偏差，就會觸發重新規劃。然而，只要新的觀測表明性能與預期相當甚至更好，這可能就沒有必要。例如，在規劃期間，智能體可能假設情況最終會比實際結果更糟。此外，在經典 IC 中，當參考發生變化時也可能發生重新規劃，這通常是通過將設定點包含在觀測狀態向量中來實現的 [6]。從高層 AIF 的視角來看，規劃的目標是選擇具有最小預期自由能（EFE）的計劃，即那些獲得的觀測要么在智能體的偏好分布下更有可能（實用價值），要么增加顯著性或新穎性（即信息增益）的計劃（后者在本工作中被忽略，因為我們暫時排除了參數學習）（見方程 (11)）。因此，我們可以利用在規劃和執行期間計算的 EFE 來定義 IAIF 的另一個觸發器。在計劃執行期間，我們利用從觀測中獲得的新信息來更新計劃剩余部分的 EFE 預測。如果該預測高于規劃期間的估計值，表明計劃變差了，我們就觸發一個新的規劃階段。圖 5 中的流程圖提供了預期自由能誤差觸發器（EFE 觸發器）功能的示意圖。

具體而言，該觸發機制的工作方式如下。在規劃期間，我們獲取所有采樣計劃的展開（rollouts）和逐步 EFE（見 3.1.2 節）。我們跟蹤所選計劃的逐步 EFE。

3.2.3. 組合觸發器

在某些情況下，結合上述兩種觸發機制能帶來最佳性能。一方面，僅使用信念發散觸發器可能導致智能體維持一個計劃，盡管該計劃會導致糟糕的性能。另一方面，僅應用 EFE 誤差觸發器，智能體可能遵循一個計劃，該計劃之所以變得比預期更好，僅僅是因為智能體在規劃期間的信念與真實狀態對齊不佳。例如，在觀察到目標位置之前，智能體很可能選擇一個僅大致朝正確方向移動的計劃。在感知到目標后，該計劃的實際 EFE 可能會改善，因為隨著智能體對目標不確定性的降低，實用價值變得更好。在這種情況下，盡管關于目標的新信息將允許制定一個好得多的計劃（但這仍未被探索），卻不會啟動新的規劃階段。添加信念發散觸發器會導致智能體一旦新觀測引起智能體信念的顯著變化（例如，觀察到目標在別處劇烈改變了智能體關于目標位置的信念）就立即重新規劃。因此，我們也評估了結合這兩種觸發機制的智能體。如果“Div Trigger”和“EFE Trigger”都設為“True”，組合版本顯示在算法 2 中。信念發散觸發器總是首先被測試，因為如果已經滿足 Div 觸發器，我們可以跳過 EFE 的重新估計。

我們假設智能體已針對該任務進行了訓練，因此我們將生成模型設定為與生成過程相等，但在剛度參數 d d 上保留了一定的不確定性。為了模擬人類感知，我們添加了高斯噪聲和 100 毫秒的固定時間延遲。智能體的偏好分布被定義為：它傾向于觀測到光標位于目標內部，并且靠近目標中心。后者基于智能體關于目標位置的信念，該信念僅在感知延遲之后更新（帶有感知延遲的完整 IAIF 算法見算法 A1）。為了減少變分推斷（VI）更新期間的副作用，我們對光標位置和速度、目標位置以及目標寬度進行獨立更新。由于首次觀測到目標時，關于目標位置的信念會發生劇烈變化，我們也為目標位置設定了較高的學習率。此外，我們在規劃期間排除了計算成本高昂的信息增益項，因為在初步測試中，我們未觀察到它對智能體行為產生影響。

除了與經典的（非間歇性）AIF 基線進行比較外，我們還探討了為信念發散觸發器選擇不同閾值的影響，以及兩種觸發機制組合的影響。由于間歇性的益處還取決于規劃階段采樣的計劃數量，我們調查了具有不同采樣數量的智能體的性能。

3.4. 生成式人工智能使用聲明

相關代碼部分是在 GitHub Copilot（https://github.com/features/copilot，訪問于 2026 年 2 月 5 日）的支持下編寫的，使用了 Claude Sonnet 4.5（https://www.anthropic.com/claude/sonnet，訪問于 2026 年 2 月 5 日）。作者對生成的每一行代碼都進行了檢查和正確性驗證。生成式人工智能未直接參與結果的生成、呈現或解釋。

4. 結果

在本節中，我們展示仿真研究的結果。所用參數的完整列表見附錄 A。除非另有說明，在每個規劃階段采樣 1000 個不同的計劃，視界（horizon）為十二個時間步。仿真運行一百個時間步，步長為 0.02 秒，總試驗長度為兩秒。目標在一次試驗中不發生變化；相反，每次試驗都從相同的初始位置開始，速度為零且具有固定的初始不確定性。出于數值原因，仿真期間位置和速度縮小了 1000 倍，然而，我們以像素為單位展示放大后的結果。我們為十二個目標中的每一個運行了十次試驗，導致每個智能體總共運行 120 次。我們運行了雙側 Mann-Whitney-Wilcoxon 檢驗以識別結果的顯著差異。除非另有說明，箱線圖各包含 120 個數據點，線條顯示中位數，箱體顯示 25% (Q1) 和 75% (Q3) 分位數，須（whiskers）顯示 Q1/Q3 減去/加上 1.5 倍四分位距，任何異常值由圓圈指示。仿真在一臺配備 32 核 AMD Ryzen Threadripper PRO 3975WX CPU、512GiB DDR-4 RAM 的機器上進行，并使用單個 NVIDIA GeForce RTX 3090。代碼的主要部分使用硬件加速版的 JAX（https://docs.jax.dev/en/latest/index.html，訪問于 2026 年 2 月 5 日）進行了優化。

4.1. 間歇性對智能體行為影響的分析

單次試驗中經典 AIF 與間歇 AIF 的定性行為可能有所不同。圖 7 展示了經典 AIF 和 IAIF 向目標 6 移動的光標軌跡。雖然經典 AIF 智能體一旦觀測到目標（0.1 秒后）就向其移動，但 IAIF 智能體繼續遵循一個在突增階段（surge phase）中途（0.3 秒）減速的計劃。它僅在計劃終止時重新規劃（由圖頂部的綠線指示）。這是合理的，因為該計劃仍然導致向目標移動，且沒有超調（overshooting）目標的風險。當靠近目標時，重新規劃被更頻繁地觸發，直到智能體確信光標停留在目標上。在約 1.1 秒時，光標被錯誤地移出目標，這觸發了另一個規劃階段。有趣的是，這重現了 [34] 中觀察到的人類般的變異性。

圖 8 中的相空間直方圖展示了目標 11（一個距離較遠的小目標）的行為。相空間的整體形狀是相似的。因此，引入間歇性并沒有顯著增加整體方差。然而，可以觀察到 IAIF 智能體偶爾會出現一個額外的子運動，發生在距離目標 300 像素到 400 像素之間。上述討論的單個軌跡顯示了類似的子運動，表明這種行為源于突增階段較少頻繁的規劃。這種行為也可以在目標 0、1、5 和 6 中看到（所有其他相空間直方圖見附錄 C）。這與人類通過多個修正性子運動執行指向任務的理論 [29] 相一致。

4.2. 間歇性對性能沒有負面影響

4.3. 間歇主動推理規劃次數更少并節省計算時間

連續 AIF 計算時間的主要驅動因素是基于采樣的規劃。通過使用間歇規劃，我們能夠顯著減少執行規劃階段的時間步數量，見圖 10a?；€ AIF 智能體在一百個時間步的每一步都選擇一個新計劃，導致每次試驗的平均計算時間為 49.8 秒。相比之下，僅使用信念發散觸發器的智能體平均規劃次數僅在 28.4 到 64.5 次之間，將每次試驗的平均計算時間降低至 26.1 秒和 38.0 秒（如圖 10 所示，第二組）。僅應用 EFE 觸發器的智能體平均使用 64.1 個規劃階段（圖 10a 第三組）。然而，為了計算 EFE，在每個時間步都需要進行一次額外的展開（rollout）（見方程 (15)），這對計算時間產生了負面影響。盡管存在這種開銷，僅使用 EFE 誤差觸發器的智能體仍成功將平均計算時間顯著降低了 14.5%，降至 42.6 秒（圖 10b 第三組）。結合兩種觸發器的智能體表現出更頻繁的重新規劃，以及更高的計算時間，甚至可能超過經典 AIF（見圖 10，右側組）。

如果誤差閾值選擇得當，間歇性規劃的智能體可以在顯著減少計算時間的同時實現相似的任務性能。圖 11 展示了所有仿真試驗的計算時間和性能，包括經典 AIF 基線（叉號/實線）、僅使用 EFE 誤差觸發器的 IAIF 智能體（圓圈/虛線），以及僅使用信念發散觸發器且 ? Div = 30.0 的 IAIF 智能體（三角形/點線）。所有單獨的 IAIF 試驗的計算時間均低于經典 AIF。同時，它們在目標上的時間百分比介于 60 到 90 之間，性能相似，僅有少數異常值。沒有明顯的趨勢表明更高的計算時間會帶來更好的性能。較容易的目標（ID 為 2.46、3.09、3.55）顯示所有智能體在目標上的時間百分比較高。這些結果表明，間歇性可以被引入 AIF 而不會損害性能。

4.4. 采樣計劃數量對經典與間歇主動推理影響的分析

5. 討論與未來工作

5.1. 應用間歇主動推理的指南

在本文中，我們探討了間歇主動推理作為經典基于采樣的主動推理的一種擴展。根據結果，使用僅信念發散觸發器（閾值低于 50）或僅使用 EFE 誤差觸發器進行間歇規劃的智能體，實現了與基線相似的性能，同時減少了規劃階段和計算時間。信念發散觸發器（Div Trigger）提供了一種可以進一步減少計算時間的方法，然而選擇正確的閾值 ? Div 取決于手頭的問題，需要深思熟慮，因為選擇過高的閾值可能會降低性能。相反，該閾值可以被視為一個超參數，可以根據先前的交互進行學習，需要在各種相關場景中進行重復試驗。在計算時間和性能之間具有最佳權衡的閾值可能強烈依賴于情境（環境、智能體和任務/偏好先驗）。例如，在高風險場景中，盡管需要計算努力，選擇較小的閾值是合適的。由于結合兩種觸發器并沒有顯著改善性能，但增加了計算時間（并且伴隨著尋找正確閾值的相同問題），我們建議要么僅使用 EFE 誤差觸發器，要么僅使用信念發散觸發器。最終，EFE 觸發器基于自由能原理本身，這表明它是魯棒的，適用于廣泛的應用而無需必要的調整。

5.2. k 步預期自由能誤差觸發器

為了減少使用 EFE 觸發器相關開銷的影響，可以使用 k 步 EFE，其中僅比較接下來 k < N個逐步 EFE 的平均值。所考慮的步數也可能是一個學習參數，取決于情境的復雜性（當預計沒有關鍵情境時，較小的 k k 可能就夠了）。在此背景下，可以通過僅比較當前時間步的自由能與規劃期間做出的估計來實現 0 步 EFE 觸發器。盡管在計算上更優越，但這種方法需要一種發散度量，這需要進一步調查。

5.3. 噪聲敏感的預期自由能誤差

5.4. 計劃耗盡與增強

在沒有觸發規劃階段的間歇期間，我們提出的智能體簡單地遵循其當前計劃，因此該計劃逐漸具有更短的預測視界。這最終可能導致“計劃耗盡”，即當智能體動作用完且需要執行完全重新規劃時。對于計劃剩余部分的 EFE 預測也變得不太可靠，因為它沒有考慮剩余規劃視界之后的時間步，可能會錯過不良結果。相反，人們可以探索不同的啟發式方法來增強智能體的當前計劃，例如附加新動作。

5.5. 最小與最大重新規劃間隔

根據心理不應期理論 [52]，除了間歇性之外，還可以引入最小重新規劃間隔。至少與感知延遲一樣長的不應期是經典間歇控制（IC）表述中出于計算原因的一部分 [6]，因為如果我們尚未觀察到首次動作的影響，重新規劃是沒有意義的。這確保了智能體在該間隔結束前的最初幾個時間步內始終遵循新計劃。它可以緩解在具有觀測噪聲的閉環系統中常見的系統辨識問題 [45]。類似地，在最小間隔與預測視界之間選擇的最大重新規劃間隔，可能有助于減少 5.4 節中討論的預測視界縮短所帶來的負面影響。

5.6. 間歇性與預測視界

在間歇規劃中，人們可以將自適應預測視界長度方法潛在地表述為一種間歇性形式，其中規劃可以在滿足某些條件時被中止。參見例如 [53,54] 中基于模型的強化學習和模型預測控制的相關示例。這種方法可以允許智能體在復雜或不確定的高模型誤差區域使用短視界，而在穩定區域使用長視界，從而提升性能、效率和穩定性。

5.7. 復雜任務中的間歇主動推理

在本工作中，我們在簡單的一維鼠標指向任務中將 IAIF 與經典 AIF 進行了評估。由于間歇性的效果可能因任務難度而異，未來研究應探索 IAIF 在更復雜和多樣化任務中的應用。在需要多個時間步才能實現目標的多階段任務中（例如，鼠標指向并點擊 [11]），基于采樣的連續重新規劃可能導致智能體花費較長時間才能完成第二個任務。這是由于最佳采樣計劃可能僅在計劃的第二個動作中實現第二個任務，而該動作從未被執行。在此情況下，IAIF 甚至可能表現得比經典 AIF 更好。我們還決定在所有仿真中將規劃視界固定為 12 個時間步（即 240 毫秒）。雖然對于非常短的規劃視界，間歇規劃的益處會減弱，但較長的視界可能更有益，因為智能體可以遵循表現良好的計劃更長時間。然而，較長的視界也會增加重新計算 EFE 的開銷。

5.8. 離散主動推理中的間歇性

在本文中，我們研究的是具有連續狀態、觀測和動作空間的問題。我們這樣做的動機在于，非離散 AIF 所需的基于采樣的方法通常涉及更高的計算成本。然而，我們預計將本文提出的概念遷移到離散問題上不會有任何限制。特別是對于大規模生成模型，其中探索所有可能狀態是不可行的，間歇性規劃可以帶來類似的益處。通過添加關于何時推斷新策略的決策（基于本工作中提出的觸發器之一），間歇性可以輕松地添加到現有的 AIF 實現中（例如，在 pymdp（https://github.com/infer-actively/pymdp，訪問于 2026 年 2 月 5 日）中，僅當觸發器發生時才運行 infer_policies，例如，當 EFE 變得比上次執行期間預測的更差時）。

5.9. 間歇性在主動推理建模實踐中的作用

本工作中為間歇規劃提出的啟發式方法可以在模型細化的早期階段帶來多種益處。(1) 通過釋放計算預算以加速探索并支持模型改進，(2) 為情境敏感的重新規劃模式的機器學習提供基礎，以及 (3) 為人類設計決策提供參考。

(1) 間歇規劃的計算益處既可用于加速任何給定智能體的仿真，也可在給定計算預算下潛在地提升智能體的性能。節省的計算預算可用于擴大采樣范圍、支持更復雜的模型，或延長預測視界。

(2) 間歇性啟發式方法可為情境敏感模式的自動機器學習提供基礎。學習情境與重新規劃之間的關系可以分攤這些指標的計算成本，從而帶來額外的計算節省益處。進一步發展這一點，如果生成模型能夠捕捉這種關系，圖 2 中的間歇切換可被視為標準 AIF 智能體的動作，從而為間歇性的納入提供一種更優雅、更具原則性的方法（長期目標仍然是減少生成模型與環境之間的不匹配，但在該學習過程的任何時刻，間歇性都可用于管理當前模型不匹配的狀態）。

(3) 人類設計者和建模者可以從（學習到的）間歇性模式中獲得洞察，以指導模型結構的發展。例如，當智能體與環境的不同方面或不同任務交互時，情境敏感的間歇性速率可能表明生成模型難以充分預測行為（類似于蓋革計數器）。更系統的間歇行為模式，例如在扁平智能體中觀測頻率高于動作頻率，或動作頻率高于重新規劃頻率，可能表明分層模型——在不同分層層級以不同速率進行更新——可能更適合該任務。

6. 結論

我們引入了間歇主動推理作為經典主動推理的一種擴展，專注于那些連續進行觀測、推斷和動作，但間歇性進行規劃的智能體。間歇性背后的動機可歸因于其計算效率、建模與自然智能體類似的不應期結構的能力、在閉環參數辨識中的優勢，以及作為模型細化實用工具的益處。

我們提出了兩種觸發重新規劃的機制：信念發散觸發器和預期自由能誤差觸發器，并在一個簡單的一維鼠標指向任務模型上評估了標準主動推理智能體與間歇主動推理智能體。我們的結果表明，間歇規劃減少了計算時間，雖然未顯著改變任務性能，但增加了一些類似于人類運動控制中的行為變異性。此外，我們表明，隨著采樣計劃數量的增加，可以實現顯著的計算時間節省。

我們相信，這種對主動推理實現的簡單增強可以帶來即時的實際益處，可能支持模型開發與測試，并且間歇性的行為效應將與替代分層模型的行為效應相重疊。

原文鏈接：https://www.mdpi.com/1099-4300/28/3/269

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.