曲率感知期望自由能:貝葉斯優化采集函數
Curvature-aware Expected Free Energy as an Acquisition Function for Bayesian Optimization*
https://arxiv.org/pdf/2603.26339
![]()
摘要
我們提出一種基于期望自由能的貝葉斯優化采集函數,用于解決聯合學習與優化問題,即同時優化并學習底層函數。我們證明,在特定假設下,期望自由能可簡化為上置信界、下置信界和期望信息增益。我們證明期望自由能對凹函數具有無偏收斂保證。基于這些推導結果,我們為期望自由能引入了一種曲率感知更新律,并通過范德波爾振蕩器的系統辨識問題驗證了其概念。通過嚴格的仿真實驗,我們表明,我們自適應的基于期望自由能的采集函數在最終簡單遺憾值和高斯過程學習誤差方面均優于最先進的采集函數。
I. 引言
聯合優化與學習是機器人與控制領域的核心問題,智能體必須同時獲取環境(或現象)的精確地圖并識別高價值區域(例如搜救中人類高密度區域或目標搜索中高檢測概率區域)。快速高效的信息采集可提高精準農業的生產效率,在搜救行動中挽救生命,并助力工業檢測與維護[1]。由于現實世界中的查詢代價高昂,開發能夠以最快速度進行高效查詢以實現聯合優化與學習的方法至關重要。然而,大多數采集函數(AF)旨在實現高效優化,而非精確學習底層函數[2]。我們旨在通過提出一種用于貝葉斯優化(BO)的采集函數來彌合這一差距,該函數利用曲率信息來平衡探索與利用,不僅是為了優化,也是為了學習底層函數[3]。受主動推理[4](關于人腦如何進行推理的前沿計算神經科學理論)的啟發,我們提出期望自由能(EFE)作為一種新的采集函數。我們指出,EFE是一種通用采集函數,其他采集函數如上置信界(UCB)[5]、下置信界(LCB)和期望信息增益(EIG)均可從中推導出來。
關于黑箱優化的采集函數,BO已有大量文獻[6],包括信息論遺憾界[5]。由于BO對于評估代價高昂的多模態函數優化尤為有用,它已廣泛應用于控制系統中以調整控制器[7]和進行系統辨識[8]。利用梯度信息改進BO的想法也得到了廣泛研究,特別是關于觀測梯度[9][10]和后驗梯度[11]的研究。我們的方法不同于這些方法,因為我們使用高斯過程(GP)后驗的二階梯度來調整探索與利用之間的平衡。近年來,將主動推理思想用于BO的興趣日益增長。最近的一項相關工作通過將基于玻爾茲曼分布的能量函數置于偏好分布上,提出了一種基于主動推理的采集函數[12]。我們的工作不同之處在于,我們特別從高斯偏好先驗出發推導EFE,將其作為一個特例。這條路徑更為簡潔,因為一個簡單的線性化步驟就能直接恢復UCB和LCB,而無需做出不現實的假設[12]。我們進一步通過提出一種曲率感知規則來改進這一EFE,以提升性能。另一項類似工作是[13],它提出了一種基于主動推理的采集函數。他們使用了期望未來的自由能[14]作為目標,而非EFE,這在根本上與我們的公式不同,并且未能揭示UCB與主動推理之間的等價性。我們工作的核心創新在于,在EFE采集函數中利用曲率信息來平衡聯合優化與學習問題中的探索與利用。我們在數學上證明了EFE的駐點與曲率無關。基于這一結果,我們為EFE提出了一種新穎的曲率感知自適應規則,該規則鼓勵在高曲率區域重新采樣,并探索低曲率的不確定區域。本文的核心貢獻包括:i) 證明在特定假設下,EFE可簡化為UCB、LCB和EIG(第III-B節);ii) 證明EFE對凹函數的無偏收斂性(第IV-A節);iii) 引入EFE的曲率感知更新規則(第IV-B節);iv) 展示我們自適應的(曲率感知)EFE在聯合優化與學習方面優于最先進的采集函數(第V節)。
II 問題陳述
![]()
III. EFE 與其他采集函數
本節推導 GP 下的 EFE,并證明 UCB 和 LCB 是 EFE 的線性代理。
A. GP 模型下的 EFE
我們將未知函數的優化問題視為一個智能體必須通過與環境的交互進行學習以達到目標的問題。探索指的是學習函數(發現其形狀),利用指的是優化。行動由下一個查詢位置的選擇來表示,傳感器觀測值由該查詢位置上的未知函數值表示。我們隱含地假設環境是時不變的,即 f ( x ) 不會因選擇了哪些查詢點而改變。在主動推理中,通過最小化一個 EFE 泛函來找到最優平衡探索與利用的行動 [4]。我們將 GP 上候選查詢位置 x x的單步(短視)EFE 定義為 [15]:
![]()
![]()
![]()
![]()
![]()
B. 與已知采集函數的關系
EFE 是貝葉斯優化采集函數的一個推廣,因為它包含了若干已知的采集函數。下面我們證明這一論斷,并展示導致 LCB、UCB 和 EIG 的具體限制條件。
![]()
![]()
![]()
![]()
因此,在假設 1 和一個簡單的線性化步驟下,當 EFE 的不同項被丟棄時,EFE 可以簡化為 UCB、LCB 和 EIG。表 I 總結了這些結果。我們推測這表明,完整形式的 EFE 是一種具有優越性能的通用采集函數。例如,在不采用假設 1 的情況下,EFE 將考慮完整 GP 上的凈信息增益。在能夠利用問題的子模性的情形下,這可能會帶來 EFE 更優越的性能:由于數據之間的相關性,在一個位置進行查詢可以提供關于地圖中其他位置信息的有用信息。例如,在搜救地圖上找到一個受害者,可以讓智能體了解地圖上其他受害者的位置。
為簡化起見,本文其余部分將考慮假設 1 下的 EFE。
![]()
IV. EFE 作為采集函數
在本節中,我們給出 EFE 在局部嚴格凹函數上收斂的充分條件,并提出一種曲率感知的更新規則。
A. 基于 EFE 的采集函數的收斂性分析
定理 IV.1(EFE 無偏局部收斂的充分條件)。設 f f具有唯一最大化點 x ? ,并且
![]()
![]()
![]()
![]()
![]()
![]()
![]()
V. 仿真實驗
本節旨在展示我們提出的自適應 EFE 在聯合學習與優化問題上相較于最先進采集函數的優越性能。我們首先在一個簡單的系統辨識問題上驗證自適應 EFE 的概念,然后在一個高度隨機化的函數空間上,將結果與其他六種基準方法進行對比。
A. 自適應 EFE 與非自適應 EFE
本節通過在范德波爾振蕩器上的系統辨識問題,展示了我們提出的自適應 EFE 相較于非自適應 EFE 的優勢。該振蕩器由下式給出:
![]()
![]()
B. 學習與優化
為了評估自適應 EFE 在不同形態函數上的性能,我們在一個由 10 個正弦和余弦分量(具有隨機幅度、頻率和相位)構成的隨機生成的一維目標函數集合上,對所有采集函數進行了基準測試。每個目標函數定義在 [ ? 8 , 8 ] 區間上,并在固定的 400 個網格點上進行評估。在 50 個獨立的目標函數上,所有貝葉斯優化方法都從相同的三個初始設計點開始,并在相同的觀測噪聲![]()
下運行 50 次迭代。仿真設置的詳細內容見附錄 D。
性能通過最終 GP 回歸誤差(整個定義域上的均方誤差)和相對于真實全局最大值的簡單遺憾值來報告,從而能夠在異質測試函數上公平比較平均性能和變異性。圖 2 顯示了將自適應 EFE 與基準方法 UCB、期望改進(EI)、改進概率(PI)、VAR(以標準差 σ 為目標)、湯普森采樣(TS)和知識梯度(KG)進行比較的結果。由于 EFE 位于圖的左下角區域,它是用于聯合優化與學習的最佳方法。
表 II 報告了所有方法在最終均方誤差和最終簡單遺憾值上的均值。EFE 具有最低的簡單遺憾值,并且其 GP 均方誤差接近純探索策略(VAR)。這表明,在高度隨機化的通用一維函數空間中,EFE 在聯合優化與學習問題上優于其他采集函數。
![]()
![]()
VI. 結論
期望自由能(EFE)以一種原理性的方式統一了探索與利用,因此具有成為下一代貝葉斯優化采集函數的強大潛力。受此啟發,我們針對聯合學習與優化問題,提出了一種新穎的曲率感知的 EFE 貝葉斯優化采集函數。我們從數學上證明了 UCB 和 LCB 是 EFE 的線性代理,并且 EFE 對凹函數具有無偏收斂保證。仿真結果表明,與最先進的采集函數相比,EFE 具有很強的競爭力。
未來的一個自然發展方向是開發可擴展的、類模型預測控制(MPC)風格的多步 EFE 規劃器,沿候選動作序列傳播高斯過程信念,從而實現非短視的查詢選擇,能夠預見未來后驗狀態的完整演變。這類規劃器有望大幅提升信息采集的效率,使智能體能夠高效執行現實世界中的探索、監測和決策任務。
原文鏈接:https://arxiv.org/pdf/2603.26339
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.