網易首頁 > 網易號 > 正文申請入駐

在線精確校準貝葉斯優化

2026-05-13 10:41:07　來源: CreateAMind

上海舉報

分享至

Online Sharp-Calibrated Bayesian Optimization

在線精確校準貝葉斯優化

https://arxiv.org/pdf/2605.10572

摘要

貝葉斯優化（BO）是一種廣泛使用的優化昂貴黑盒函數的框架，通常基于高斯過程（GP）代理模型。其有效性依賴于在整個 BO 軌跡上既精確（信息量大）又校準良好的不確定性量化。在實踐中，GP 核超參數是未知的，并且會從順序收集的（非獨立同分布）數據中在線重新擬合，這可能導致不確定性校準不良或過于保守，并且超出了標準 BO 遺憾理論中固定核的假設。我們提出了在線精確-校準貝葉斯優化（OSCBO），這是一種 BO 算法，通過將超參數選擇構建為受約束的在線學習問題，自適應地平衡 GP 的精確度和校準度。我們還表明，OSCBO 通過利用底層在線學習算法的理論保證，保持了次線性遺憾界。在經驗上，OSCBO 在合成和現實世界基準測試中表現具有競爭力，在最終簡單遺憾方面位列最強方法之一，同時保持了穩健的累積遺憾表現。

1 引言

許多現代設計問題歸結為在嚴格的評估預算下優化昂貴的黑盒函數。貝葉斯優化（BO）通過維護一個概率代理模型來解決這一場景，通常是帶有選定核的高斯過程（GP），其后驗均值和不確定性由采集函數組合以選擇新的評估點 [14]。這種由不確定性驅動的采樣已在材料、生物學和機器人等多樣領域實現了高效優化 [8, 30]。

BO 的核心理論視角是遺憾（regret），它衡量了隨著評估預算的增長，算法接近全局最優的速度有多快。對于基于 GP 的 BO，遺憾分析將高概率 GP 不確定性界與 GP-UCB [29] 等策略的探索-利用行為相結合。然而，這些結果幾乎總是假設在整個 BO 循環中 GP 核是固定的，或者等價地，假設由核超參數誘導的再生核希爾伯特空間（RKHS）是固定的。在實踐中，超參數是在線重新擬合的（例如，通過最大化邊際似然）。這改變了不確定性估計和隱含的函數類，導致標準 BO 實踐與現有遺憾理論之間的不匹配。

在每次 BO 迭代中廣泛重新擬合 GP 超參數的做法表明，超參數選擇是優化循環的核心部分。由于超參數塑造了后驗不確定性，它直接決定了采集值，從而決定了下一次評估。基于校準在序貫決策中處于核心地位的觀點 [11]，我們將經典的探索-利用原則重新表述為預測不確定性的校準度與精確度（sharpness）之間的權衡。校準度詢問 GP 置信區間是否在自適應查詢序列上達到其名義覆蓋率，通過覆蓋率差距來量化；而精確度則測量置信區間的寬度。過于保守的不確定性可能保持校準但會減緩利用；過于自信的不確定性雖然精確但校準不良，可能觸發過早的利用。因此，在在線超參數自適應過程中顯式地平衡校準度和精確度，提供了一種原則性的方法，在實驗成本高昂時避免校準不良和過度保守。

一個關鍵的復雜因素是 BO 數據是非獨立同分布（non-i.i.d.）的：查詢點是根據過去的觀測和當前模型自適應選擇的。在獨立同分布采樣下，邊際似然超參數擬合可被解釋為優化一個適當評分規則，這與概率預測的校準-精確度范式相一致 [16]。在自適應查詢下，這種一致性可能會失效：采樣分布隨算法而變化，因此標準的超參數擬合或基于獨立同分布的重新校準都無法保證沿優化軌跡的不確定性可靠 [11]。這促使我們將超參數選擇視為序貫決策問題的一部分，在自適應數據收集下顯式控制校準度和精確度。

貢獻。 我們提出了在線精確-校準貝葉斯優化（OSCBO），一種在自適應、非獨立同分布數據收集下通過權衡精確度和校準度來在線調整 GP 核超參數的方法。基于具有長期約束的在線學習 [7]，OSCBO 將超參數選擇構建為一個受約束的在線問題，在促進窄置信區間的同時控制累積覆蓋率違規。當與上置信界（UCB）策略結合使用時，OSCBO 保留了次線性遺憾保證。我們的貢獻如下：

? 概念上： 我們通過精確度-校準度的視角重新解釋了探索-利用及其產生的遺憾保證。

? 方法上： 我們提出了 OSCBO，一種原則性的在線超參數選擇方案。它在非獨立同分布采樣下積極促進精確的不確定性量化，同時確保長期校準誤差不超過指定閾值。

? 理論上： 我們表明 OSCBO 通過利用底層在線算法的遺憾保證，實現了次線性遺憾界。

? 經驗上： 我們在合成和現實世界基準測試上評估了 OSCBO，表明它在最終簡單遺憾方面位列最佳方法之一，并且在累積遺憾方面保持穩健。

2 相關工作

未知超參數下的 BO。 越來越多的研究探討了當 GP 超參數未知且必須在線學習時的 BO，放松了經典遺憾界背后的固定核/再生核希爾伯特空間（RKHS）假設。一個典型的例子是核長度尺度，它控制相關范圍，從而決定有效平滑度。[4]（A-GP-UCB）和 [38]（LB-GP-UCB）提出了具有遺憾保證的原則性長度尺度自適應方案，旨在確保誘導的 RKHS 最終足夠豐富以包含目標函數。相關結果涵蓋了具有固定平滑度的 Matérn 核 [23]，而互補的方法使用元學習從先前任務中初始化超參數 [35, 13]。我們的工作也針對迭代重新擬合下的遺憾，但遵循不同的原則：選擇超參數以管理沿 BO 軌跡的校準與精確度（sharpness）權衡。

自適應 BO 下的校準與重新校準。 最近的研究探討了 BO 的校準不確定性，更廣泛地說，探討了在分布偏移和對抗性選擇數據下的序列預測。在 BO 中，[31] 將 GP 后驗與共形預測相結合，以在協變量偏移下生成校準的預測集，而共形方法更廣泛地將覆蓋率保證從獨立同分布設置擴展到分布偏移和自適應數據收集 [33, 15, 3, 1]。作為補充，[10] 提出了一種基于修改后的分位數損失（pinball loss）的在線事后重新校準規則，而 [11]（OCBO）在任意對手下（包括序列數據）提供了校準保證。精確-校準高斯過程（SCGP）[6] 也使用精確度-校準目標學習 GP 不確定性參數，但它們是為校準回歸而非自適應 BO 設計的：它們依賴于訓練/校準數據劃分，并針對固定置信水平的預測集進行校準，而不是沿優化軌跡優化 BO 采集函數。這些方法主要針對校準的預測不確定性或分位數/CDF 的重新校準，并未直接解決任意 BO 采集函數內部 GP 超參數選擇的在線校準-精確度權衡問題。相反，我們在線調整 GP 超參數以優化精確度，同時在 BO 軌跡上控制長期的覆蓋偏差（miscoverage）。

帶約束與動態環境的在線學習。 BO 中的超參數自適應可被視為具有長期約束的在線學習，其中學習者在優化目標的同時控制累積的校準違規。因此，相關的理論保證是最優性差距與約束違反界，這與 BO 遺憾不同。[7] 針對隨機和對抗性獎勵/約束，提供了兼顧兩者的保證，使用了非凸黑盒子程序與執行-恢復（play–recovery）機制。相關地，[5] 使用樂觀可行性估計時變可行集，研究了具有長期約束的賭博機問題。

3 預備知識 (Preliminaries)

3.1 基于 GP 代理模型的貝葉斯優化 (Bayesian Optimization with GP Surrogates)

3.2 自適應設置下的校準與銳度 (Calibration and Sharpness under Adaptive Setting)

4 關于 GP-UCB 的銳度—校準視角

綜上所述，推論 4.1 和 4.2 表明，在固定核函數下，GP-UCB 置信區間將概率銳度、校準和累積遺憾界聯系在了一起，從而引出了 OSCBO。然而，當超參數在線選擇時，BO 軌跡不再受單個固定核置信事件的支配，這種聯系也不再自動成立。下一節將介紹超參數選擇期間的顯式銳度—校準控制。

5在線精確校準的BO

我們提出了在線銳度校準貝葉斯優化（Online Sharp-Calibrated Bayesian Optimization, OSCBO），它將 GP 超參數選擇視為一個約束在線優化問題，旨在平衡銳度與長期校準違背。5.1 節定義了從每個 BO 查詢中提取的每輪銳度損失和校準約束。5.2 節描述了由此產生的原始—對偶在線更新以及 play-recovery 機制。5.3 節將此更新與 BO 循環相結合，從而得到 OSCBO。

5.1 銳度損失與校準約束

遺憾最小化器。 OSCBO 將原始和對偶學習者視為黑盒 RMs（第 3.3 節，第 B.2 節），通過 INIT 和交替的 NEXTELEMENT/OBSERVEUTILITY 更新進行實例化。我們的實現對偶 RM 使用帶有負熵正則化器的在線鏡像下降；原始 RM 使用 FTPL 來處理非凸的 Θ （第 B.3 和 B.4 節）。

6 理論分析

6.2 銳度與校準的在線學習保證

假設定理 6.1 的高概率事件成立，約束在線學習分析得出了關于銳度最優性差距和累積校準違背的次線性界。

6.3 帶有 GP-UCB 的 OSCBO 的 BO 遺憾界

我們現在將在線學習的保證轉化為帶有 UCB 采集函數的 OSCBO 的 BO 遺憾界。定理 6.1 中 β t 的選擇起到兩個作用：它導出了上文使用的關于 Θ 的統一置信事件，并且其數值也足夠大，以支持下文遺憾證明中的 UCB 樂觀步驟。結合引理 6.2，這將 BO 分析簡化為控制在參考核（reference kernel）下的累積銳度損失，而這是通過最大信息增益來實現的。

該界限比具有已知核超參數的經典 GP-UCB 更寬松，因為在線超參數自適應引入了原始/對偶（primal/dual）遺憾項以及 β t 的覆蓋數（covering-number）膨脹。由于這些代價保持次線性，OSCBO 仍然實現了次線性遺憾。相比之下，通用的在線學習方法應用于 BO 時可能會產生每輪的學習代價，從而導致線性遺憾 [18]。

7 實驗

基線方法。 我們報告了我們方法的兩個變體：OSCBO（校準懲罰公式 7 中 p = 2 ）和 OSCBO-L1（使用 p = 1 ），GP-UCB-MLL [29]，在線校準 BO (OCBO) [11]，自適應 GP-UCB (A-GP-UCB) [4]，長度尺度平衡 GP-UCB (LB-GP-UCB) [38]，銳度校準 GP (SCGP) [6]，以及用于 BO 的 TabICLv2 [25, 27, 36]。詳細信息見附錄 D.1。

實現細節。 OSCBO 和基于 GP 的基線方法是在 BoTorch [2] 中實現的；TabICLv2 是通過自定義的 BO 包裝器使用的。除非另有說明，我們使用各向同性（isotropic）Matérn 核， ν = 2.5 ，固定輸出尺度和固定觀測噪聲，僅估計長度尺度。我們在合成基準和真實世界任務上進行評估，包括 Lunar 12D [12]，Material 5D [24, 38]，Concrete 7D [37]，以及 Crossbarrel 4D [17]。對于每個任務，我們報告 20 個隨機種子上的平均值 ± ± 標準誤。關于任務和超參數的更多細節見第 D 節。

7.1 結果

圖 2 報告了跨合成和真實世界基準的簡單遺憾（simple regret）。OSCBO 始終是最強的方法之一：它在幾個任務上與 GP-UCB-MLL 持平或有所改進，同時避免了僅校準或基于調度（schedule-based）替代方案的較弱表現。OSCBO-L1 略遜于默認的 OSCBO 變體。總之，這些結果表明銳度—校準更新提供了一種調整長度尺度的有效方法，其中校準懲罰的選擇控制了最終簡單遺憾與軌跡級性能之間的權衡。TabICLv2 具有競爭力但非主導的表現表明，繞過 GP 長度尺度優化并不能消除顯式長度尺度自適應的價值。

圖 S1 中的累積遺憾類比圖展示了一個互補的畫面。OSCBO-L1 實現了最佳的聚合累積遺憾排名，而默認的 OSCBO 位于主要的基于 GP 的基線簇中。結合簡單遺憾的結果，這指向了一個由校準指數控制的權衡： p = 2 有利于最終解的質量，而 p = 1 提高了沿軌跡的預算高效性能。我們將在下一節回到這一分析。

7.2 敏感性和消融分析

我們使用主實驗中的配置對 BO 循環進行消融：各向同性 Matérn-5/2 GP 代理模型，UCB 采集，以及默認的 p = 2原始校準更新。每個面板僅包含相應的修改有意義且可用的基線。

對核和采集選擇的魯棒性。 圖 3 顯示 OSCBO 并不局限于單一的核 - 采集對。（顯示了任務平均排名；原始遺憾軌跡見圖 S2）。改變 Matérn 平滑度始終使 OSCBO 在多次試驗中保持為表現最好的方法之一。此外，用 LogEI 替換 UCB 保持了 OSCBO 的競爭力，表明銳度—校準更新在 UCB 之外也是有效的。當使用 ARD 長度尺度時，OSCBO 的表現略差于 GP-UCB-MLL，主要是由于 Lunar 任務（圖 S2）。由于 ARD 為每個維度引入了一個長度尺度，我們也包含了 VanillaBO [19]；然而，其行為并非始終更強，可能是因為基準測試的維度仍然適中。

校準懲罰和診斷的影響。 圖 3（右上方面板）總結了 OSCBO 和 OSCBO-L1 之間的簡單—累積遺憾權衡，而診斷面板（圖 3，底行；圖 S3）闡明了 Levy 5D 上的潛在動態。這兩個變體的不同之處在于校準約束（公式 7）的指數 p ，該指數同時進入了 FTPL 和 OMD 目標（公式 S5 和 S7）。當 p = 2 時，二次校準懲罰類似于 GP 邊緣似然的數據擬合幾何，且 OSCBO 在遺憾、銳度—校準和長度尺度軌跡上緊密跟蹤 GP-UCB-MLL。當 p = 1 時，大殘差僅受到線性懲罰，減少了罕見的大預測誤差的影響，并導致較少的長度尺度修正。這改變了銳度—校準的權衡：OSCBO-L1 改善了累積遺憾，但代價是在各個任務上最終簡單遺憾略弱。

8 討論

我們引入 OSCBO 是基于一個核心觀察：在自適應查詢下，探索—利用權衡可以被視為尖銳（sharp）與校準（calibrated）不確定性之間的權衡。將 GP 超參數重新擬合視為在線決策問題，使我們能夠形式化并控制 BO 軌跡上的這種張力。特別是，默認的二次 OSCBO 更新反映了 GP 邊緣似然的對數行列式和二次數據擬合結構，這解釋了它與 GP-UCB-MLL 在經驗上的緊密一致性。然而，與黑盒 MLL 重新擬合不同，OSCBO 將此更新置于約束在線學習過程中，從而為所得的 GP-UCB 規則產生了次線性遺憾分析。更廣泛地說，我們的結果表明重新擬合目標本身就是一種設計選擇：改變原始校準懲罰會改變長度尺度動態，其中 OSCBO-L1 以最終簡單遺憾的微小代價提供了更具預算效率的軌跡。一個特別有前景的途徑是將 OSCBO 風格的銳度/校準控制轉移到具有更具挑戰性不確定性的代理模型上，如貝葉斯神經網絡 [22] 或可擴展的近似 GP。最后，我們的理論僅涵蓋 UCB；將其擴展到期望改進（Expected Improvement）或湯普森采樣（Thompson Sampling）等策略留待未來的工作。

https://arxiv.org/pdf/2605.10572

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.