網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

多重信賴域貝葉斯優(yōu)化 (MTRBO)

2026-05-09 21:41:05　來源: CreateAMind

上海舉報(bào)

分享至

多重信賴域貝葉斯優(yōu)化 (MTRBO)

MTRBO: Multiple trust-region based Bayesian optimization

https://arxiv.org/pdf/2605.06618

摘要：

貝葉斯優(yōu)化（BO）是一種用于優(yōu)化黑盒函數(shù)的流行框架。盡管其有效，但由于搜索空間的指數(shù)級(jí)增長、目標(biāo)函數(shù)的異質(zhì)性以及較低的采樣預(yù)算，BO在高維問題上通常效率低下。為克服這些問題，本文提出了一種基于多信任域的貝葉斯優(yōu)化技術(shù)（MTRBO）。信任域是一個(gè)局部區(qū)域，在該區(qū)域內(nèi)優(yōu)化模型被認(rèn)為能夠準(zhǔn)確地逼近目標(biāo)函數(shù)。假設(shè)高斯過程（GP）作為關(guān)于目標(biāo)函數(shù)的先驗(yàn)信念，并基于后驗(yàn)均值和方差函數(shù)，該方法在一個(gè)信任域內(nèi)自適應(yīng)地利用有前景的當(dāng)前解附近區(qū)域，同時(shí)在另一個(gè)信任域內(nèi)探索搜索空間中最不確定的區(qū)域。建立了所提方法的理論全局收斂性。隨后，該工作與當(dāng)前其他最先進(jìn)的基于信任域的貝葉斯優(yōu)化算法進(jìn)行了基準(zhǔn)對(duì)比，在多種非凸和高維測試函數(shù)上展現(xiàn)出優(yōu)越的性能。在采樣預(yù)算（即函數(shù)評(píng)估次數(shù)）內(nèi)，所提方法在解的質(zhì)量方面優(yōu)于其他方法。所提方法被應(yīng)用于投資組合優(yōu)化問題，以驗(yàn)證其在現(xiàn)實(shí)場景中的適用性。

關(guān)鍵詞：高斯過程；貝葉斯優(yōu)化；信任域；全局優(yōu)化

1 引言

在工程與科學(xué)研究領(lǐng)域，優(yōu)化問題通常涉及處理計(jì)算昂貴（難以評(píng)估、耗時(shí)、評(píng)估成本高等）的黑盒函數(shù)。由于缺乏關(guān)于連續(xù)性、可微性、凸性等已知數(shù)學(xué)性質(zhì)的信息，傳統(tǒng)方法在此類問題上往往失效。貝葉斯優(yōu)化（BO）已成為應(yīng)對(duì)這些場景的強(qiáng)大工具，通常使用高斯過程對(duì)復(fù)雜目標(biāo)進(jìn)行建模與優(yōu)化，且僅需有限的評(píng)估次數(shù)。貝葉斯優(yōu)化最早起源于Kushner（1964）的工作，該研究假設(shè)布朗運(yùn)動(dòng)隨機(jī)過程作為目標(biāo)函數(shù)的先驗(yàn)，并引入了改進(jìn)概率（PI）采集函數(shù)，用于在存在噪聲的情況下尋找任意多峰曲線最大值點(diǎn)的位置。另一種采集函數(shù)“期望改進(jìn)（EI）”由Mo?kus（1975）提出。盡管這些僅是早期工作，但貝葉斯優(yōu)化在Jones、Schonlau和Welch（1998）的研究之后獲得了更多關(guān)注，該研究提出了一種針對(duì)昂貴黑盒函數(shù)的高效全局優(yōu)化（EGO）算法。多年來，研究者提出了眾多貝葉斯優(yōu)化變體，Du等人（2022）、Lu等人（2023）以及Z. Wang等人（2024）為近期的相關(guān)工作。有關(guān)貝葉斯優(yōu)化最新進(jìn)展的更多細(xì)節(jié)可參閱X. Wang等人（2023）的文獻(xiàn)。

盡管BO在超參數(shù)調(diào)優(yōu)、機(jī)器人學(xué)、材料科學(xué)等諸多領(lǐng)域取得了成功，但在高維搜索空間設(shè)置下，其可擴(kuò)展性與效率面臨嚴(yán)峻考驗(yàn)。正如Eriksson等人（2019）所指出的，優(yōu)化高維問題面臨若干挑戰(zhàn)。首先，隨著維度增加，搜索空間呈指數(shù)級(jí)擴(kuò)大，使得從大量局部最優(yōu)中定位全局最優(yōu)變得更加困難。其次，函數(shù)本身通常具有異質(zhì)性，這增加了構(gòu)建有效全局代理模型的復(fù)雜度。最后，由于維度災(zāi)難，搜索空間的增長速度遠(yuǎn)快于采樣預(yù)算（即可能的函數(shù)評(píng)估總數(shù)），導(dǎo)致出現(xiàn)具有顯著后驗(yàn)不確定性的區(qū)域。這通常導(dǎo)致常見的采集函數(shù)過度偏向探索，而以犧牲利用潛在有前景區(qū)域?yàn)榇鷥r(jià)。近期的研究進(jìn)展旨在通過多種不同方法克服這些局限。許多技術(shù)利用了目標(biāo)函數(shù)中潛在的可加結(jié)構(gòu)，例如Kandasamy等人（2015）、Gardner等人（2017）以及Z. Wang等人（2018）的工作。這些方法通常涉及訓(xùn)練大量高斯過程（GP），每個(gè)GP代表不同的可加結(jié)構(gòu)，這使得它們在面對(duì)較大評(píng)估預(yù)算時(shí)可擴(kuò)展性較差。另一些替代方法（如Z. Wang等人，2016；Nayebi等人，2019）則依賴于將高維空間映射至未知的低維子空間，從而能夠處理大量觀測數(shù)據(jù)。此外，為應(yīng)對(duì)大量觀測數(shù)據(jù)，大規(guī)模貝葉斯優(yōu)化通常采用批量選點(diǎn)進(jìn)行并行評(píng)估。盡管近期引入了多種批量采集函數(shù)（Chevalier & Ginsbourger，2013；Shah & Ghahramani，2015；González等人，2016），但這些方法在實(shí)踐中通常難以隨批量大小的增加而有效擴(kuò)展。

盡管上述方法為克服傳統(tǒng)BO的局限提供了不同方向，但它們自身仍存在不足?；诳杉咏Y(jié)構(gòu)的方法隨著評(píng)估預(yù)算的增加，往往會(huì)變得計(jì)算昂貴且效率低下。管理大量GP具有挑戰(zhàn)性，且在評(píng)估預(yù)算較大時(shí)易引發(fā)可擴(kuò)展性問題。將高維空間映射至低維子空間的方法依賴于對(duì)目標(biāo)函數(shù)結(jié)構(gòu)的特定假設(shè)。這些假設(shè)在實(shí)踐中未必總是成立，可能導(dǎo)致代理模型出現(xiàn)偏差。盡管批量采集函數(shù)旨在并行評(píng)估多個(gè)點(diǎn)，但它們在處理大批量時(shí)常常面臨挑戰(zhàn)。針對(duì)大批量有效擴(kuò)展這些方法仍存難題，因?yàn)橛?jì)算需求的增加以及管理大量并行評(píng)估的困難，往往導(dǎo)致它們在實(shí)踐中表現(xiàn)不佳。

為克服BO的上述局限及近期應(yīng)對(duì)方法的不足，本文提出了一種基于多信任域的貝葉斯優(yōu)化（MTRBO）算法。該算法在每次迭代中分別設(shè)置兩個(gè)信任域，獨(dú)立用于探索與利用。對(duì)于探索，選取在基于觀測值將高斯過程模型擬合至昂貴黑盒目標(biāo)函數(shù)后，不確定性最高的區(qū)域。對(duì)于利用，選取當(dāng)前最佳觀測值附近的信任域，并在該區(qū)域內(nèi)進(jìn)行若干次子迭代以尋找后驗(yàn)均值函數(shù)的最大化點(diǎn)；該后驗(yàn)均值函數(shù)在長期運(yùn)行中本身會(huì)收斂于實(shí)際目標(biāo)函數(shù)。因此，在每次迭代中，所提方法僅在遠(yuǎn)小于完整搜索空間的極小區(qū)域內(nèi)進(jìn)行搜索，且不會(huì)在探索與利用之間做出妥協(xié)。該方法經(jīng)過精細(xì)調(diào)整，避免了對(duì)高探索的過度敏感，而這正是傳統(tǒng)BO在高維設(shè)置下的一個(gè)缺陷。在每次迭代中，該方法首先預(yù)測下一次迭代的兩個(gè)可能查詢點(diǎn)。其一來自探索階段，即探索信任域內(nèi)采集函數(shù)的最大化點(diǎn)；其二通過在接近當(dāng)前最佳觀測值處進(jìn)行利用獲得，該點(diǎn)基于實(shí)際增量（針對(duì)后驗(yàn)均值）與預(yù)測均值（針對(duì)采集函數(shù)）的比率，在若干次子迭代中使用不同的信任域來最大化當(dāng)前后驗(yàn)均值函數(shù)。（注：原文“ration”應(yīng)為“ratio”的筆誤，此處按“比率”譯出。）該做法是合理的，因?yàn)閺拈L遠(yuǎn)來看，后驗(yàn)均值函數(shù)將收斂于實(shí)際目標(biāo)函數(shù)。本文的主要貢獻(xiàn)包括： ? 提出了一種名為基于多信任域的貝葉斯優(yōu)化（MTRBO）的全局優(yōu)化方法。 ? 確立了該方法的理論全局收斂性。

近期，在該研究方向上已有若干進(jìn)展（Regis，2016；Eriksson等人，2019；Diouane等人，2023；Li等人，2023）。這些方法與所提方法的比較將在第2節(jié)中進(jìn)行。

本文其余部分組織如下：第3節(jié)介紹高斯過程與傳統(tǒng)貝葉斯優(yōu)化的基本概念。接著，第4節(jié)詳細(xì)討論所提出的基于多信任域的貝葉斯優(yōu)化算法，第5節(jié)提供對(duì)所提方法全局收斂性的理論分析。實(shí)驗(yàn)結(jié)果以及與現(xiàn)有基于信任域的貝葉斯優(yōu)化方法的對(duì)比將在第6節(jié)中討論。最后，第7節(jié)給出對(duì)所提方法的整體結(jié)論。

2 相關(guān)工作

TRIKE (Regis, 2016) 采用了一種信任域策略，其中每次迭代通過在指定信任域內(nèi)最大化期望改進(jìn)（EI）函數(shù)來確定。該信任域的大小根據(jù)實(shí)際改進(jìn)量與預(yù)測 EI 之間的比率進(jìn)行調(diào)整。

TuRBO (Eriksson 等人, 2019) 算法構(gòu)建了一組局部模型，并使用隱式多臂老虎機(jī)方法在這些模型之間策略性地分配樣本，以進(jìn)行全局優(yōu)化。

在 TRLBO (Li 等人, 2023) 中，采用了兩個(gè)動(dòng)態(tài)調(diào)整的信任域，旨在提高算法的利用能力，同時(shí)保持其探索潛力。具體而言，一個(gè)信任域有助于最小化高斯過程中的樣本數(shù)量，而另一個(gè)則限制了候選點(diǎn)的解空間。

TREGO (Diouane 等人, 2023) 在常規(guī)的高效全局優(yōu)化（EGO）步驟與信任域內(nèi)的局部步驟之間交替進(jìn)行。

除 TREGO 外，上述所有先前的工作主要集中于在當(dāng)前最優(yōu)解附近進(jìn)行利用，以抵達(dá)局部最優(yōu)。TRIKE 采用了一種重啟策略：當(dāng) EI 低于某一閾值時(shí)，會(huì)生成新的初始觀測值，并再次在當(dāng)前最優(yōu)解附近進(jìn)行利用。TuRBO 使用獨(dú)立的高斯過程（GP）模型同時(shí)進(jìn)行多次貝葉斯優(yōu)化運(yùn)行，每個(gè)模型位于不同的信任域內(nèi)。TRLBO 使用一個(gè)信任域來減少 GP 模型中的觀測數(shù)量，并使用另一個(gè)信任域在當(dāng)前最佳觀測值附近進(jìn)行利用。該方法僅專注于局部優(yōu)化。盡管 TRIKE 和 TuRBO 具備一定的探索潛力，但探索仍無法得到保證。僅專注于利用背后的論點(diǎn)是：隨著搜索空間維度的增加，常見的采集函數(shù)主要傾向于探索。TREGO 確實(shí)考慮了探索，但該方法并未專門縮小搜索空間；默認(rèn)情況下，在每次迭代中它都會(huì)在整個(gè)搜索空間上進(jìn)行常規(guī)的全局搜索，僅在全局階段未能充分改進(jìn)解的少數(shù)幾次迭代中除外。因此，根本問題——即貝葉斯優(yōu)化在高維搜索空間下表現(xiàn)不佳——并未得到妥善解決。某些方法未能恰當(dāng)?shù)靥剿魉阉骺臻g，某些方法忽略了利用，導(dǎo)致過度探索，而某些技術(shù)則需要目標(biāo)函數(shù)具備額外的性質(zhì)。

本文提出的 MTRBO 算法通過考慮兩個(gè)信任域克服了所有這些問題：一個(gè)用于探索不確定性最高的區(qū)域，另一個(gè)用于在當(dāng)前最優(yōu)解附近進(jìn)行利用。該算法經(jīng)過精細(xì)調(diào)整，即使在探索階段提供了在最大化采集函數(shù)方面更好的查詢點(diǎn)，它也會(huì)通過在當(dāng)前最優(yōu)解附近進(jìn)行利用來避免過度探索（從而解決 TuRBO 中指出的問題）。在利用階段完成后，僅當(dāng)該點(diǎn)仍然更優(yōu)時(shí)，算法才會(huì)在下一次迭代中轉(zhuǎn)移至該點(diǎn)。MTRBO 在探索與利用之間取得了平衡，并且搜索空間僅被縮減至信任域范圍內(nèi)。

3 預(yù)備知識(shí)

在全文中，不失一般性，本文中的所有優(yōu)化問題均表述為最大化問題。如果遇到最小化目標(biāo)，則通過對(duì)函數(shù)值取負(fù)在內(nèi)部進(jìn)行轉(zhuǎn)換。

3.1 高斯過程

高斯過程（Gaussian Process, GP）是將多元高斯分布推廣到無限多個(gè)變量的情形。它是定義在函數(shù)上的分布。形式上我們可以說：

定義 1. 高斯過程是一組隨機(jī)變量的集合，其中任意有限個(gè)隨機(jī)變量均服從多元高斯分布。

核函數(shù)必須是正定的，其含義是對(duì)于任意有限的點(diǎn)集，由成對(duì)評(píng)估形成的核矩陣是正定的。存在幾種核函數(shù)，但本工作將使用平方指數(shù)核（Squared exponential kernel），也被稱為徑向基核（Radial basis kernel），這是由于其平滑性質(zhì)以及在 GP（高斯過程）文獻(xiàn)中的廣泛使用，并且它在計(jì)算上是高效的。如果已知關(guān)于目標(biāo)的先驗(yàn)知識(shí)表明其波動(dòng)劇烈，那么 Matern 核將是一個(gè)更好的選擇。平方指數(shù)核定義為

其中 s 是縮放因子， l 是長度尺度。

3.2 貝葉斯優(yōu)化

迄今為止僅討論了統(tǒng)計(jì)模型，它主要是高斯過程，并代表了對(duì)未知目標(biāo)函數(shù)的信念。然而，每次迭代中生成點(diǎn)序列的過程并未被描述。隨機(jī)選擇查詢點(diǎn)雖是可能的，但這將是一種浪費(fèi)；相反，使用的是選擇策略（也稱為采集函數(shù)），該策略利用后驗(yàn)?zāi)Ｐ蛠碇笇?dǎo)搜索選擇。

盡管文獻(xiàn)中這種早期的策略 PI (Kushner, 1964) 在目標(biāo)已知的情況下表現(xiàn)良好，然而在一般情況下，PI 過度利用而探索不足，這可能導(dǎo)致搜索過程陷入局部最優(yōu)。為了解決這個(gè)問題，接下來的采集函數(shù)考慮了改進(jìn)的期望。

3.3.2 期望改進(jìn) (EI)

期望改進(jìn)采集函數(shù)被定義為當(dāng)前函數(shù)值相對(duì)于當(dāng)前最佳函數(shù)值的改進(jìn)量為正時(shí)的期望值。

3.3.3 上置信界 (UCB)

上置信界是一種流行的樂觀方法，通過考慮后驗(yàn)均值和方差的加權(quán)和來平衡探索與利用，定義如下：

3.4 基于信任域的優(yōu)化

信任域方法用于處理優(yōu)化問題，其通過將最優(yōu)解的搜索限制在一個(gè)模型被認(rèn)為能準(zhǔn)確表示目標(biāo)函數(shù)的區(qū)域內(nèi)。關(guān)于信任域方法的最早工作可追溯至 (Levenberg, 1944)，并在 (Marquardt, 1963) 的工作之后得到普及，該方法因此被命名為 Levenberg-Marquardt 方法。關(guān)于信任域方法的詳細(xì)綜述可見 (Yuan, 2015)。與線搜索方法不同（線搜索方法先選擇一個(gè)方向，然后決定沿該方向走多遠(yuǎn)），信任域方法確定當(dāng)前點(diǎn)周圍的一個(gè)區(qū)域，在該區(qū)域內(nèi)模型是一個(gè)良好的近似，然后在該區(qū)域內(nèi)進(jìn)行優(yōu)化。在第 k 次迭代中，針對(duì)一般優(yōu)化問題的信任域算法

盡管信任域方法在解決導(dǎo)數(shù)可用的大規(guī)模非線性優(yōu)化問題時(shí)十分有用，但信任域方法的擴(kuò)展也應(yīng)用于無導(dǎo)數(shù)優(yōu)化中，在此類優(yōu)化中目標(biāo)函數(shù)的導(dǎo)數(shù)不可用，并采用了代理模型。在本工作中，我們將重點(diǎn)關(guān)注后者。

4 提出的基于信任域的貝葉斯優(yōu)化技術(shù)

如第1節(jié)所述，如果搜索空間的維度較高（通常超過20），傳統(tǒng)貝葉斯優(yōu)化將無法表現(xiàn)良好。另一方面，在貝葉斯優(yōu)化中用于指導(dǎo)搜索的基礎(chǔ)采集函數(shù)本身會(huì)變?yōu)槎嗄B(tài)的，這使得優(yōu)化變得更加困難。因此，在每次迭代中，不再搜索整個(gè)空間，而是基于采集函數(shù)搜索兩個(gè)目標(biāo)函數(shù)被認(rèn)為可能包含最優(yōu)解的區(qū)域。這大幅縮小了搜索空間，同時(shí)在該區(qū)域內(nèi)采集函數(shù)的多模態(tài)性也降低了，這使得搜索更加容易且有效。在每次迭代中考慮兩個(gè)信任域；一個(gè)用于探索，提供搜索空間中不確定性最高區(qū)域的信息，而另一個(gè)用于利用，專注于當(dāng)前最優(yōu)解的鄰域。

此處，尋找實(shí)際目標(biāo)函數(shù)值以計(jì)算實(shí)際增量是不可取的，因?yàn)槟繕?biāo)函數(shù)是昂貴的，因此增量是在后驗(yàn)均值函數(shù)上計(jì)算的，隨著觀測值數(shù)量的增加，該函數(shù)趨向于實(shí)際函數(shù)。

該算法在算法 (3) 中系統(tǒng)地給出。

5 收斂性分析

在本節(jié)中，對(duì)所提算法的收斂性質(zhì)進(jìn)行了分析。首先建立高斯過程模型的后驗(yàn)均值收斂于真實(shí)目標(biāo)函數(shù) f ( x )的條件。然后檢查探索和利用階段的行為，展示算法如何有效地平衡探索和利用以覆蓋整個(gè)搜索空間并細(xì)化有希望區(qū)域周圍的搜索。最后，利用這些結(jié)果證明算法實(shí)現(xiàn)了全局收斂，確保隨著迭代次數(shù)的增加，目標(biāo)函數(shù)的全局最優(yōu)最終被識(shí)別出來。

這一結(jié)果確保了隨著可用數(shù)據(jù)的增加，只要數(shù)據(jù)稠密地覆蓋該空間，GP 代理模型就能準(zhǔn)確逼近目標(biāo)函數(shù)。證明遵循經(jīng)典核插值理論，可在 Berlinet 和 Thomas-Agnan (2004) 中找到。

在全文中，假設(shè)目標(biāo)函數(shù)是一個(gè)昂貴但確定性的黑盒函數(shù)，且觀測到的函數(shù)值中沒有噪聲。在存在噪聲觀測的情況下，可以使用如 (Chowdhury & Gopalan, 2017) 中討論的集中不等式來證明收斂性。關(guān)于分類和混合搜索空間的全局收斂性已在 (Wan et al., 2021) 中展示。

注：定理 1 僅確立了所提方法的理論健全性，確保其非發(fā)散性，并非旨在驗(yàn)證其優(yōu)越性。支持所提方法解決高維設(shè)置下標(biāo)準(zhǔn)貝葉斯優(yōu)化問題的有效性的主要證據(jù)，由下一節(jié)中的實(shí)證結(jié)果提供。

6 實(shí)驗(yàn)與結(jié)果

實(shí)驗(yàn)的主要目標(biāo)是評(píng)估所提出的 MTRBO 算法在解決高維問題時(shí)的功效和性能。具體而言，旨在評(píng)估該算法在各種基準(zhǔn)問題（包括非凸和不可微函數(shù)）上高效定位最優(yōu)或近優(yōu)解的能力。實(shí)驗(yàn)結(jié)果還將提供關(guān)于 MTRBO 應(yīng)用于復(fù)雜、昂貴的黑盒函數(shù)時(shí)的可擴(kuò)展性和魯棒性的見解。實(shí)驗(yàn)是多方面的：首先，使用不同維度的合成測試函數(shù)分析該方法的性能，并對(duì)該方法中使用的超參數(shù)進(jìn)行敏感性分析；其次，進(jìn)行消融研究，以深入了解探索和利用等組件對(duì)方法性能的影響；然后，將該方法應(yīng)用于現(xiàn)實(shí)世界問題（如 MuJoCo 和投資組合優(yōu)化），以驗(yàn)證其在實(shí)際應(yīng)用中的可接受性。此外，還針對(duì)所提方法與基線方法進(jìn)行了統(tǒng)計(jì)顯著性測試。所有已進(jìn)行實(shí)驗(yàn)的完整細(xì)節(jié)展示在表 1 中。所有實(shí)驗(yàn)均在一臺(tái)運(yùn)行 Windows 11 系統(tǒng)、配備 Intel(R) Core(TM) i5-6500 處理器和 16 GB 內(nèi)存的 PC 上完成。

6.1 測試函數(shù)與對(duì)比算法

實(shí)驗(yàn)使用了來自名為"OptimizationTestFunctions" (Pascal, 2020) 的 Python 庫中的 17 個(gè)合成測試函數(shù)，每個(gè)函數(shù)具有不同的維度（2、20、50、100、500），用于測試。待優(yōu)化的目標(biāo)函數(shù)表達(dá)式見附錄 A。為驗(yàn)證所提方法在現(xiàn)實(shí)世界中的應(yīng)用，使用了來自 OpenAI Gym 庫的 MuJoCo HalfCheetah-v2 問題，以及投資組合優(yōu)化問題，其中股票價(jià)格的歷史數(shù)據(jù)收集自"yfinance"Python 庫。

6.2 測試函數(shù)實(shí)驗(yàn)

由于貝葉斯優(yōu)化旨在適用于昂貴函數(shù)，因此低采樣預(yù)算是可取的，即通過極少量的函數(shù)評(píng)估，盡可能準(zhǔn)確地預(yù)測實(shí)際目標(biāo)函數(shù)。在本工作中，所有對(duì)比實(shí)驗(yàn)的采樣預(yù)算均設(shè)定為 100，隨后進(jìn)行敏感性分析以檢查其對(duì)所提方法的影響。因此，在對(duì)不同維度（2, 20, 50, 100, 500）的每個(gè)測試函數(shù)進(jìn)行 100 次函數(shù)評(píng)估后，觀測所提方法（多信任域貝葉斯優(yōu)化，MTRBO）的目標(biāo)函數(shù)值，以及高效全局算法（EGO）、基于克里金的期望改進(jìn)優(yōu)化中的信任域?qū)崿F(xiàn)（TRIKE）、信任域貝葉斯優(yōu)化（TURBO）、高效全局優(yōu)化的信任域框架（TREGO）、基于信任域的局部貝葉斯優(yōu)化（TRLBO）的目標(biāo)函數(shù)值，并在所有獨(dú)立試驗(yàn)中根據(jù)各方法觀測到的最小值和最大值范圍進(jìn)行歸一化。對(duì)于所有實(shí)驗(yàn)，基線方法的超參數(shù)設(shè)置如下：

6.3 討論

為了評(píng)估所提算法的有效性，我們在不同維度的一組多樣化的測試函數(shù)上，與幾種最先進(jìn)的黑盒優(yōu)化方法進(jìn)行了全面對(duì)比。不同維度下所有測試函數(shù)的各方法歸一化分?jǐn)?shù)詳見表 3、4、5、6、7。

對(duì)于跨不同維度的大多數(shù)測試函數(shù)，所提 MTRBO 方法實(shí)現(xiàn)的平均歸一化分?jǐn)?shù)（如表 1 所定義）優(yōu)于其他方法。
該方法的最差表現(xiàn)也接近于所有方法和運(yùn)行中觀測到的整體最小值。
在許多情況下，所提方法獲得的最小值與相匹配。

為了理解所提方法中關(guān)鍵組件（即探索和利用）的單獨(dú)貢獻(xiàn)，我們進(jìn)行了一項(xiàng)消融研究。這涉及系統(tǒng)地禁用算法的一個(gè)組件并觀察其對(duì)性能的影響。移除探索會(huì)導(dǎo)致全局搜索能力變差，而移除利用則會(huì)導(dǎo)致忽略潛在區(qū)域。在 MTRBO 中同時(shí)啟用探索和利用比單獨(dú)使用探索或利用能帶來更好的結(jié)果。詳細(xì)結(jié)果可見表 2。

所提出的 MTRBO 方法已被應(yīng)用于兩個(gè)截然不同的問題領(lǐng)域：MuJoCo HalfCheetah 強(qiáng)化學(xué)習(xí)環(huán)境和金融領(lǐng)域的投資組合分配問題。在 MuJoCo HalfCheetah 任務(wù)中，其目標(biāo)是學(xué)習(xí)一種控制策略以最大化隨時(shí)間推移的累積獎(jiǎng)勵(lì)，MTRBO 的性能與幾種基線優(yōu)化方法進(jìn)行了基準(zhǔn)對(duì)比。如條形圖（圖 3）所示，它取得了比競爭方法更高的累積獎(jiǎng)勵(lì)。在投資組合分配問題中，目標(biāo)是在資產(chǎn)權(quán)重約束下最大化回報(bào)并最小化風(fēng)險(xiǎn)。盡管在測試函數(shù)的情況下未對(duì)每個(gè)變量進(jìn)行歸一化，但對(duì)于大多數(shù)現(xiàn)實(shí)世界的問題，人們需要對(duì)每個(gè)變量進(jìn)行歸一化，因?yàn)椴煌兞康姆秶赡艽嬖陲@著差異，這可能會(huì)影響優(yōu)化性能。在此投資組合優(yōu)化問題中，假設(shè)權(quán)重范圍為 [0, 1]。表 8 中展示的對(duì)比結(jié)果表明，與其他方法相比，所提方法在大多數(shù)情況下既能獲得更高的目標(biāo)函數(shù)值，也能獲得更好的夏普比率。

在圖 4 中，展示了每種方法在 100 次迭代中針對(duì)二維 Ackley 函數(shù)的進(jìn)展，數(shù)據(jù)基于 30 次獨(dú)立試驗(yàn)運(yùn)行的均值及其離散程度，旨在深入了解不同方法如何逼近最優(yōu)或近優(yōu)解，以及它們各自的收斂速度。從圖中可以明顯看出，與基線方法相比，所提出的 MTRBO 方法表現(xiàn)出更快的收斂速度。盡管 TRLBO 在初始階段的表現(xiàn)優(yōu)于 MTRBO，但它傾向于陷入局部最優(yōu)。這主要是因?yàn)?TRLBO 過度側(cè)重于利用（exploitation），并且通過采用信任域來限制高斯過程中使用的樣本數(shù)量。雖然這增強(qiáng)了利用能力，但也可能導(dǎo)致該方法忽略潛在的更好探索區(qū)域。與許多貝葉斯優(yōu)化方法類似，MTRBO 在早期階段強(qiáng)調(diào)探索（exploration）。這解釋了為什么 TRLBO 最初可能優(yōu)于 MTRBO，但最終會(huì)遭受過早收斂至局部最優(yōu)的風(fēng)險(xiǎn)。

為了說明所提方法在針對(duì)少數(shù)基準(zhǔn)函數(shù)的特定測試運(yùn)行中如何搜索空間并逐漸收斂至最優(yōu)或近優(yōu)解，展示了圖 1 和圖 2。這些圖還區(qū)分了在探索階段選擇的點(diǎn)和在利用階段選擇的點(diǎn)。從這些圖中可以看出所提方法的一個(gè)局限性：它偏向于探索。然而，這可以通過增加利用階段的子迭代次數(shù)來緩解。另一個(gè)局限性是該方法的計(jì)算復(fù)雜度——在每次迭代中，都需要將高斯過程擬合到觀測數(shù)據(jù)上，這帶來了
的成本。

為了直觀展示每次迭代后探索階段的信任域半徑如何變化，提供了圖 5。這讓我們深入了解該方法是如何探索搜索空間的：隨著觀測到的樣本越來越多，信任域的半徑正在減小。

6.4 超參數(shù)敏感性分析

此處，公式 (9) 表示均值-方差投資組合分配問題的總期望收益，該收益期望被最大化。而公式 (10) 指的是作為風(fēng)險(xiǎn)度量的總相關(guān)方差，該方差需要被最小化。受約束條件限制，與資產(chǎn)相關(guān)的權(quán)重比例之和為 1，且所有權(quán)重均為正數(shù)或零。均值-方差投資組合優(yōu)化問題定義如下：

隨著資產(chǎn)數(shù)量的增加，搜索空間也隨之增大，這意味著優(yōu)化目標(biāo)的問題正變得更加困難。隨后，所提出的優(yōu)化方法被用于解決這種高維情況下的問題?？紤]了兩個(gè)數(shù)據(jù)集，一個(gè)包含來自印度國家證券交易所（Indian National Stock Exchange）的 100 只股票，另一個(gè)包含來自紐約證券交易所（New York Stock Exchange）的 200 只股票（數(shù)據(jù)時(shí)間為 2019 年 1 月 1 日至 2024 年 1 月 1 日）。所提出的方法以及本文討論的所有用于對(duì)比的方法都被用來解決這兩個(gè)數(shù)據(jù)集的投資組合優(yōu)化問題，結(jié)果提供在表 (8) 中?；?30 次試驗(yàn)的平均夏普比率（性能度量），所提方法在兩個(gè)數(shù)據(jù)集上均給出了最佳性能。

7 結(jié)論

本研究提出了一種基于信任域的貝葉斯優(yōu)化（BO）技術(shù)，該技術(shù)既在當(dāng)前最佳目標(biāo)函數(shù)值點(diǎn)附近利用高斯后驗(yàn)均值函數(shù)，又在不確定性最高的區(qū)域進(jìn)行探索。通過在每次迭代中進(jìn)行若干次子迭代來利用后驗(yàn)均值函數(shù)，該方法避免了在利用階段計(jì)算目標(biāo)函數(shù)，同時(shí)能夠很好地了解該區(qū)域（因?yàn)閺拈L遠(yuǎn)來看，均值函數(shù)會(huì)逼近昂貴的目標(biāo)函數(shù)）。利用與探索之間的平衡既提供了對(duì)目標(biāo)函數(shù)局部特性的更好認(rèn)知，又能有效地覆蓋搜索空間。隨后，將所提方法與最先進(jìn)的基于信任域的貝葉斯優(yōu)化以及常規(guī)貝葉斯優(yōu)化在多種合成測試函數(shù)上進(jìn)行了對(duì)比，這些測試函數(shù)具有非凸、不可微等特性，且維度從 2 變化到 500 不等。在預(yù)定義的采樣預(yù)算內(nèi)，所提方法獲得的解更優(yōu)，這表明該方法能夠以較少的函數(shù)評(píng)估次數(shù)對(duì)未知的目標(biāo)函數(shù)進(jìn)行泛化，從而使其適用于計(jì)算昂貴的函數(shù)。為驗(yàn)證其在現(xiàn)實(shí)問題中的適用性，所提方法被用于解決來自不同股票市場的 100 只和 200 只股票的投資組合優(yōu)化問題。與其他方法相比，該方法在夏普比率方面的性能同樣更為優(yōu)越。

盡管本研究有望取得巨大成功，但該方法仍存在局限性；該方法有推廣至目標(biāo)存在本質(zhì)沖突的多目標(biāo)場景的空間，此外還存在計(jì)算復(fù)雜度較高的問題，且該方法略微偏向探索，但這可以通過增加利用階段的子迭代次數(shù)來加以解決。

原文鏈接：https://arxiv.org/pdf/2605.06618

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.