Minimaxity and Admissibility of Bayesian Neural Networks
貝葉斯神經(jīng)網(wǎng)絡(luò)的極小極大性與容許性
https://arxiv.org/pdf/2604.04673
![]()
![]()
摘要
貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)為深度學(xué)習(xí)模型中的推斷提供了一種自然的概率表述。盡管它們廣受歡迎,但從統(tǒng)計決策理論的視角來看,其最優(yōu)性所受到的關(guān)注卻十分有限。在本文中,我們研究了在二次損失下,由深度全連接前饋ReLU貝葉斯神經(jīng)網(wǎng)絡(luò)在正態(tài)位置模型中誘導(dǎo)出的決策規(guī)則。我們證明,對于固定的先驗尺度,所誘導(dǎo)的貝葉斯決策規(guī)則并非極小極大最優(yōu)的。隨后,我們在BNN先驗的有效輸出方差上提出了一種超先驗,該超先驗?zāi)墚a(chǎn)生超調(diào)和的平方根邊際密度,從而證明所得的決策規(guī)則同時具備容許性與極小極大性。我們進(jìn)一步將這些結(jié)果從二次損失設(shè)定擴展到具有庫爾貝克-萊布勒(KL)損失的預(yù)測密度估計問題。最后,我們通過數(shù)值模擬驗證了我們的理論發(fā)現(xiàn)。
關(guān)鍵詞: 貝葉斯神經(jīng)網(wǎng)絡(luò);貝葉斯估計;極小極大性;多元正態(tài)均值;恰當(dāng)貝葉斯;二次損失。
1 引言
在過去幾年中,神經(jīng)網(wǎng)絡(luò)迅速普及,并在圖像分類、時間序列預(yù)測和語言建模等廣泛任務(wù)中展現(xiàn)出卓越的性能。它們的成功在很大程度上歸功于其建模靈活性,以及提高了其可操作性的計算硬件進(jìn)步,例如圖形處理單元(GPU)的廣泛應(yīng)用。貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)通過在權(quán)重上設(shè)置先驗分布來擴展標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò),從而能夠?qū)崿F(xiàn)概率建模和不確定性量化,例如通過可信區(qū)間[2, 22]。憑借其靈活性和表示不確定性的能力,BNNs被廣泛應(yīng)用于醫(yī)學(xué)、金融和天氣預(yù)報等對不確定性至關(guān)重要的領(lǐng)域。例如,[16]使用BNN對乳腺癌術(shù)后患者的預(yù)后進(jìn)行分析。類似地,[7]使用BNNs預(yù)測新冠疫情爆發(fā)前及期間的股票價格。在[17]中,開發(fā)了兩種BNNs:一種用于預(yù)測嚴(yán)重冰雹的尺寸,另一種用于對冰雹尺寸進(jìn)行分類。
大量文獻(xiàn)考察了BNNs的理論性質(zhì)。例如,[21]表明,在極限情況下,具有無限多隱藏單元的BNNs會收斂于高斯過程。隨后的研究(包括[19])更深入地探討了這種高斯過程行為。[12]表明,在訓(xùn)練和推理過程中應(yīng)用Dropout近似對應(yīng)于深度高斯過程中的貝葉斯推斷。其他研究方向建立了后驗集中結(jié)果。例如,[23]針對尖峰-平板先驗證明了此類結(jié)果。類似地,[8]建立了具有重尾先驗分布的BNNs的后驗收縮結(jié)果,并將這些結(jié)果擴展到變分貝葉斯的類比形式。然而,許多理論研究依賴于高度技術(shù)化且不現(xiàn)實的假設(shè),這限制了它們的適用性。例如,與許多理論貝葉斯深度學(xué)習(xí)文獻(xiàn)不同,我們的分析不需要任何深度或?qū)挾入S樣本量增長的網(wǎng)絡(luò)架構(gòu)縮放設(shè)定。該結(jié)果適用于任意固定的有限架構(gòu),這使其與實際應(yīng)用中使用的設(shè)置直接相關(guān)。
盡管關(guān)于BNNs的理論研究十分豐富,但從統(tǒng)計決策理論視角出發(fā)的研究卻寥寥無幾。統(tǒng)計決策理論為在不確定性下選擇估計量提供了一個原則性框架。這一視角有助于解釋BNNs在各任務(wù)中強大的實證表現(xiàn),并為架構(gòu)選擇(如先驗分布和網(wǎng)絡(luò)深度)提供指導(dǎo)。在本工作中,我們從決策理論的視角研究BNNs的性能。
具體而言,我們研究了它們在二次損失下的正態(tài)位置模型中的風(fēng)險。盡管正態(tài)位置問題相對簡單,但它已足以讓我們識別出哪些BNN建模選擇能在極小極大意義上產(chǎn)生性能良好的估計量。關(guān)于正態(tài)位置問題中估計量的極小極大最優(yōu)性已有豐富的文獻(xiàn),涵蓋了多種極小極大標(biāo)準(zhǔn)和證明技術(shù),這些內(nèi)容凸顯了先驗分布、誘導(dǎo)的后驗分布以及所得決策規(guī)則的影響。因此,正態(tài)位置問題提供了一個放大鏡,突顯了BNNs的哪些方面表現(xiàn)良好,以及標(biāo)準(zhǔn)BNN先驗在何處可以改進(jìn),例如通過引入收縮先驗。
BNNs面臨的一個核心挑戰(zhàn)是在網(wǎng)絡(luò)權(quán)重上構(gòu)建信息豐富的恰當(dāng)先驗,這些先驗既要在計算上易于處理,又要傾向于產(chǎn)生具有理想頻率學(xué)派性質(zhì)的解。事實上,[22]將先驗設(shè)定視為貝葉斯深度學(xué)習(xí)中最突出的未解決問題之一,并強調(diào)網(wǎng)絡(luò)參數(shù)上的先驗會誘導(dǎo)出函數(shù)空間行為,而該行為最終主導(dǎo)了泛化能力。在此背景下,我們的貢獻(xiàn)是在一個典型設(shè)定中,為這一問題提供清晰的決策理論解釋。具體而言,我們證明了標(biāo)準(zhǔn)BNNs所誘導(dǎo)的貝葉斯規(guī)則在二次損失下的正態(tài)位置問題中并非極小極大最優(yōu)的,這表明廣泛使用的貝葉斯設(shè)定可能無法滿足這一基本的最優(yōu)性標(biāo)準(zhǔn)。關(guān)鍵在于,這一缺陷并非貝葉斯神經(jīng)建模本身所固有的,而是源于超先驗的選擇:在適當(dāng)?shù)某闰炏拢T導(dǎo)的貝葉斯規(guī)則同時具備極小極大性和容許性。通過將這些結(jié)果擴展到預(yù)測密度估計,我們進(jìn)一步表明,先驗設(shè)計的影響不僅限于點估計,還會直接影響預(yù)測性能。更廣泛地說,這些發(fā)現(xiàn)表明,貝葉斯深度學(xué)習(xí)的未來不僅取決于使神經(jīng)貝葉斯過程更具表達(dá)力,還取決于確保其所采用的先驗?zāi)軌蛘T導(dǎo)出決策理論上嚴(yán)謹(jǐn)?shù)囊?guī)則。通過這種方式,本文解決了當(dāng)代貝葉斯深度學(xué)習(xí)中的一個核心關(guān)切:用理論證明的標(biāo)準(zhǔn)取代啟發(fā)式的先驗選擇,以判定神經(jīng)過程何時符合、何時不符合決策理論的合理性。
鑒于[20]提出的先驗-數(shù)據(jù)擬合網(wǎng)絡(luò)(PFNs)的興起,這一視角尤為及時。PFNs通過訓(xùn)練Transformer來近似對從先驗中采樣的任務(wù)進(jìn)行貝葉斯預(yù)測。諸如TabPFN [15]等方法表明,該范式在實踐中具有極強的威力,基于Transformer的PFN在小型表格預(yù)測問題上達(dá)到了最先進(jìn)的性能。正因為PFNs學(xué)習(xí)近似由所選先驗誘導(dǎo)的預(yù)測分布,我們的結(jié)果表明,先驗設(shè)定不僅僅是一種建模上的便利,而是決定所學(xué)預(yù)測器是否具備堅實決策理論基礎(chǔ)的核心因素。從這個意義上講,PFNs的興起使得本分析尤為重要:隨著PFN類方法日益突出,理解底層先驗何時能產(chǎn)生極小極大且容許的規(guī)則變得至關(guān)重要。
本文的結(jié)構(gòu)安排如下。在第1節(jié)中,我們介紹符號記號,回顧貫穿全文所使用的正態(tài)位置模型的統(tǒng)計決策理論結(jié)果,描述由固定尺度ReLU BNN所誘導(dǎo)的先驗密度的一般形式,并推導(dǎo)出該先驗的一種更為便捷的正態(tài)分布尺度混合表示形式。在第2節(jié)中,我們證明由固定尺度ReLU BNN先驗所誘導(dǎo)的邊際密度的平方根并非超調(diào)和的。隨后,我們推導(dǎo)相應(yīng)的決策規(guī)則,并證明其并非極小極大最優(yōu)的。在第3節(jié)中,我們在BNN先驗的尺度上引入超先驗,并證明所得先驗會誘導(dǎo)出一個極小極大決策規(guī)則。在第4節(jié)中,我們將上述結(jié)果擴展至庫爾貝克-萊布勒(KL)損失下的預(yù)測密度估計問題,表明所提出的超先驗在該設(shè)定下同樣能誘導(dǎo)出一個極小極大規(guī)則。最后,在第5節(jié)中,我們通過模擬實驗闡明我們的理論結(jié)果,將固定尺度BNN先驗與所提出的層次BNN先驗,同由其他流行先驗(包括采用Dropout的BNN以及馬蹄先驗)所誘導(dǎo)的決策規(guī)則進(jìn)行比較。證明概要列于正文,完整證明則置于補充材料中。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2 固定尺度的深度貝葉斯 ReLU 網(wǎng)絡(luò)不是極小極大的
![]()
歐幾里得空間上的徑向函數(shù)是指其在任一點處的值僅取決于該點到某一固定中心的距離的函數(shù)。眾所周知,徑向函數(shù)滿足以下微分方程。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
極小極大性提供了最壞情況風(fēng)險的一致界,而超調(diào)和性是邊緣密度平方根的一個逐點準(zhǔn)則。當(dāng)超調(diào)和性不成立時,它僅表明進(jìn)入密度的局部量在樣本空間的某些區(qū)域變得不利,這往往會導(dǎo)致該區(qū)域的風(fēng)險膨脹。然而,由于風(fēng)險是對所有數(shù)據(jù)值的平均,違反該準(zhǔn)則的區(qū)域可能攜帶可忽略的概率質(zhì)量,因此其本身未必排除極小極大性。盡管如此,超調(diào)和性的失敗是一個警示信號,需要單獨的論證來得出誘導(dǎo)決策規(guī)則不是極小極大的結(jié)論。
![]()
從這個表達(dá)式來看,該估計量具有自然的收縮形式,因為它向 0 收縮。然而,極小極大性取決于在 ∣ ∣ Y ∣ ∣上的一致性收縮輪廓。正如我們在證明中所示,當(dāng) ∣ ∣ θ ∣ ∣ ∣ 很大時,風(fēng)險超過了極小極大水平。這是因為固定尺度誘導(dǎo)出的先驗預(yù)測密度尾部過輕,導(dǎo)致對于大信號的收縮適應(yīng)性不足。這意味著固定尺度的 BNN 先驗可能會導(dǎo)致過程在最壞情況下的表現(xiàn)次優(yōu),盡管它們在典型數(shù)據(jù)集上表現(xiàn)良好。因此,在第 3 節(jié)中,我們引入尺度混合以恢復(fù)極小極大保證,并針對所有 ∣ ∣ θ ∣ ∣ > 0達(dá)到極小極大風(fēng)險(或更低)。我們在補充材料中提供了定理 2.6 的完整證明。我們首先將固定尺度 BNN 的貝葉斯規(guī)則重寫為 Barancik 形式:
![]()
![]()
![]()
![]()
![]()
![]()
3 誘導(dǎo)極小極大貝葉斯決策規(guī)則的尺度超先驗示例
從第 2 節(jié)可知,由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)先驗所誘導(dǎo)的邊緣密度不是超調(diào)和的,且其誘導(dǎo)的決策規(guī)則也不是極小極大的。直觀地說,這是由于 BNN 先驗密度的尾部過輕所致。因此,我們在尺度上設(shè)置一個超先驗以誘導(dǎo)足夠重的尾部,從而得到一種極小極大決策規(guī)則:當(dāng) ∣ ∣ y ∣ ∣ 很大時,該決策規(guī)則趨向于 y 。我們選擇 BetaPrime![]()
先驗,因為它具有重尾特性,允許通過增加方差來解釋大信號,而不是對其進(jìn)行強制收縮。由此得出以下定理。
![]()
![]()
![]()
值得注意的是,盡管重尾分布在本文中有理論動機,但在貝葉斯深度學(xué)習(xí)中也觀察到它們在實踐中出現(xiàn)。特別是,眾所周知,在使用隨機梯度下降訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)期間,權(quán)重變得越來越重尾。因此,增加深度,更重要的是,引入適當(dāng)?shù)姆讲畛闰灴赡苡兄跍p輕可能錯誤設(shè)定的先驗(例如權(quán)重的標(biāo)準(zhǔn)高斯先驗)的影響,正如第 1.4 節(jié)所討論的那樣。關(guān)于這種行為及其與冷后驗效應(yīng)(cold posterior effect)的關(guān)系的更多信息,請參見 [9]。
鑒于混合密度的形式,我們還可以推導(dǎo)出誘導(dǎo)的貝葉斯決策規(guī)則的容許性。
![]()
![]()
Strawderman 先驗 [26] 在正態(tài)均值問題的收縮因子上放置了一個 Beta 超先驗,誘導(dǎo)出了一個既是極小極大又是容許的正常貝葉斯估計量。其關(guān)鍵機制在于誘導(dǎo)出的邊緣密度具有足夠重的尾部——具體而言,其平方根是超調(diào)和的(superharmonic)——這正是保證極小極大性的條件。在 BNN 設(shè)定中,對輸出方差采用 Beta-Prime 超先驗同樣產(chǎn)生了一個超調(diào)和的平方根邊緣密度,從而導(dǎo)出了一個極小極大容許貝葉斯規(guī)則。因此,Beta-Prime 構(gòu)造是 Strawderman 先驗的自然類比,并已針對網(wǎng)絡(luò)架構(gòu)產(chǎn)生的參數(shù)化進(jìn)行了適配。
4 預(yù)測密度問題中的極小極大性和容許性
在本節(jié)中,我們考慮 [5] 和 [14] 中討論的估計預(yù)測密度的問題。特別是,我們可以將正態(tài)位置模型在二次損失下的容許貝葉斯決策規(guī)則擴展到預(yù)測密度估計設(shè)定中。
4.1 決策問題
![]()
![]()
4.2 極小極大性與容許性
在本節(jié)中,我們證明:由在有效輸出方差上具有 BetaPrime 超先驗的深度 ReLU BNN 所產(chǎn)生的先驗分布所誘導(dǎo)的貝葉斯預(yù)測密度是極小極大的(minimax)且是容許的(admissible)。
![]()
![]()
我們已經(jīng)證明,由帶有 BetaPrime 超先驗的深度 ReLU 貝葉斯神經(jīng)網(wǎng)絡(luò)所產(chǎn)生的先驗,誘導(dǎo)出了一個極小極大決策規(guī)則,該規(guī)則既適用于在二次風(fēng)險下估計正態(tài)位置模型的均值,也適用于在 Kullback-Leibler 風(fēng)險下的正態(tài)位置模型設(shè)定中估計預(yù)測密度。我們的結(jié)果表明,極小極大性在方差重縮放下是穩(wěn)定的。也就是說,預(yù)測改進(jìn)并不綁定于特定的噪聲水平,并且避免了我們需要針對每種預(yù)測方差組合重新檢查超調(diào)和性條件。特別是,鑒于 [14] 中的引理 2,該先驗分布在這兩個問題中通過收縮默認(rèn)估計量,誘導(dǎo)出了類似的收縮行為。在二次風(fēng)險設(shè)定中,這是最大似然估計量 Y ,而在 Kullback-Leibler 風(fēng)險設(shè)定中,這是在均勻先驗下的貝葉斯預(yù)測密度。我們還證明了誘導(dǎo)出的貝葉斯預(yù)測密度是容許的。
![]()
5 模擬示例
![]()
5.1 徑向決策規(guī)則模擬
回顧第 2 節(jié),由固定尺度貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)誘導(dǎo)的決策規(guī)則是
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5.2 依賴于稀疏性的模擬
![]()
![]()
![]()
![]()
![]()
![]()
![]()
6 結(jié)論
我們已經(jīng)證明,在二次損失下,由深度、固定尺度的 ReLU BNN 誘導(dǎo)的決策規(guī)則在正態(tài)位置模型中不是極小極大的(minimax),因為先驗預(yù)測密度具有拉伸指數(shù)尾部,這對大信號施加了過度保守的收縮。隨后,我們在網(wǎng)絡(luò)先驗的有效輸出方差上提出了一個 BetaPrime 超先驗,它通過誘導(dǎo)足夠重的尾部來恢復(fù)極小極大性:它對弱信號向原點強烈收縮,并對大信號足夠快地減少收縮。我們進(jìn)一步確立了誘導(dǎo)貝葉斯規(guī)則的容許性(admissibility),并將極小極大性和容許性結(jié)果都擴展到了 Kullback–Leibler 損失下的預(yù)測密度估計。這些理論性質(zhì)在二次損失下的數(shù)值模擬研究中得到了驗證。未來工作的一個有趣方向是刻畫那些誘導(dǎo)極小極大決策規(guī)則的更廣泛的超先驗族;一條自然的途徑是利用 Fox-H 函數(shù) [18],它包含了許多超先驗族,包括此處提出的 BetaPrime 超先驗。
原文鏈接:https://arxiv.org/pdf/2604.04673
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.