Laplace Approximation for Bayesian Tensor Network Kernel Machines
貝葉斯張量網(wǎng)絡(luò)核機的拉普拉斯近似
https://arxiv.org/pdf/2604.26673
![]()
摘要
在存在模糊或分布外輸入的情況下,不確定性估計對于魯棒決策至關(guān)重要。高斯過程(GPs)是經(jīng)典的基于核的模型,提供原理性的不確定性量化,并在中小規(guī)模數(shù)據(jù)集上表現(xiàn)良好。另一種方法是在張量網(wǎng)絡(luò)假設(shè)下構(gòu)建權(quán)重空間學(xué)習(xí)問題,從而產(chǎn)生可擴(kuò)展的張量網(wǎng)絡(luò)核機器。然而,這些假設(shè)破壞了高斯性,使標(biāo)準(zhǔn)概率推斷復(fù)雜化。這提出了一個根本性問題:張量網(wǎng)絡(luò)核機器如何提供原理性的不確定性估計?我們提出了一種新穎的貝葉斯張量網(wǎng)絡(luò)核機器(LA-TNKM),它采用(線性化)拉普拉斯近似進(jìn)行貝葉斯推斷。一組全面的數(shù)值實驗表明,所提出的方法在多樣化的 UCI 回歸基準(zhǔn)測試中始終匹配或超越高斯過程和貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs),突顯了其有效性和實際相關(guān)性。
1 引言
機器學(xué)習(xí)(ML)系統(tǒng)區(qū)分不同感興趣對象的能力在多個領(lǐng)域提供了重要價值:從金融 [Dixon et al., 2020] 和醫(yī)療 [Shehab et al., 2022] 應(yīng)用,到自然語言處理 [Nam and Jang, 2024] 和推薦系統(tǒng) [Roy and Dutta, 2022]。例如,便攜式個性化醫(yī)療助手可以利用生理測量數(shù)據(jù)——如心率、年齡、身高和體重——作為輸入特征,以生成診斷預(yù)測或疾病風(fēng)險評估。然而,在實際應(yīng)用中,一個關(guān)鍵組件常被忽視:不確定性估計(UE)[Li et al., 2012, Abdar et al., 2021]。構(gòu)建不確定性感知模型的方法之一是通過概率建模 [Murphy, 2022],其目標(biāo)是估計以下預(yù)測分布:
![]()
![]()
![]()
在本工作中,我們引入了貝葉斯張量網(wǎng)絡(luò)核機器(LA-TNKM),它在單一框架內(nèi)統(tǒng)一了變分推斷和(線性化)拉普拉斯近似。關(guān)鍵思想是用在局部最大值處中心化的高斯分布來局部近似模型參數(shù)上的后驗,其中協(xié)方差捕獲局部曲率。這種近似使得預(yù)測分布 (1) 的估計成為可能,并通過變分推斷框架促進(jìn)了超參數(shù)評估。在此基礎(chǔ)上,本工作的主要貢獻(xiàn)是:
- 我們引入了 LA-TNKM,一種新穎的概率張量網(wǎng)絡(luò)模型,它能夠在保持與標(biāo)準(zhǔn)基于 MAP 的張量網(wǎng)絡(luò)核機器相當(dāng)?shù)挠嬎愠杀镜耐瑫r,實現(xiàn)不確定性感知預(yù)測。
- 我們在張量網(wǎng)絡(luò)框架內(nèi)系統(tǒng)地評估了各種 Hessian 近似技術(shù)——Full、Generalized Gauss–Newton、Block-Diagonal、Diagonal 和 Last Core——突顯了它們對內(nèi)存需求、計算效率和預(yù)測性能的影響。
- 我們展示了 LA-TNKM 在 UCI 回歸基準(zhǔn)上的競爭性表現(xiàn),在那里它始終匹配或優(yōu)于高斯過程、貝葉斯神經(jīng)網(wǎng)絡(luò)和其他基于張量網(wǎng)絡(luò)的回歸方法,突顯了其魯棒性和實際效用。
2 背景
![]()
![]()
![]()
2.1 張量網(wǎng)絡(luò)
張量網(wǎng)絡(luò)(TNs)[Kolda and Bader, 2009, Cichocki, 2014] 的基本思想是通過將高維張量 W W 分解為由共享索引連接的較小低秩張量(核心)網(wǎng)絡(luò),從而有效地表示和操縱它們。在本工作中,我們專注于規(guī)范多向分解(Canonical Polyadic Decomposition)。
![]()
2.2 張量網(wǎng)絡(luò)核機器
考慮以下線性回歸模型:
![]()
![]()
![]()
![]()
優(yōu)化張量網(wǎng)絡(luò)模型的常用方法包括專用算法,例如交替最小二乘法(ALS)[Uschmajew, 2012, Wesel and Batselier, 2021] 和黎曼優(yōu)化 [Novikov et al., 2018],這些方法利用多線性張量結(jié)構(gòu)以實現(xiàn)高效收斂。也可以采用通用的一階或二階基于梯度的方法。
2.3 貝葉斯推斷
貝葉斯推斷通過貝葉斯法則利用概率分布對參數(shù)上的不確定性進(jìn)行建模 [Murphy, 2022]:
![]()
![]()
![]()
3 貝葉斯張量網(wǎng)絡(luò)核機器
我們考慮以下判別模型:
![]()
這允許對真實后驗進(jìn)行高效近似。關(guān)于變分推斷和超先驗的詳細(xì)信息見附錄 A.2 節(jié)。
3.1 張量網(wǎng)絡(luò)參數(shù)后驗
貝葉斯推斷的一個核心要素是模型參數(shù)上的后驗分布 (6),它同時捕捉了模型的容量及其不確定性。計算后驗預(yù)測分布 (7) 需要計算一個高維積分,這通常是難以處理的。為此,我們采用拉普拉斯近似 [Bishop, 2006] 來獲得一個可處理的后驗估計,將 p ( v ∣ D ) 近似為 q ( v ) 如下:
![]()
![]()
![]()
該過程重復(fù)進(jìn)行若干輪次(sweeps)。
3.2 海森矩陣近似
拉普拉斯近似的一個關(guān)鍵且具有技術(shù)挑戰(zhàn)性的方面是計算海森矩陣 ,如公式 (12) 所定義。借鑒貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)在海森矩陣估計方面的最新進(jìn)展 [Kristiadi et al., 2020, Daxberger et al., 2021, Cinquin et al., 2025],我們在張量網(wǎng)絡(luò)建模范式內(nèi)對幾種海森近似類型進(jìn)行了分類與比較——全矩陣(Full)、廣義高斯-牛頓(GGN)、塊對角(Block)、對角(Diag)和最后核心(Last)——從內(nèi)存占用和訓(xùn)練復(fù)雜度方面進(jìn)行分析。
全海森矩陣。 利用 CPD 核機器的多線性性質(zhì),我們獲得了如下定理所陳述的完整海森矩陣。
![]()
![]()
GGN 海森矩陣。 廣義高斯-牛頓近似的主要優(yōu)勢在于其半正定性,這與全海森矩陣形成對比,后者可能同時包含正特征值和負(fù)特征值 [Immer et al., 2021]。該近似的公式給出如下:
![]()
塊對角海森矩陣。 塊對角海森矩陣近似的使用在貝葉斯神經(jīng)網(wǎng)絡(luò)文獻(xiàn)中已被證明是有效的 [Martens and Grosse, 2015, Botev et al., 2017]。關(guān)鍵假設(shè)是 CPD 核心(類似于貝葉斯神經(jīng)網(wǎng)絡(luò)中的獨立層)相互獨立,這使得后驗可以表示為:
![]()
對角海森矩陣。 在這種情況下,我們假設(shè)所有模型權(quán)重都是相互獨立的(即平均場方法 [Konstantinidis et al., 2022]),因此后驗分布由一個對角多元高斯分布近似:
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
3.3 預(yù)測分布
無論選擇何種后驗近似(例如,海森矩陣形式),預(yù)測分布都是通過對近似后驗 q ( v ) 與條件模型進(jìn)行積分獲得的:
![]()
![]()
![]()
![]()
![]()
我們將標(biāo)準(zhǔn)預(yù)測分布記為 LA,將其線性化對應(yīng)物記為 LLA。在 4.1 節(jié)中,我們實證比較了它們針對張量網(wǎng)絡(luò)核機器的預(yù)測性能。
4 數(shù)值實驗
![]()
4.1 消融研究
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 合成數(shù)據(jù)上的不確定性
![]()
![]()
![]()
![]()
5 相關(guān)工作
我們的貢獻(xiàn)位于貝葉斯神經(jīng)網(wǎng)絡(luò)(BNNs)、其與高斯過程(GPs)的聯(lián)系以及基于張量網(wǎng)絡(luò)(TNs)的概率方法的交叉點。Khan et al. [2019] 建立了 BNNs 與 GPs 之間的理論聯(lián)系,表明通過拉普拉斯或變分推斷獲得的高斯后驗近似對應(yīng)于高斯過程回歸后驗。局部線性化及其與 BNNs 中廣義高斯-牛頓(GGN)近似的聯(lián)系由 Immer et al. [2021] 探索,并在 Antoran et al. [2022] 中進(jìn)一步擴(kuò)展,作者在文中解決了經(jīng)典拉普拉斯近似假設(shè)與現(xiàn)代神經(jīng)網(wǎng)絡(luò)行為之間的不匹配問題。Miani et al. [2025] 提出了另一種視角,他們提出了一種可擴(kuò)展的、無矩陣的方法,用于在海森矩陣的零空間中構(gòu)建貝葉斯近似,以緩解欠擬合問題。
另一條相關(guān)研究路線聚焦于概率張量網(wǎng)絡(luò)模型。Guo and Draper [2021] 將拉普拉斯近似應(yīng)用于具有網(wǎng)絡(luò)參數(shù)貝葉斯先驗的張量列車模型。相比之下,Konstantinidis et al. [2022] 為基于 CPD 的模型提出了一個可擴(kuò)展的變分推斷框架,使用低秩和克羅內(nèi)克結(jié)構(gòu)的后驗來平衡表達(dá)能力與可處理性。作為這些方法的補充,Menzen et al. [2023] 通過將問題投影到由張量網(wǎng)絡(luò)定義的低維子空間中、在其中執(zhí)行貝葉斯推斷、然后投影回原始空間以進(jìn)行高斯過程預(yù)測,從而近似高斯過程。
6 結(jié)論
在本文中,我們開發(fā)了一種新穎的貝葉斯張量網(wǎng)絡(luò)核機器(LA-TNKM),它為其預(yù)測提供不確定性估計。我們將拉普拉斯近似應(yīng)用于 CPD 權(quán)重后驗分布,以使貝葉斯推斷可處理,并引入了幾種類型的海森矩陣近似,突顯了它們各自的優(yōu)勢與局限性。我們通過實驗驗證了預(yù)測函數(shù)局部線性化的益處,并將所提出的 LA-TNKM 模型與基于高斯過程和貝葉斯神經(jīng)網(wǎng)絡(luò)的基線方法進(jìn)行了比較。結(jié)果表明,LA-TNKM 在多樣化的數(shù)據(jù)集和應(yīng)用中均具有競爭力和有效性。未來的工作可專注于改進(jìn)優(yōu)化策略(尋找最大后驗估計)、設(shè)計問題相關(guān)的先驗,以及探索替代的張量網(wǎng)絡(luò)架構(gòu)(例如分層 Tucker 分解),以增強靈活性和性能。
原文鏈接:https://arxiv.org/pdf/2604.26673
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.