網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

貝葉斯張量網(wǎng)絡(luò)核機的拉普拉斯近似

2026-05-04 08:59:12　來源: CreateAMind

上海舉報

分享至

Laplace Approximation for Bayesian Tensor Network Kernel Machines

貝葉斯張量網(wǎng)絡(luò)核機的拉普拉斯近似

https://arxiv.org/pdf/2604.26673

摘要

在存在模糊或分布外輸入的情況下，不確定性估計對于魯棒決策至關(guān)重要。高斯過程（GPs）是經(jīng)典的基于核的模型，提供原理性的不確定性量化，并在中小規(guī)模數(shù)據(jù)集上表現(xiàn)良好。另一種方法是在張量網(wǎng)絡(luò)假設(shè)下構(gòu)建權(quán)重空間學(xué)習(xí)問題，從而產(chǎn)生可擴(kuò)展的張量網(wǎng)絡(luò)核機器。然而，這些假設(shè)破壞了高斯性，使標(biāo)準(zhǔn)概率推斷復(fù)雜化。這提出了一個根本性問題：張量網(wǎng)絡(luò)核機器如何提供原理性的不確定性估計？我們提出了一種新穎的貝葉斯張量網(wǎng)絡(luò)核機器（LA-TNKM），它采用（線性化）拉普拉斯近似進(jìn)行貝葉斯推斷。一組全面的數(shù)值實驗表明，所提出的方法在多樣化的 UCI 回歸基準(zhǔn)測試中始終匹配或超越高斯過程和貝葉斯神經(jīng)網(wǎng)絡(luò)（BNNs），突顯了其有效性和實際相關(guān)性。

1 引言

機器學(xué)習(xí)（ML）系統(tǒng)區(qū)分不同感興趣對象的能力在多個領(lǐng)域提供了重要價值：從金融 [Dixon et al., 2020] 和醫(yī)療 [Shehab et al., 2022] 應(yīng)用，到自然語言處理 [Nam and Jang, 2024] 和推薦系統(tǒng) [Roy and Dutta, 2022]。例如，便攜式個性化醫(yī)療助手可以利用生理測量數(shù)據(jù)——如心率、年齡、身高和體重——作為輸入特征，以生成診斷預(yù)測或疾病風(fēng)險評估。然而，在實際應(yīng)用中，一個關(guān)鍵組件常被忽視：不確定性估計（UE）[Li et al., 2012, Abdar et al., 2021]。構(gòu)建不確定性感知模型的方法之一是通過概率建模 [Murphy, 2022]，其目標(biāo)是估計以下預(yù)測分布：

在本工作中，我們引入了貝葉斯張量網(wǎng)絡(luò)核機器（LA-TNKM），它在單一框架內(nèi)統(tǒng)一了變分推斷和（線性化）拉普拉斯近似。關(guān)鍵思想是用在局部最大值處中心化的高斯分布來局部近似模型參數(shù)上的后驗，其中協(xié)方差捕獲局部曲率。這種近似使得預(yù)測分布 (1) 的估計成為可能，并通過變分推斷框架促進(jìn)了超參數(shù)評估。在此基礎(chǔ)上，本工作的主要貢獻(xiàn)是：

我們引入了 LA-TNKM，一種新穎的概率張量網(wǎng)絡(luò)模型，它能夠在保持與標(biāo)準(zhǔn)基于 MAP 的張量網(wǎng)絡(luò)核機器相當(dāng)?shù)挠嬎愠杀镜耐瑫r，實現(xiàn)不確定性感知預(yù)測。
我們在張量網(wǎng)絡(luò)框架內(nèi)系統(tǒng)地評估了各種 Hessian 近似技術(shù)——Full、Generalized Gauss–Newton、Block-Diagonal、Diagonal 和 Last Core——突顯了它們對內(nèi)存需求、計算效率和預(yù)測性能的影響。
我們展示了 LA-TNKM 在 UCI 回歸基準(zhǔn)上的競爭性表現(xiàn)，在那里它始終匹配或優(yōu)于高斯過程、貝葉斯神經(jīng)網(wǎng)絡(luò)和其他基于張量網(wǎng)絡(luò)的回歸方法，突顯了其魯棒性和實際效用。

2 背景

2.1 張量網(wǎng)絡(luò)

張量網(wǎng)絡(luò)（TNs）[Kolda and Bader, 2009, Cichocki, 2014] 的基本思想是通過將高維張量 W W 分解為由共享索引連接的較小低秩張量（核心）網(wǎng)絡(luò)，從而有效地表示和操縱它們。在本工作中，我們專注于規(guī)范多向分解（Canonical Polyadic Decomposition）。

2.2 張量網(wǎng)絡(luò)核機器

考慮以下線性回歸模型：

優(yōu)化張量網(wǎng)絡(luò)模型的常用方法包括專用算法，例如交替最小二乘法（ALS）[Uschmajew, 2012, Wesel and Batselier, 2021] 和黎曼優(yōu)化 [Novikov et al., 2018]，這些方法利用多線性張量結(jié)構(gòu)以實現(xiàn)高效收斂。也可以采用通用的一階或二階基于梯度的方法。

2.3 貝葉斯推斷

貝葉斯推斷通過貝葉斯法則利用概率分布對參數(shù)上的不確定性進(jìn)行建模 [Murphy, 2022]：

3 貝葉斯張量網(wǎng)絡(luò)核機器

我們考慮以下判別模型：

這允許對真實后驗進(jìn)行高效近似。關(guān)于變分推斷和超先驗的詳細(xì)信息見附錄 A.2 節(jié)。

3.1 張量網(wǎng)絡(luò)參數(shù)后驗

貝葉斯推斷的一個核心要素是模型參數(shù)上的后驗分布 (6)，它同時捕捉了模型的容量及其不確定性。計算后驗預(yù)測分布 (7) 需要計算一個高維積分，這通常是難以處理的。為此，我們采用拉普拉斯近似 [Bishop, 2006] 來獲得一個可處理的后驗估計，將 p ( v ∣ D ) 近似為 q ( v ) 如下：

該過程重復(fù)進(jìn)行若干輪次（sweeps）。

3.2 海森矩陣近似

拉普拉斯近似的一個關(guān)鍵且具有技術(shù)挑戰(zhàn)性的方面是計算海森矩陣，如公式 (12) 所定義。借鑒貝葉斯神經(jīng)網(wǎng)絡(luò)（BNNs）在海森矩陣估計方面的最新進(jìn)展 [Kristiadi et al., 2020, Daxberger et al., 2021, Cinquin et al., 2025]，我們在張量網(wǎng)絡(luò)建模范式內(nèi)對幾種海森近似類型進(jìn)行了分類與比較——全矩陣（Full）、廣義高斯-牛頓（GGN）、塊對角（Block）、對角（Diag）和最后核心（Last）——從內(nèi)存占用和訓(xùn)練復(fù)雜度方面進(jìn)行分析。

全海森矩陣。 利用 CPD 核機器的多線性性質(zhì)，我們獲得了如下定理所陳述的完整海森矩陣。

GGN 海森矩陣。 廣義高斯-牛頓近似的主要優(yōu)勢在于其半正定性，這與全海森矩陣形成對比，后者可能同時包含正特征值和負(fù)特征值 [Immer et al., 2021]。該近似的公式給出如下：

塊對角海森矩陣。 塊對角海森矩陣近似的使用在貝葉斯神經(jīng)網(wǎng)絡(luò)文獻(xiàn)中已被證明是有效的 [Martens and Grosse, 2015, Botev et al., 2017]。關(guān)鍵假設(shè)是 CPD 核心（類似于貝葉斯神經(jīng)網(wǎng)絡(luò)中的獨立層）相互獨立，這使得后驗可以表示為：

對角海森矩陣。 在這種情況下，我們假設(shè)所有模型權(quán)重都是相互獨立的（即平均場方法 [Konstantinidis et al., 2022]），因此后驗分布由一個對角多元高斯分布近似：

3.3 預(yù)測分布

無論選擇何種后驗近似（例如，海森矩陣形式），預(yù)測分布都是通過對近似后驗 q ( v ) 與條件模型進(jìn)行積分獲得的：

我們將標(biāo)準(zhǔn)預(yù)測分布記為 LA，將其線性化對應(yīng)物記為 LLA。在 4.1 節(jié)中，我們實證比較了它們針對張量網(wǎng)絡(luò)核機器的預(yù)測性能。

4 數(shù)值實驗

4.1 消融研究

4.2 合成數(shù)據(jù)上的不確定性

5 相關(guān)工作

我們的貢獻(xiàn)位于貝葉斯神經(jīng)網(wǎng)絡(luò)（BNNs）、其與高斯過程（GPs）的聯(lián)系以及基于張量網(wǎng)絡(luò)（TNs）的概率方法的交叉點。Khan et al. [2019] 建立了 BNNs 與 GPs 之間的理論聯(lián)系，表明通過拉普拉斯或變分推斷獲得的高斯后驗近似對應(yīng)于高斯過程回歸后驗。局部線性化及其與 BNNs 中廣義高斯-牛頓（GGN）近似的聯(lián)系由 Immer et al. [2021] 探索，并在 Antoran et al. [2022] 中進(jìn)一步擴(kuò)展，作者在文中解決了經(jīng)典拉普拉斯近似假設(shè)與現(xiàn)代神經(jīng)網(wǎng)絡(luò)行為之間的不匹配問題。Miani et al. [2025] 提出了另一種視角，他們提出了一種可擴(kuò)展的、無矩陣的方法，用于在海森矩陣的零空間中構(gòu)建貝葉斯近似，以緩解欠擬合問題。

另一條相關(guān)研究路線聚焦于概率張量網(wǎng)絡(luò)模型。Guo and Draper [2021] 將拉普拉斯近似應(yīng)用于具有網(wǎng)絡(luò)參數(shù)貝葉斯先驗的張量列車模型。相比之下，Konstantinidis et al. [2022] 為基于 CPD 的模型提出了一個可擴(kuò)展的變分推斷框架，使用低秩和克羅內(nèi)克結(jié)構(gòu)的后驗來平衡表達(dá)能力與可處理性。作為這些方法的補充，Menzen et al. [2023] 通過將問題投影到由張量網(wǎng)絡(luò)定義的低維子空間中、在其中執(zhí)行貝葉斯推斷、然后投影回原始空間以進(jìn)行高斯過程預(yù)測，從而近似高斯過程。

6 結(jié)論

在本文中，我們開發(fā)了一種新穎的貝葉斯張量網(wǎng)絡(luò)核機器（LA-TNKM），它為其預(yù)測提供不確定性估計。我們將拉普拉斯近似應(yīng)用于 CPD 權(quán)重后驗分布，以使貝葉斯推斷可處理，并引入了幾種類型的海森矩陣近似，突顯了它們各自的優(yōu)勢與局限性。我們通過實驗驗證了預(yù)測函數(shù)局部線性化的益處，并將所提出的 LA-TNKM 模型與基于高斯過程和貝葉斯神經(jīng)網(wǎng)絡(luò)的基線方法進(jìn)行了比較。結(jié)果表明，LA-TNKM 在多樣化的數(shù)據(jù)集和應(yīng)用中均具有競爭力和有效性。未來的工作可專注于改進(jìn)優(yōu)化策略（尋找最大后驗估計）、設(shè)計問題相關(guān)的先驗，以及探索替代的張量網(wǎng)絡(luò)架構(gòu)（例如分層 Tucker 分解），以增強靈活性和性能。

原文鏈接：https://arxiv.org/pdf/2604.26673

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.