網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

面向異構環(huán)境的因子增強型神經(jīng)Lasso微調方法

2026-04-21 10:22:31　來源: CreateAMind

上海舉報

分享至

Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments

https://arxiv.org/pdf/2604.12288

摘要

微調是一種廣泛用于使預訓練模型適應新任務的策略，然而其在包含變量選擇的高維非參數(shù)設置下的方法論與理論性質尚未得到發(fā)展。本文引入了微調因子增強型神經(jīng)Lasso（FAN-Lasso），這是一種用于含變量選擇的高維非參數(shù)回歸的遷移學習框架，能夠同時處理協(xié)變量偏移與后驗偏移。我們采用低秩因子結構來處理高維相依協(xié)變量，并提出一種新穎的殘差微調分解，其中目標函數(shù)被表示為凍結的源函數(shù)與其他變量的變換形式，以實現(xiàn)遷移學習與非參數(shù)變量選擇。該來自源預測器的增強特征使得知識能夠轉移至目標域，并降低了目標域中的模型復雜度。我們?yōu)槲⒄{FAN-Lasso推導了極小化極大最優(yōu)超額風險界，從相對樣本量與函數(shù)復雜度的角度刻畫了精確條件，在此條件下微調相較于單任務學習能夠產(chǎn)生統(tǒng)計加速。所提出的框架也為參數(shù)高效微調方法提供了理論視角。跨越多種協(xié)變量與后驗偏移場景的大量數(shù)值實驗表明，微調FAN-Lasso始終優(yōu)于標準基線，即使在目標樣本量嚴重受限的情況下也能實現(xiàn)接近理想（Oracle）的性能，從而從經(jīng)驗上驗證了所推導的速率。

關鍵詞：遷移學習，神經(jīng)網(wǎng)絡，因子增強，F(xiàn)AST-NN，因子調整型非參數(shù)Lasso，模型偏移，協(xié)變量偏移。

1 引言

遷移學習通過將數(shù)據(jù)豐富的源域中學習到的表征轉移到樣本有限的目標任務中，徹底改變了現(xiàn)代機器學習。這一范式最顯著地通過微調來實現(xiàn)，其中大規(guī)模模型的預訓練權重為專門的下游應用提供了精細的起點。該方法的有效性取決于這樣一個假設：預訓練捕獲了內在的潛在結構——例如共享的特征或因子——從而為數(shù)據(jù)提供了基礎的表征。因此，微調充當了一個實用的適應層，對這些學習到的表征進行精煉，以使其與目標域的具體細微特征相一致。

盡管微調的經(jīng)驗成功不可否認，但為其性能提供統(tǒng)一且嚴格的理論刻畫仍然是一項艱巨的任務。現(xiàn)有文獻已為遷移學習建立了基礎性保證，但這些通常側重于線性情形，或假設受限類別的分布偏移。仍然迫切需要一種框架，能夠在高維協(xié)變量和復雜非參數(shù)結構存在的情況下量化微調的統(tǒng)計增益——在這些設置中，經(jīng)典的參數(shù)化直覺通常會失效。具體而言，如何構建一個統(tǒng)一的估計量，使其在協(xié)變量偏移和后驗偏移下同時實現(xiàn)極小化極大最優(yōu)性，同時保持對負遷移的魯棒性，目前仍不清楚。

在本文中，我們通過提出微調因子增強型神經(jīng)Lasso（FAN-Lasso）框架，彌合了這些理論與實踐上的差距。我們假定域間的共享知識可由低維因子結構有效概括，該結構即使在顯著的分布偏移下也能為知識遷移提供穩(wěn)定的骨干。我們的方法提供了一種最優(yōu)機制，用于將預訓練的因子增強型稀疏通量神經(jīng)網(wǎng)絡（FAST-NN，F(xiàn)an & Gu (2024)）——一類結合潛在因子提取與稀疏非參數(shù)估計的模型——遷移到新的環(huán)境中。

該框架將三個強大的組成部分整合在一起，以應對上述挑戰(zhàn)。首先，低維因子結構通過捕捉跨域共享的潛在驅動因素，使高維設定下的估計變得可行，并充當表征遷移的橋梁。其次，我們采用深度ReLU網(wǎng)絡對密集與稀疏的非參數(shù)復雜性進行建模，利用其對未知組合結構的自適應能力來規(guī)避維度災難。第三，通過引入靈活的遷移函數(shù)，我們的方法顯式地同時考慮了協(xié)變量偏移與后驗偏移。該機制使估計量能夠自動校準源域與目標域之間的相似程度，有效地“門控”所需利用的源信息量。這種協(xié)同作用不僅通過剪枝無關的源信號來確保對負遷移的魯棒性，而且在一般的非參數(shù)設定下實現(xiàn)了極小化極大最優(yōu)性。

1.1 問題表述

1.2 主要結果預覽

我們的理論分析使殘差微調背后的直覺變得精確。我們證明了微調 FAN-Lasso 估計量實現(xiàn)了極小化極大最優(yōu)超額風險：

1.3 相關工作

我們的工作處于遷移學習、神經(jīng)網(wǎng)絡微調、深度學習理論、非參數(shù)變量選擇以及高維數(shù)據(jù)因子模型的交叉領域。盡管這些領域中的每一個都取得了顯著進展，但針對高維非參數(shù)遷移學習的統(tǒng)一理論框架仍然是一個公開的挑戰(zhàn)。

遷移學習與分布偏移。 遷移學習旨在利用源域知識來提升目標域的性能，其基礎由 Pan & Yang (2009) 和 Ben-David et al. (2010) 奠定。在高維回歸的背景下，近期的工作探討了該問題的各個側面：Li et al. (2022) 建立了稀疏參數(shù)差異下的極小化極大速率，而 Cai & Pu (2024) 以及 Tian & Feng (2023) 將這些保證擴展到了非參數(shù)和廣義線性模型。Fan et al. (2025) 提出了一種用于遷移學習的 TAB 技術。一個主要的障礙是協(xié)變量偏移，即邊緣分布在域間存在分歧 (Qui?onero-Candela et al., 2022; Gretton et al., 2009)。該領域的最新進展包括基于最優(yōu) RKHS（再生核希爾伯特空間）的速率 (Ma et al., 2023)、源標簽效用的刻畫 (Kpotufe & Martinet, 2021)、魯棒估計技術 (Yang et al., 2024; Cai et al., 2025)，以及針對設定良好的協(xié)變量偏移的基礎性洞察 (Ge et al., 2023b)。此外，關于數(shù)據(jù)價值 (Hanneke & Kpotufe, 2019)、任務多樣性 (Tripuraneni et al., 2020) 以及預訓練的可證明優(yōu)勢 (Ge et al., 2023a) 的理論探究，顯著加深了我們的理解。基于這些基礎，我們的微調 FAN-Lasso 框架為復雜非參數(shù)結構下的協(xié)變量偏移和后驗偏移提供了統(tǒng)一的處理方法。

微調的基礎。 微調已成為部署大規(guī)模模型的基礎標準，然而其理論性質仍在被逐步揭示。Kumar 等人 (2022) 著名地證明了樸素微調可能會扭曲預訓練特征，這推動了 LoRA (Hu et al., 2022; Dettmers et al., 2023) 和提示微調 (Lester et al., 2021) 等參數(shù)高效方法的興起。我們的工作與日益增長的關于微調的“殘差”視角相一致，即目標模型被視為對源模型的精煉。該方法已在多個領域獲得應用，包括基于代理的預測 (Bastani, 2021)、交叉擬合殘差回歸 (Zhou & Zou, 2023)、少樣本學習 (Zhao et al., 2024) 以及強化學習 (Ankile et al., 2025)。我們通過假設 1 中的殘差微調函數(shù) h h 將這一直覺形式化，為基于經(jīng)驗殘差的方法與統(tǒng)計理論之間架起了一座嚴格的數(shù)學橋梁。

非參數(shù)深度學習理論。 我們方法的成功依賴于深度 ReLU 網(wǎng)絡的表征能力。在針對平滑函數(shù)的最優(yōu)速率研究基礎上 (Petersen & Voigtlaender, 2018; Lu et al., 2021)，近期的研究表明，深度網(wǎng)絡能夠通過自動利用層次化組合結構來規(guī)避維度災難 (Schmidt-Hieber, 2020; Kohler & Langer, 2021; Fan et al., 2024)。Farrell 等人 (2021a) 進一步為此類估計量建立了高概率界。我們的工作利用這些優(yōu)勢來估計復雜的函數(shù) 和 h 。通過結合稀疏性與正則化進行復雜度控制 (Bartlett et al., 2019; Ohn & Kim, 2022)，我們將現(xiàn)代深度學習理論與經(jīng)典的高維因子模型框架相連接，以實現(xiàn)極小化極大最優(yōu)性。

高維因子模型。 因子模型提供了處理高維協(xié)變量 p ? n所必需的低秩結構。它在計量經(jīng)濟學中有多種應用 (Stock & Watson, 2002a,b; Forni et al., 2005; Bai et al., 2008)，自那以后，這些模型的漸近性質已被廣泛刻畫 (Paul, 2007; Johnstone & Lu, 2009; Onatski, 2012; Chudik et al., 2011; Wang & Fan, 2017)。近期的工作將預訓練因子估計 (Fan & Liao, 2022) 與深度學習相結合。Fan & Gu (2024) 確立了 FAST-NN 在單域高維非參數(shù)回歸中的極小化極大最優(yōu)性。我們的微調 FAN-Lasso 將此框架擴展至遷移學習，并為同時分布偏移下的殘差微調提供了統(tǒng)一理論。

1.4 符號與預備知識

1.5 論文結構

本文其余部分組織如下：第 2 節(jié)介紹高維遷移學習框架，第 3 節(jié)闡述我們的方法論，第 4 節(jié)提供因子遷移的理論保證，第 5 節(jié)發(fā)展微調估計量的理論，第 6 節(jié)通過數(shù)值研究驗證我們所提方法的有效性。技術證明與補充結果詳見附錄。

2 模型

2.1 因子增強型非參數(shù)（FAN）模型

我們繼續(xù)使用 §1.1 中引入的符號，并專注于因子增強型非參數(shù)回歸框架。具體而言，我們假設

我們的目標是開發(fā)一種微調策略，通過有效利用源域信息來增強目標估計。通過成功遷移源數(shù)據(jù)中的共享結構，我們旨在提高所得估計量 m ^ m 的學習效率和性能，使得微調過程比僅在目標數(shù)據(jù)上進行訓練更為有效，特別是當目標樣本量遠小于源樣本量時。

2.2 FAN 模型的通用性

2.3 回歸函數(shù)的層次分解

2.4 可遷移性

我們引入了關于
之間關系的主要假設，該假設將微調背后的基本原理形式化，并在遷移過程中提供了極大的靈活性。

3 方法論

3.1 用于因子估計的多樣化投影矩陣

3.2 針對協(xié)變量偏移的遷移因子估計

具體而言，我們通過預設閾值 δ δ 限制目標協(xié)方差與聚合協(xié)方差之間的差異來提取因子：

3.3 針對后驗偏移的微調非參數(shù)變量選擇

請注意，(12) 式和 (15) 式均涉及因子增強型神經(jīng) Lasso（Factor Augmented Neural Lasso）。為了將其與 FAST-NN 估計量 (12) 區(qū)分開來，我們將估計量 (16) 稱為（微調）FAN-Lasso。

4 因子遷移理論

原文鏈接：https://arxiv.org/pdf/2604.12288

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.