面向異構環(huán)境的因子增強型神經(jīng)Lasso微調方法
Fine-tuning Factor Augmented Neural Lasso for Heterogeneous Environments
https://arxiv.org/pdf/2604.12288
![]()
![]()
摘要
微調是一種廣泛用于使預訓練模型適應新任務的策略,然而其在包含變量選擇的高維非參數(shù)設置下的方法論與理論性質尚未得到發(fā)展。本文引入了微調因子增強型神經(jīng)Lasso(FAN-Lasso),這是一種用于含變量選擇的高維非參數(shù)回歸的遷移學習框架,能夠同時處理協(xié)變量偏移與后驗偏移。我們采用低秩因子結構來處理高維相依協(xié)變量,并提出一種新穎的殘差微調分解,其中目標函數(shù)被表示為凍結的源函數(shù)與其他變量的變換形式,以實現(xiàn)遷移學習與非參數(shù)變量選擇。該來自源預測器的增強特征使得知識能夠轉移至目標域,并降低了目標域中的模型復雜度。我們?yōu)槲⒄{FAN-Lasso推導了極小化極大最優(yōu)超額風險界,從相對樣本量與函數(shù)復雜度的角度刻畫了精確條件,在此條件下微調相較于單任務學習能夠產(chǎn)生統(tǒng)計加速。所提出的框架也為參數(shù)高效微調方法提供了理論視角。跨越多種協(xié)變量與后驗偏移場景的大量數(shù)值實驗表明,微調FAN-Lasso始終優(yōu)于標準基線,即使在目標樣本量嚴重受限的情況下也能實現(xiàn)接近理想(Oracle)的性能,從而從經(jīng)驗上驗證了所推導的速率。
關鍵詞:遷移學習,神經(jīng)網(wǎng)絡,因子增強,F(xiàn)AST-NN,因子調整型非參數(shù)Lasso,模型偏移,協(xié)變量偏移。
1 引言
遷移學習通過將數(shù)據(jù)豐富的源域中學習到的表征轉移到樣本有限的目標任務中,徹底改變了現(xiàn)代機器學習。這一范式最顯著地通過微調來實現(xiàn),其中大規(guī)模模型的預訓練權重為專門的下游應用提供了精細的起點。該方法的有效性取決于這樣一個假設:預訓練捕獲了內在的潛在結構——例如共享的特征或因子——從而為數(shù)據(jù)提供了基礎的表征。因此,微調充當了一個實用的適應層,對這些學習到的表征進行精煉,以使其與目標域的具體細微特征相一致。
盡管微調的經(jīng)驗成功不可否認,但為其性能提供統(tǒng)一且嚴格的理論刻畫仍然是一項艱巨的任務。現(xiàn)有文獻已為遷移學習建立了基礎性保證,但這些通常側重于線性情形,或假設受限類別的分布偏移。仍然迫切需要一種框架,能夠在高維協(xié)變量和復雜非參數(shù)結構存在的情況下量化微調的統(tǒng)計增益——在這些設置中,經(jīng)典的參數(shù)化直覺通常會失效。具體而言,如何構建一個統(tǒng)一的估計量,使其在協(xié)變量偏移和后驗偏移下同時實現(xiàn)極小化極大最優(yōu)性,同時保持對負遷移的魯棒性,目前仍不清楚。
在本文中,我們通過提出微調因子增強型神經(jīng)Lasso(FAN-Lasso)框架,彌合了這些理論與實踐上的差距。我們假定域間的共享知識可由低維因子結構有效概括,該結構即使在顯著的分布偏移下也能為知識遷移提供穩(wěn)定的骨干。我們的方法提供了一種最優(yōu)機制,用于將預訓練的因子增強型稀疏通量神經(jīng)網(wǎng)絡(FAST-NN,F(xiàn)an & Gu (2024))——一類結合潛在因子提取與稀疏非參數(shù)估計的模型——遷移到新的環(huán)境中。
該框架將三個強大的組成部分整合在一起,以應對上述挑戰(zhàn)。首先,低維因子結構通過捕捉跨域共享的潛在驅動因素,使高維設定下的估計變得可行,并充當表征遷移的橋梁。其次,我們采用深度ReLU網(wǎng)絡對密集與稀疏的非參數(shù)復雜性進行建模,利用其對未知組合結構的自適應能力來規(guī)避維度災難。第三,通過引入靈活的遷移函數(shù),我們的方法顯式地同時考慮了協(xié)變量偏移與后驗偏移。該機制使估計量能夠自動校準源域與目標域之間的相似程度,有效地“門控”所需利用的源信息量。這種協(xié)同作用不僅通過剪枝無關的源信號來確保對負遷移的魯棒性,而且在一般的非參數(shù)設定下實現(xiàn)了極小化極大最優(yōu)性。
1.1 問題表述
![]()
![]()
![]()
1.2 主要結果預覽
我們的理論分析使殘差微調背后的直覺變得精確。我們證明了微調 FAN-Lasso 估計量實現(xiàn)了極小化極大最優(yōu)超額風險:
![]()
1.3 相關工作
我們的工作處于遷移學習、神經(jīng)網(wǎng)絡微調、深度學習理論、非參數(shù)變量選擇以及高維數(shù)據(jù)因子模型的交叉領域。盡管這些領域中的每一個都取得了顯著進展,但針對高維非參數(shù)遷移學習的統(tǒng)一理論框架仍然是一個公開的挑戰(zhàn)。
遷移學習與分布偏移。 遷移學習旨在利用源域知識來提升目標域的性能,其基礎由 Pan & Yang (2009) 和 Ben-David et al. (2010) 奠定。在高維回歸的背景下,近期的工作探討了該問題的各個側面:Li et al. (2022) 建立了稀疏參數(shù)差異下的極小化極大速率,而 Cai & Pu (2024) 以及 Tian & Feng (2023) 將這些保證擴展到了非參數(shù)和廣義線性模型。Fan et al. (2025) 提出了一種用于遷移學習的 TAB 技術。一個主要的障礙是協(xié)變量偏移,即邊緣分布在域間存在分歧 (Qui?onero-Candela et al., 2022; Gretton et al., 2009)。該領域的最新進展包括基于最優(yōu) RKHS(再生核希爾伯特空間)的速率 (Ma et al., 2023)、源標簽效用的刻畫 (Kpotufe & Martinet, 2021)、魯棒估計技術 (Yang et al., 2024; Cai et al., 2025),以及針對設定良好的協(xié)變量偏移的基礎性洞察 (Ge et al., 2023b)。此外,關于數(shù)據(jù)價值 (Hanneke & Kpotufe, 2019)、任務多樣性 (Tripuraneni et al., 2020) 以及預訓練的可證明優(yōu)勢 (Ge et al., 2023a) 的理論探究,顯著加深了我們的理解。基于這些基礎,我們的微調 FAN-Lasso 框架為復雜非參數(shù)結構下的協(xié)變量偏移和后驗偏移提供了統(tǒng)一的處理方法。
微調的基礎。 微調已成為部署大規(guī)模模型的基礎標準,然而其理論性質仍在被逐步揭示。Kumar 等人 (2022) 著名地證明了樸素微調可能會扭曲預訓練特征,這推動了 LoRA (Hu et al., 2022; Dettmers et al., 2023) 和提示微調 (Lester et al., 2021) 等參數(shù)高效方法的興起。我們的工作與日益增長的關于微調的“殘差”視角相一致,即目標模型被視為對源模型的精煉。該方法已在多個領域獲得應用,包括基于代理的預測 (Bastani, 2021)、交叉擬合殘差回歸 (Zhou & Zou, 2023)、少樣本學習 (Zhao et al., 2024) 以及強化學習 (Ankile et al., 2025)。我們通過假設 1 中的殘差微調函數(shù) h h 將這一直覺形式化,為基于經(jīng)驗殘差的方法與統(tǒng)計理論之間架起了一座嚴格的數(shù)學橋梁。
非參數(shù)深度學習理論。 我們方法的成功依賴于深度 ReLU 網(wǎng)絡的表征能力。在針對平滑函數(shù)的最優(yōu)速率研究基礎上 (Petersen & Voigtlaender, 2018; Lu et al., 2021),近期的研究表明,深度網(wǎng)絡能夠通過自動利用層次化組合結構來規(guī)避維度災難 (Schmidt-Hieber, 2020; Kohler & Langer, 2021; Fan et al., 2024)。Farrell 等人 (2021a) 進一步為此類估計量建立了高概率界。我們的工作利用這些優(yōu)勢來估計復雜的函數(shù) 和 h 。通過結合稀疏性與正則化進行復雜度控制 (Bartlett et al., 2019; Ohn & Kim, 2022),我們將現(xiàn)代深度學習理論與經(jīng)典的高維因子模型框架相連接,以實現(xiàn)極小化極大最優(yōu)性。
高維因子模型。 因子模型提供了處理高維協(xié)變量 p ? n所必需的低秩結構。它在計量經(jīng)濟學中有多種應用 (Stock & Watson, 2002a,b; Forni et al., 2005; Bai et al., 2008),自那以后,這些模型的漸近性質已被廣泛刻畫 (Paul, 2007; Johnstone & Lu, 2009; Onatski, 2012; Chudik et al., 2011; Wang & Fan, 2017)。近期的工作將預訓練因子估計 (Fan & Liao, 2022) 與深度學習相結合。Fan & Gu (2024) 確立了 FAST-NN 在單域高維非參數(shù)回歸中的極小化極大最優(yōu)性。我們的微調 FAN-Lasso 將此框架擴展至遷移學習,并為同時分布偏移下的殘差微調提供了統(tǒng)一理論。
1.4 符號與預備知識
![]()
![]()
![]()
1.5 論文結構
本文其余部分組織如下:第 2 節(jié)介紹高維遷移學習框架,第 3 節(jié)闡述我們的方法論,第 4 節(jié)提供因子遷移的理論保證,第 5 節(jié)發(fā)展微調估計量的理論,第 6 節(jié)通過數(shù)值研究驗證我們所提方法的有效性。技術證明與補充結果詳見附錄。
2 模型
2.1 因子增強型非參數(shù)(FAN)模型
我們繼續(xù)使用 §1.1 中引入的符號,并專注于因子增強型非參數(shù)回歸框架。具體而言,我們假設
![]()
![]()
![]()
![]()
![]()
![]()
![]()
我們的目標是開發(fā)一種微調策略,通過有效利用源域信息來增強目標估計。通過成功遷移源數(shù)據(jù)中的共享結構,我們旨在提高所得估計量 m ^ m 的學習效率和性能,使得微調過程比僅在目標數(shù)據(jù)上進行訓練更為有效,特別是當目標樣本量遠小于源樣本量時。
2.2 FAN 模型的通用性
![]()
2.3 回歸函數(shù)的層次分解
![]()
![]()
2.4 可遷移性
我們引入了關于![]()
之間關系的主要假設,該假設將微調背后的基本原理形式化,并在遷移過程中提供了極大的靈活性。
![]()
![]()
![]()
![]()
![]()
![]()
3 方法論
![]()
3.1 用于因子估計的多樣化投影矩陣
![]()
![]()
![]()
![]()
![]()
3.2 針對協(xié)變量偏移的遷移因子估計
![]()
![]()
![]()
具體而言,我們通過預設閾值 δ δ 限制目標協(xié)方差與聚合協(xié)方差之間的差異來提取因子:
![]()
![]()
![]()
3.3 針對后驗偏移的微調非參數(shù)變量選擇
![]()
![]()
![]()
![]()
請注意,(12) 式和 (15) 式均涉及因子增強型神經(jīng) Lasso(Factor Augmented Neural Lasso)。為了將其與 FAST-NN 估計量 (12) 區(qū)分開來,我們將估計量 (16) 稱為(微調)FAN-Lasso。
4 因子遷移理論
![]()
![]()
原文鏈接:https://arxiv.org/pdf/2604.12288
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.