序列特征恢復(fù)中的標(biāo)度律:一個(gè)可解層次模型
Scaling Laws from Sequential Feature Recovery:A Solvable Hierarchical Model
https://arxiv.org/pdf/2605.14567
![]()
![]()
摘要
我們提出了一種簡單的機(jī)制,解釋了縮放定律如何從多層網(wǎng)絡(luò)中的特征學(xué)習(xí)中涌現(xiàn)。我們研究了一個(gè)高維層次化目標(biāo),該目標(biāo)在全局上是一個(gè)高階函數(shù),但可以通過潛在組合特征的組合來表示,這些特征的權(quán)重按冪律衰減。我們表明,一種適應(yīng)于此組合結(jié)構(gòu)的逐層譜算法,相較于淺層、非自適應(yīng)方法,能夠?qū)崿F(xiàn)更優(yōu)的縮放性能,并順序地恢復(fù)潛在方向:強(qiáng)特征在小樣本量下即可被檢測到,而弱特征則需要更多數(shù)據(jù)。我們證明了針對單個(gè)特征的尖銳恢復(fù)閾值,并表明聚合這些躍遷會產(chǎn)生預(yù)測誤差的顯式冪律衰減。在技術(shù)層面,該分析依賴于隨機(jī)矩陣方法和基于預(yù)解式的微擾論證,這為單個(gè)特征向量的恢復(fù)提供了匹配的上下界,超越了標(biāo)準(zhǔn)基于譜間隙的微擾界所能提供的范圍。數(shù)值實(shí)驗(yàn)證實(shí)了預(yù)測的順序恢復(fù)、閾值的有限尺寸平滑效應(yīng),以及與非層次化核基線方法的分離。綜上所述,這些結(jié)果表明平滑的縮放定律如何從一系列尖銳的特征學(xué)習(xí)躍遷中涌現(xiàn)。
1 引言
盡管神經(jīng)網(wǎng)絡(luò)在經(jīng)驗(yàn)上取得了成功,我們?nèi)匀蝗狈σ环N預(yù)測性理論來回答一個(gè)看似簡單的問題:給定一個(gè)結(jié)構(gòu)化的學(xué)習(xí)問題,哪些特征會被首先學(xué)習(xí),以及它們的順序發(fā)現(xiàn)如何轉(zhuǎn)化為統(tǒng)計(jì)效率?這個(gè)問題位于三個(gè)活躍研究方向的交匯處。首先,神經(jīng)縮放定律表明,大模型的性能在數(shù)據(jù)、算力或模型規(guī)模上遵循冪律(Kaplan等,2020;Brown等,2020;Hoffmann等,2022;Bahri等,2024)。然而,大多數(shù)數(shù)學(xué)理論依賴于線性化模型、核模型或隨機(jī)特征模型,其中相關(guān)表征是預(yù)先固定的,學(xué)習(xí)過程由該表征的譜所控制(Caponnetto和De Vito,2007;Bordelon等,2020;Spigler等,2020;Cui等,2021,2023;Defilippis等,2024)。其次,許多工作強(qiáng)調(diào)特征學(xué)習(xí)不一定是平滑的:訓(xùn)練過程可能表現(xiàn)出平臺期、風(fēng)險(xiǎn)的急劇下降,以及特征或概念的順序涌現(xiàn)(Saxe等,2014;Wei等,2022;Schaeffer等,2023;Ren等,2025;Defilippis等,2026a)。第三,近期的理論開始分離深度在組合任務(wù)中的計(jì)算優(yōu)勢,即更深的架構(gòu)能夠發(fā)現(xiàn)淺層方法無法訪問的中間表征(Cagnetta等,2024;Garnier-Brun等,2025;Dandi等,2025;Wang等,2023;Nichani等,2024;Fu等,2025;Tabanelli等,2026)。
本文探討縮放定律是否并非源于固定的譜偏置,而是源于數(shù)據(jù)中相關(guān)特征的逐步揭示,正如深度神經(jīng)網(wǎng)絡(luò)中可能發(fā)生的那樣。我們研究了一個(gè)在數(shù)學(xué)上可處理的高維任務(wù),該任務(wù)需要跨多個(gè)層恢復(fù)隱藏特征。這些潛在特征通過具有冪律分布的權(quán)重進(jìn)行組合。統(tǒng)計(jì)上檢測單個(gè)特征所需的樣本量與特征強(qiáng)度的平方成反比:強(qiáng)特征首先被學(xué)習(xí),弱特征隨后被學(xué)習(xí),而預(yù)測誤差由尚未恢復(fù)的隱藏譜尾部所主導(dǎo)。高效求解該任務(wù)需要解開組合結(jié)構(gòu)。這種層次結(jié)構(gòu)與各向異性的結(jié)合,導(dǎo)致適應(yīng)或未適應(yīng)任務(wù)幾何的預(yù)測器產(chǎn)生不同的縮放定律。
![]()
![]()
我們通過數(shù)值實(shí)驗(yàn)對理論進(jìn)行了補(bǔ)充,驗(yàn)證了潛在方向的順序恢復(fù)、預(yù)測的尖銳漸近閾值的有限尺寸平滑效應(yīng),以及由此產(chǎn)生的均方誤差衰減。我們還將層次化譜方法與非層次化核基線方法進(jìn)行了比較。這些比較說明了組合結(jié)構(gòu)的作用:盡管目標(biāo)是輸入的高階函數(shù),但利用其層次結(jié)構(gòu)允許學(xué)習(xí)者在更低的樣本尺度下恢復(fù)相關(guān)的潛在表征。
我們的主要貢獻(xiàn)如下:
? 我們引入了一項(xiàng)結(jié)合層次結(jié)構(gòu)與組合結(jié)構(gòu)的高維任務(wù),為研究縮放定律提供了一個(gè)可處理的設(shè)定,在該設(shè)定中,深度和特征學(xué)習(xí)對于高效學(xué)習(xí)都是必需的。
? 我們在高維極限下證明了譜算法恢復(fù)單個(gè)潛在方向的尖銳樣本復(fù)雜度閾值。我們的結(jié)果基于一種超越該問題標(biāo)準(zhǔn)Davis-Kahan界的預(yù)解式特征向量微擾分析,我們認(rèn)為該技術(shù)具有獨(dú)立的學(xué)術(shù)價(jià)值。
? 我們表明,在此設(shè)定中縮放定律的涌現(xiàn)可以從聚合的譜躍遷來理解,其中誤差由未學(xué)習(xí)的譜尾部控制。
? 我們提供了實(shí)驗(yàn),證實(shí)了預(yù)測的恢復(fù)躍遷、有限尺寸效應(yīng),以及與淺層核方法的分離。
總體而言,我們的結(jié)果表明,冪律學(xué)習(xí)曲線可以源于一種簡單且可解釋的機(jī)制:層次化學(xué)習(xí)器逐一恢復(fù)潛在特征,而特征強(qiáng)度的冪律譜將這些尖銳的譜躍遷轉(zhuǎn)化為平滑的縮放定律。
2 設(shè)定
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
因此,該模型預(yù)測平滑的冪律泛化是許多尖銳譜恢復(fù)躍遷的聚合效應(yīng)。下一節(jié)將證明這一預(yù)測。
備注 2.1. 我們的逐層譜估計(jì)器與 (Tabanelli et al., 2026) 的學(xué)習(xí)策略緊密一致。特別是,他們在附錄 C 中與梯度下降的聯(lián)系表明,此處研究的譜估計(jì)器是在這種分層設(shè)定中基于梯度的訓(xùn)練自然涌現(xiàn)出來的那個(gè)。
2.3 更多相關(guān)工作
分層與組合模型。 深度通常被認(rèn)為有效,是因?yàn)樗试S利用數(shù)據(jù)中的分層或組合結(jié)構(gòu)。這種直覺激發(fā)了從逼近論和統(tǒng)計(jì)學(xué)視角出發(fā)關(guān)于深度分離結(jié)果和組合目標(biāo)模型的研究 (Telgarsky, 2016; Mhaskar et al., 2017; Poggio et al., 2017; Daniely, 2017; Mossel, 2016)。更近期的工作研究了隨機(jī)分層模型和高維分層目標(biāo),表明深度網(wǎng)絡(luò)或逐層過程可以利用淺層方法無法訪問的中間表征 (Garnier-Brun et al., 2025; Cagnetta et al., 2024; Dandi et al., 2025)。與我們最接近的是對三層網(wǎng)絡(luò)中分層多項(xiàng)式目標(biāo)和非線性特征學(xué)習(xí)的分析 (Wang et al., 2023; Nichani et al., 2024; Fu et al., 2025),以及 (Tabanelli et al., 2026) 的分層譜方法。我們通過這些工作的不同之處在于,我們在潛在特征上增加了各向異性冪律譜,并證明了單個(gè)特征恢復(fù)的匹配上下界,這使我們能夠從躍遷級聯(lián)中推導(dǎo)出聚合縮放定律。
多索引與譜方法。 相關(guān)的一條研究路線研究多索引模型,其中目標(biāo)取決于輸入的低維投影。這些已被用于刻畫統(tǒng)計(jì)-計(jì)算差距、弱恢復(fù)閾值以及核方法的局限性 (Aubin et al., 2018; Barbier et al., 2019; Ben Arous et al., 2021; Abbe et al., 2022; Bietti et al., 2022; Troiani et al., 2025; Damian et al., 2024)。譜方法在此背景下尤為相關(guān),因?yàn)樗鼈優(yōu)楦咚鼓P椭械牡途S結(jié)構(gòu)提供了尖銳的恢復(fù)保證 (Lu and Li, 2020; Mondelli and Montanari, 2018; Maillard et al., 2022; Kova?evi? et al., 2025; Defilippis et al., 2025)。我們的估計(jì)器建立在這一譜觀點(diǎn)之上,但與標(biāo)準(zhǔn)的多索引學(xué)習(xí)不同之處在于,其潛在結(jié)構(gòu)是組合性的,且恢復(fù)方向的強(qiáng)度是各向異性且服從冪律分布的。
縮放定律與冪律譜。 大量工作研究了在表征固定設(shè)定下的縮放定律,例如在核或隨機(jī)特征模型中,其中泛化由相關(guān)特征映射的譜控制 (Caponnetto and De Vito, 2007; Bordelon et al., 2020; Spigler et al., 2020; Cui et al., 2021; Maloney et al., 2022; Cui et al., 2023; Bahri et al., 2024; Paquette et al., 2024; Defilippis et al., 2024; Atanasov et al., 2024; Bordelon et al., 2024a; Wortsman and Loureiro, 2025)。另一條獨(dú)特的研究路線調(diào)查了增加可訓(xùn)練參數(shù)數(shù)量如何影響優(yōu)化、初始化和表達(dá)能力 (Yang et al., 2021; Bordelon et al., 2024b; Chizat and Netrapalli, 2024; Chaintron et al., 2026)。更近期,關(guān)于二次和淺層神經(jīng)網(wǎng)絡(luò)模型的幾項(xiàng)工作展示了縮放定律如何從特征學(xué)習(xí)本身產(chǎn)生 (Ren et al., 2025; Ben Arous et al., 2025; Defilippis et al., 2025, 2026b; Boncoraglio et al., 2025)。與我們工作最接近的是 (Defilippis et al., 2025, 2026b),它們獲得了相關(guān)的速率和學(xué)習(xí)到的表征譜,包括學(xué)習(xí)方向的順序涌現(xiàn)。本工作表明,類似的速率出現(xiàn)在真正的多層、分層設(shè)定中,這表明聯(lián)系冪律譜、特征恢復(fù)和縮放定律的機(jī)制在淺層二次模型之外也是穩(wěn)健的。
高斯等價(jià)性與多項(xiàng)式特征。 相關(guān)的技術(shù)文獻(xiàn)研究了多項(xiàng)式特征映射、隨機(jī)特征矩陣和高維核矩陣的高斯等價(jià)性和普適性現(xiàn)象 (Hu et al., 2024; Xu et al., 2025; Wen et al., 2025; Lu and Yau, 2025)。盡管我們的證明并非通過將埃爾米特特征向量替換為等價(jià)的高斯模型來進(jìn)行,但這一系列工作為理解多項(xiàng)式特征何時(shí)表現(xiàn)得像高斯特征以及何時(shí)非高斯修正變得相關(guān)提供了有用的比較點(diǎn)。相反,我們的分析保持埃爾米特結(jié)構(gòu)的顯式性,并使用維納混沌(Wiener-chaos)工具,如乘積公式、分部積分、超壓縮性(hypercontractivity)和收縮估計(jì) (Nualart and Pecatti, 2005; Nourdin and Peccati, 2009, 2012)。這些工具使我們能夠直接控制經(jīng)驗(yàn)埃爾米特矩矩陣和微擾特征向量展開,而無需訴諸完全的高斯等價(jià)歸約。
3 主要定理
我們現(xiàn)在將在以下兩種情形之一中,嚴(yán)格證明上一節(jié)所述啟發(fā)式方法得出的預(yù)測。
假設(shè) 3.1(讀出機(jī)制)。 我們在以下兩種機(jī)制之一下進(jìn)行工作:
![]()
3.1 第一層的恢復(fù)
![]()
定理 3.1(弱恢復(fù))
![]()
![]()
![]()
3.2 第二層的恢復(fù)與泛化誤差的速率
![]()
![]()
![]()
4 數(shù)值實(shí)驗(yàn)
在本節(jié)中,我們將定理 3.1 的逐特征恢復(fù)預(yù)測與數(shù)值實(shí)驗(yàn)進(jìn)行對照。額外的數(shù)值細(xì)節(jié)見附錄 A。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5 討論與未來方向
我們引入了一個(gè)模型,其中縮放定律源于順序特征恢復(fù)。核心信息是層次結(jié)構(gòu)與各向異性協(xié)同作用:深度揭示了相關(guān)的中間表征,而信號的冪律結(jié)構(gòu)將其各分量的恢復(fù)分散在不同的樣本規(guī)模上。因此,平滑的冪律學(xué)習(xí)曲線可以從許多尖銳的特征學(xué)習(xí)躍遷的聚合效應(yīng)中涌現(xiàn)。這提供了一種機(jī)制,說明冪律是由表征學(xué)習(xí)生成的,而不是從固定的核譜中繼承而來的。
我們分析的主要局限性也正是使該機(jī)制變得清晰透明的原因:層次結(jié)構(gòu)是預(yù)先指定的,輸入為高斯分布,且學(xué)習(xí)是通過逐層過程執(zhí)行的。這些假設(shè)使得尖銳的恢復(fù)與未恢復(fù)保證成為可能,同時(shí)指出了自然的后續(xù)問題:將該機(jī)制擴(kuò)展到更通用的數(shù)據(jù)、更豐富的非線性以及更高的信息指數(shù)。更廣泛地說,我們的結(jié)果表明,深度學(xué)習(xí)中的縮放定律可能不僅反映了固定表征處的譜偏置,還反映了跨深度的表征的逐步組織。
原文鏈接:https://arxiv.org/pdf/2605.14567
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.