網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

序列特征恢復(fù)中的標(biāo)度律：一個(gè)可解層次模型

2026-05-17 22:02:59　來源: CreateAMind

上海舉報(bào)

分享至

序列特征恢復(fù)中的標(biāo)度律：一個(gè)可解層次模型

Scaling Laws from Sequential Feature Recovery:A Solvable Hierarchical Model

https://arxiv.org/pdf/2605.14567

摘要

我們提出了一種簡單的機(jī)制，解釋了縮放定律如何從多層網(wǎng)絡(luò)中的特征學(xué)習(xí)中涌現(xiàn)。我們研究了一個(gè)高維層次化目標(biāo)，該目標(biāo)在全局上是一個(gè)高階函數(shù)，但可以通過潛在組合特征的組合來表示，這些特征的權(quán)重按冪律衰減。我們表明，一種適應(yīng)于此組合結(jié)構(gòu)的逐層譜算法，相較于淺層、非自適應(yīng)方法，能夠?qū)崿F(xiàn)更優(yōu)的縮放性能，并順序地恢復(fù)潛在方向：強(qiáng)特征在小樣本量下即可被檢測到，而弱特征則需要更多數(shù)據(jù)。我們證明了針對單個(gè)特征的尖銳恢復(fù)閾值，并表明聚合這些躍遷會產(chǎn)生預(yù)測誤差的顯式冪律衰減。在技術(shù)層面，該分析依賴于隨機(jī)矩陣方法和基于預(yù)解式的微擾論證，這為單個(gè)特征向量的恢復(fù)提供了匹配的上下界，超越了標(biāo)準(zhǔn)基于譜間隙的微擾界所能提供的范圍。數(shù)值實(shí)驗(yàn)證實(shí)了預(yù)測的順序恢復(fù)、閾值的有限尺寸平滑效應(yīng)，以及與非層次化核基線方法的分離。綜上所述，這些結(jié)果表明平滑的縮放定律如何從一系列尖銳的特征學(xué)習(xí)躍遷中涌現(xiàn)。

1 引言

盡管神經(jīng)網(wǎng)絡(luò)在經(jīng)驗(yàn)上取得了成功，我們?nèi)匀蝗狈σ环N預(yù)測性理論來回答一個(gè)看似簡單的問題：給定一個(gè)結(jié)構(gòu)化的學(xué)習(xí)問題，哪些特征會被首先學(xué)習(xí)，以及它們的順序發(fā)現(xiàn)如何轉(zhuǎn)化為統(tǒng)計(jì)效率？這個(gè)問題位于三個(gè)活躍研究方向的交匯處。首先，神經(jīng)縮放定律表明，大模型的性能在數(shù)據(jù)、算力或模型規(guī)模上遵循冪律（Kaplan等，2020；Brown等，2020；Hoffmann等，2022；Bahri等，2024）。然而，大多數(shù)數(shù)學(xué)理論依賴于線性化模型、核模型或隨機(jī)特征模型，其中相關(guān)表征是預(yù)先固定的，學(xué)習(xí)過程由該表征的譜所控制（Caponnetto和De Vito，2007；Bordelon等，2020；Spigler等，2020；Cui等，2021，2023；Defilippis等，2024）。其次，許多工作強(qiáng)調(diào)特征學(xué)習(xí)不一定是平滑的：訓(xùn)練過程可能表現(xiàn)出平臺期、風(fēng)險(xiǎn)的急劇下降，以及特征或概念的順序涌現(xiàn)（Saxe等，2014；Wei等，2022；Schaeffer等，2023；Ren等，2025；Defilippis等，2026a）。第三，近期的理論開始分離深度在組合任務(wù)中的計(jì)算優(yōu)勢，即更深的架構(gòu)能夠發(fā)現(xiàn)淺層方法無法訪問的中間表征（Cagnetta等，2024；Garnier-Brun等，2025；Dandi等，2025；Wang等，2023；Nichani等，2024；Fu等，2025；Tabanelli等，2026）。

本文探討縮放定律是否并非源于固定的譜偏置，而是源于數(shù)據(jù)中相關(guān)特征的逐步揭示，正如深度神經(jīng)網(wǎng)絡(luò)中可能發(fā)生的那樣。我們研究了一個(gè)在數(shù)學(xué)上可處理的高維任務(wù)，該任務(wù)需要跨多個(gè)層恢復(fù)隱藏特征。這些潛在特征通過具有冪律分布的權(quán)重進(jìn)行組合。統(tǒng)計(jì)上檢測單個(gè)特征所需的樣本量與特征強(qiáng)度的平方成反比：強(qiáng)特征首先被學(xué)習(xí)，弱特征隨后被學(xué)習(xí)，而預(yù)測誤差由尚未恢復(fù)的隱藏譜尾部所主導(dǎo)。高效求解該任務(wù)需要解開組合結(jié)構(gòu)。這種層次結(jié)構(gòu)與各向異性的結(jié)合，導(dǎo)致適應(yīng)或未適應(yīng)任務(wù)幾何的預(yù)測器產(chǎn)生不同的縮放定律。

我們通過數(shù)值實(shí)驗(yàn)對理論進(jìn)行了補(bǔ)充，驗(yàn)證了潛在方向的順序恢復(fù)、預(yù)測的尖銳漸近閾值的有限尺寸平滑效應(yīng)，以及由此產(chǎn)生的均方誤差衰減。我們還將層次化譜方法與非層次化核基線方法進(jìn)行了比較。這些比較說明了組合結(jié)構(gòu)的作用：盡管目標(biāo)是輸入的高階函數(shù)，但利用其層次結(jié)構(gòu)允許學(xué)習(xí)者在更低的樣本尺度下恢復(fù)相關(guān)的潛在表征。

我們的主要貢獻(xiàn)如下：

? 我們引入了一項(xiàng)結(jié)合層次結(jié)構(gòu)與組合結(jié)構(gòu)的高維任務(wù)，為研究縮放定律提供了一個(gè)可處理的設(shè)定，在該設(shè)定中，深度和特征學(xué)習(xí)對于高效學(xué)習(xí)都是必需的。

? 我們在高維極限下證明了譜算法恢復(fù)單個(gè)潛在方向的尖銳樣本復(fù)雜度閾值。我們的結(jié)果基于一種超越該問題標(biāo)準(zhǔn)Davis-Kahan界的預(yù)解式特征向量微擾分析，我們認(rèn)為該技術(shù)具有獨(dú)立的學(xué)術(shù)價(jià)值。

? 我們表明，在此設(shè)定中縮放定律的涌現(xiàn)可以從聚合的譜躍遷來理解，其中誤差由未學(xué)習(xí)的譜尾部控制。

? 我們提供了實(shí)驗(yàn)，證實(shí)了預(yù)測的恢復(fù)躍遷、有限尺寸效應(yīng)，以及與淺層核方法的分離。

總體而言，我們的結(jié)果表明，冪律學(xué)習(xí)曲線可以源于一種簡單且可解釋的機(jī)制：層次化學(xué)習(xí)器逐一恢復(fù)潛在特征，而特征強(qiáng)度的冪律譜將這些尖銳的譜躍遷轉(zhuǎn)化為平滑的縮放定律。

2 設(shè)定

因此，該模型預(yù)測平滑的冪律泛化是許多尖銳譜恢復(fù)躍遷的聚合效應(yīng)。下一節(jié)將證明這一預(yù)測。

備注 2.1. 我們的逐層譜估計(jì)器與 (Tabanelli et al., 2026) 的學(xué)習(xí)策略緊密一致。特別是，他們在附錄 C 中與梯度下降的聯(lián)系表明，此處研究的譜估計(jì)器是在這種分層設(shè)定中基于梯度的訓(xùn)練自然涌現(xiàn)出來的那個(gè)。

2.3 更多相關(guān)工作

分層與組合模型。 深度通常被認(rèn)為有效，是因?yàn)樗试S利用數(shù)據(jù)中的分層或組合結(jié)構(gòu)。這種直覺激發(fā)了從逼近論和統(tǒng)計(jì)學(xué)視角出發(fā)關(guān)于深度分離結(jié)果和組合目標(biāo)模型的研究 (Telgarsky, 2016; Mhaskar et al., 2017; Poggio et al., 2017; Daniely, 2017; Mossel, 2016)。更近期的工作研究了隨機(jī)分層模型和高維分層目標(biāo)，表明深度網(wǎng)絡(luò)或逐層過程可以利用淺層方法無法訪問的中間表征 (Garnier-Brun et al., 2025; Cagnetta et al., 2024; Dandi et al., 2025)。與我們最接近的是對三層網(wǎng)絡(luò)中分層多項(xiàng)式目標(biāo)和非線性特征學(xué)習(xí)的分析 (Wang et al., 2023; Nichani et al., 2024; Fu et al., 2025)，以及 (Tabanelli et al., 2026) 的分層譜方法。我們通過這些工作的不同之處在于，我們在潛在特征上增加了各向異性冪律譜，并證明了單個(gè)特征恢復(fù)的匹配上下界，這使我們能夠從躍遷級聯(lián)中推導(dǎo)出聚合縮放定律。

多索引與譜方法。 相關(guān)的一條研究路線研究多索引模型，其中目標(biāo)取決于輸入的低維投影。這些已被用于刻畫統(tǒng)計(jì)-計(jì)算差距、弱恢復(fù)閾值以及核方法的局限性 (Aubin et al., 2018; Barbier et al., 2019; Ben Arous et al., 2021; Abbe et al., 2022; Bietti et al., 2022; Troiani et al., 2025; Damian et al., 2024)。譜方法在此背景下尤為相關(guān)，因?yàn)樗鼈優(yōu)楦咚鼓Ｐ椭械牡途S結(jié)構(gòu)提供了尖銳的恢復(fù)保證 (Lu and Li, 2020; Mondelli and Montanari, 2018; Maillard et al., 2022; Kova?evi? et al., 2025; Defilippis et al., 2025)。我們的估計(jì)器建立在這一譜觀點(diǎn)之上，但與標(biāo)準(zhǔn)的多索引學(xué)習(xí)不同之處在于，其潛在結(jié)構(gòu)是組合性的，且恢復(fù)方向的強(qiáng)度是各向異性且服從冪律分布的。

縮放定律與冪律譜。 大量工作研究了在表征固定設(shè)定下的縮放定律，例如在核或隨機(jī)特征模型中，其中泛化由相關(guān)特征映射的譜控制 (Caponnetto and De Vito, 2007; Bordelon et al., 2020; Spigler et al., 2020; Cui et al., 2021; Maloney et al., 2022; Cui et al., 2023; Bahri et al., 2024; Paquette et al., 2024; Defilippis et al., 2024; Atanasov et al., 2024; Bordelon et al., 2024a; Wortsman and Loureiro, 2025)。另一條獨(dú)特的研究路線調(diào)查了增加可訓(xùn)練參數(shù)數(shù)量如何影響優(yōu)化、初始化和表達(dá)能力 (Yang et al., 2021; Bordelon et al., 2024b; Chizat and Netrapalli, 2024; Chaintron et al., 2026)。更近期，關(guān)于二次和淺層神經(jīng)網(wǎng)絡(luò)模型的幾項(xiàng)工作展示了縮放定律如何從特征學(xué)習(xí)本身產(chǎn)生 (Ren et al., 2025; Ben Arous et al., 2025; Defilippis et al., 2025, 2026b; Boncoraglio et al., 2025)。與我們工作最接近的是 (Defilippis et al., 2025, 2026b)，它們獲得了相關(guān)的速率和學(xué)習(xí)到的表征譜，包括學(xué)習(xí)方向的順序涌現(xiàn)。本工作表明，類似的速率出現(xiàn)在真正的多層、分層設(shè)定中，這表明聯(lián)系冪律譜、特征恢復(fù)和縮放定律的機(jī)制在淺層二次模型之外也是穩(wěn)健的。

高斯等價(jià)性與多項(xiàng)式特征。 相關(guān)的技術(shù)文獻(xiàn)研究了多項(xiàng)式特征映射、隨機(jī)特征矩陣和高維核矩陣的高斯等價(jià)性和普適性現(xiàn)象 (Hu et al., 2024; Xu et al., 2025; Wen et al., 2025; Lu and Yau, 2025)。盡管我們的證明并非通過將埃爾米特特征向量替換為等價(jià)的高斯模型來進(jìn)行，但這一系列工作為理解多項(xiàng)式特征何時(shí)表現(xiàn)得像高斯特征以及何時(shí)非高斯修正變得相關(guān)提供了有用的比較點(diǎn)。相反，我們的分析保持埃爾米特結(jié)構(gòu)的顯式性，并使用維納混沌（Wiener-chaos）工具，如乘積公式、分部積分、超壓縮性（hypercontractivity）和收縮估計(jì) (Nualart and Pecatti, 2005; Nourdin and Peccati, 2009, 2012)。這些工具使我們能夠直接控制經(jīng)驗(yàn)埃爾米特矩矩陣和微擾特征向量展開，而無需訴諸完全的高斯等價(jià)歸約。

3 主要定理

我們現(xiàn)在將在以下兩種情形之一中，嚴(yán)格證明上一節(jié)所述啟發(fā)式方法得出的預(yù)測。

假設(shè) 3.1（讀出機(jī)制）。 我們在以下兩種機(jī)制之一下進(jìn)行工作：

3.1 第一層的恢復(fù)

定理 3.1（弱恢復(fù)）

3.2 第二層的恢復(fù)與泛化誤差的速率

4 數(shù)值實(shí)驗(yàn)

在本節(jié)中，我們將定理 3.1 的逐特征恢復(fù)預(yù)測與數(shù)值實(shí)驗(yàn)進(jìn)行對照。額外的數(shù)值細(xì)節(jié)見附錄 A。

5 討論與未來方向

我們引入了一個(gè)模型，其中縮放定律源于順序特征恢復(fù)。核心信息是層次結(jié)構(gòu)與各向異性協(xié)同作用：深度揭示了相關(guān)的中間表征，而信號的冪律結(jié)構(gòu)將其各分量的恢復(fù)分散在不同的樣本規(guī)模上。因此，平滑的冪律學(xué)習(xí)曲線可以從許多尖銳的特征學(xué)習(xí)躍遷的聚合效應(yīng)中涌現(xiàn)。這提供了一種機(jī)制，說明冪律是由表征學(xué)習(xí)生成的，而不是從固定的核譜中繼承而來的。

我們分析的主要局限性也正是使該機(jī)制變得清晰透明的原因：層次結(jié)構(gòu)是預(yù)先指定的，輸入為高斯分布，且學(xué)習(xí)是通過逐層過程執(zhí)行的。這些假設(shè)使得尖銳的恢復(fù)與未恢復(fù)保證成為可能，同時(shí)指出了自然的后續(xù)問題：將該機(jī)制擴(kuò)展到更通用的數(shù)據(jù)、更豐富的非線性以及更高的信息指數(shù)。更廣泛地說，我們的結(jié)果表明，深度學(xué)習(xí)中的縮放定律可能不僅反映了固定表征處的譜偏置，還反映了跨深度的表征的逐步組織。

原文鏈接：https://arxiv.org/pdf/2605.14567

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.