網易首頁 > 網易號 > 正文申請入駐

重新審視SFT的泛化能力：優化動態、數據與模型能力的條件性分析

2026-04-30 20:58:01　來源: AI科技評論

廣東舉報

分享至

SFT的泛化并非算法本身的屬性，而是同時依賴于優化、數據、基模型能力的條件屬性。

在大模型后訓練領域，一個被廣泛流傳的敘事是：“監督微調（SFT）傾向于記憶，而強化學習（RL）實現泛化。” 這一觀點自Chu et al. 在合成任務上的實證研究后逐漸成為主流認知，并在后續的數學推理等場景中也被驗證（Huan et al.）。這一敘事極大地影響了學術界對后訓練方法的認識，促使研究者將注意力集中于理解RL相對于SFT的優勢，或是如何改進SFT的目標函數。

然而，上海人工智能實驗室、上海交通大學、中國科學技術大學聯合發布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》對這一敘事的嚴謹性提出了質疑。該研究指出，“SFT是否泛化”這一問題本身是欠定義的（under-specified）。泛化并非SFT訓練目標的固有屬性，而是一個條件性現象，受到優化動態（optimization dynamics）、訓練數據（training data）以及基模型能力（model capability）三個因素的共同塑造。

本文將梳理該論文的核心發現，為相關研究者和工程師提供完整的認知框架。

論文信息

論文標題：Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

作者：Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

機構：上海人工智能實驗室、上海交通大學、中國科學技術大學

arxiv鏈接：https://arxiv.org/abs/2604.06628

github鏈接：

https://github.com/Nebularaid2000/rethink_sft_generalization

huggingface鏈接：

https://huggingface.co/collections/jasonrqh/rethink-sft-generalization

優化動態：表觀的 “不泛化”可能源于優化不充分

1.1 現象復現與擴展觀察

研究團隊首先在較短訓練輪次的設定下復現了先前研究的結論：使用20k包含長思維鏈的數學數據對Qwen3-14B-Base進行1個epoch的微調后，模型在分布內（ID）數學任務上獲得了顯著提升（如AIME24提升29.7%），但在分布外（OOD）任務上的收益有限甚至為負（科學推理僅提升2.9%，指令遵循降低9.8%）。這一結果與Huan et al. 的發現高度一致。

然而，當訓練輪次延長至8個epoch并持續監控性能軌跡時，研究者觀察到了一個關鍵特征：跨領域性能呈現 “先降后升”（dip-and-recovery）的非單調軌跡。具體而言，在訓練初期，OOD任務性能會經歷明顯下降；但隨著訓練的持續深入，性能慢慢恢復并最終超越基模型的初始水平。

這一現象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多個模型上均得到驗證，且在使用DeepSeek-R1生成的數據時同樣成立，表明該動力學特征并非特定模型或數據源的產物。

1.2 回復長度作為優化階段的診斷指標

為理解上述動力學的內在機制，研究者同步追蹤了模型回復長度（response length）在訓練過程中的變化。結果顯示，回復長度呈現”先升后降”的軌跡：訓練初期急劇攀升，隨后逐漸回落并趨于穩定。

這一現象與性能變化存在對應關系：回復較長的checkpoint往往對應較弱的性能表現，而回復趨于精煉時性能也隨之恢復。研究者對此的解釋是：在長思維鏈SFT的早期階段，模型首先習得的是一種顯著的表層模式——生成冗長的類思考軌跡，而尚未可靠地習得更精細的推理模式（如問題分解、回溯、自我驗證等）。這種淺層模仿既限制了推理任務的遷移，也因冗長輸出和偶發的格式錯誤而影響指令遵循等通用能力。隨著優化的持續，模型逐漸習得更具遷移性的程序化模式和更精煉的語言風格，表現為更短、更有針對性的輸出以及更強的跨領域泛化。

這一點給我們帶來的啟示是：回復長度可作為長思維鏈SFT優化進程的粗粒度診斷指標。當回復長度仍在顯著縮短時，即使分布內任務的性能已趨于合理，模型通常也尚未完成充分優化。

1.3 重復曝光優于單次遍歷

長思維鏈數據的擬合難度引出一個實踐問題：在固定的計算預算下，是應在小數據集上多輪訓練，還是在大數據集上單輪遍歷？

研究者設計了嚴格的對照實驗：固定總梯度更新步數為640步，比較三種設定：設定1（20k樣本，batch size 256，8 epochs）、設定2（2.5k樣本，batch size 32，8 epochs）、設定3（20k樣本，batch size 32，1 epoch）。其中設定2與設定3的訓練預算完全相同，但曝光模式不同（8輪重復 vs. 1輪遍歷）。

實驗結果表明，設定2在多數基準上顯著優于設定3，而設定1在固定epoch和步數的條件下進一步優于設定2。這說明在較少的訓練預算下，重復曝光比單次遍歷更為有效，而提升總數據量在重復曝光的基礎上仍能提供額外增益。

1.4 過擬合的識別與邊界

上述結果提示，在長思維鏈SFT中，欠擬合信號比過擬合更為常見。為厘清過擬合的邊界條件，研究者在Qwen3-14B-Base上進行了激進訓練策略的壓力測試，包括延長訓練輪次至16 epochs、移除學習率衰減、提升學習率至1e-4等。結果顯示，顯著的過擬合癥狀僅在最激進的條件組合下出現（高學習率 + 無學習率衰減 + 長訓練輪次），通常伴隨廣泛的性能下降和回復長度的反彈。

訓練數據：質量與結構的雙重作用

2.1 數據質量的影響

研究者構建了四種數據配置進行對比：

Math-CoT-20k：默認數據集，包含長思維鏈回復

Math-NoCoT-20k：移除思維鏈，僅保留最終的分步總結和答案

NuminaMath-20k：來自NuminaMath-1.5的人工編寫解答，無長思維鏈，質量參差不齊（常包含跳步和不清晰的解釋）

Countdown-CoT-20k：基于簡單算術游戲Countdown的長思維鏈數據

實驗結果揭示了數據質量的關鍵作用：NuminaMath數據不僅對分布內任務提升有限，更導致OOD泛化能力的廣泛退化，且在整個訓練過程中幾乎無法觸發”先降后升”的恢復動態。低質量數據可能導致對SFT泛化能力的嚴重低估。

2.2 長思維鏈的作用

對比Math-CoT-20k與Math-NoCoT-20k（兩者共享相同的query和最終解答，僅前者包含探索性思考過程）可以隔離長思維鏈的效果。結果表明：長思維鏈監督在推理密集型任務上帶來更強的泛化，尤其在數學推理任務上優勢明顯。在OOD推理任務上，這一趨勢在大模型上更為顯著，而在較小的Qwen3-8B上收益相對較弱。

2.3 程序化泛化：來自Countdown的證據

Countdown數據集提供了一個獨特的實驗窗口。該游戲要求模型通過對給定的數字進行四則運算，來達到目標數字。其回復軌跡包含分解、回溯、驗證等結構化探索模式，但不包含任何顯式的領域知識。

實驗結果頗具啟發性：僅憑Countdown數據，Qwen3模型在推理任務上的表現甚至超過了Math-NoCoT-20k數據，盡管Countdown的內容范圍極其狹窄。這一發現有力地表明，推理程序的結構（procedural patterns）而非領域內容，可能是跨領域泛化的關鍵驅動因素。

然而，這種程序化泛化并非普適：對于InternLM2.5-20B，Countdown僅帶來邊際收益，提示程序化泛化的有效性同樣依賴于基模型的能力。這一點將在下一節詳述。

模型能力：泛化的必要條件

3.1 能力依賴的泛化軌跡

研究者在嚴格控制數據與訓練協議的條件下，橫向對比了Qwen3系列不同規模的模型（1.7B、4B、8B、14B）。結果呈現出清晰的能力依賴趨勢：

14B模型展現出典型的”先降后升”軌跡，最終在各領域獲得廣泛收益

8B和4B模型同樣出現恢復階段，但改善幅度較小

1.7B模型在所有基準上的收益都極其有限甚至為負，即使在晚期檢查點也是如此

這一模式表明，優化充分和數據高質量并不足以保證泛化，模型必須具備足夠的能力來內化可遷移的推理模式。

回復長度的動態進一步印證了上述解釋：小模型在延長訓練后仍維持較長的回復長度，而大模型的回復長度收縮更快并穩定在更低水平。結合第一節的分析，持續處于 “冗長回復”階段的模型可能尚未內化真正的推理模式。小模型更容易滯留在這一階段，反映出有限的能力難以支撐更深層的學習。

3.2 Token級別的分析

為進一步理解能力差異的微觀機制，研究者分析了14B與1.7B模型在訓練數據上的token級對數概率差異。結果揭示了一個顯著模式：14B模型的優勢集中于推理轉折詞——therefore、alternatively、wait、however等。這些詞匯標志著模型切換推理策略、自我糾正、回溯或反思中間結果的時刻，是思維鏈推理的結構骨架。

相比之下，1.7B模型在局部數學計算模式的學習上表現尚可，但在把握何時重新考慮、何時嘗試另一種方法、何時驗證這些高層次推理流程上存在明顯短板。

不對稱泛化：推理提升與安全退化的并存

4.1 安全性能的系統性退化

研究的最后部分揭示了長思維鏈SFT的一個重要副作用：推理能力的泛化伴隨著安全性能的退化。

在HEx-PHI安全基準上的評估顯示，經長思維鏈數據（Math-CoT-20k）訓練后，三個基模型的攻擊成功率（ASR）均大幅上升。作為對照，無思維鏈數據（Math-NoCoT-20k）訓練后的安全退化程度則小得多。這一對比表明安全退化更多地與長思維鏈中的程序化推理模式相關，而非數學內容本身。

4.2 自我合理化機制

對具體案例的分析揭示了安全退化的內在機制。基模型在面對有害請求時通常直接拒絕；而經長思維鏈SFT后，模型會在思考過程中進行自我合理化，例如假設 “這可能是為了網絡安全課程的教育目的”。研究者推測，這種現象本身也可視為一種 “泛化”：長思維鏈SFT強化了模型 “探索替代方案、尋找可行路徑、克服障礙”的持久問題求解先驗。當面對有害請求時，拒絕策略本身成為需要克服的障礙，而延長的推理過程則提供了繞過安全護欄的空間。

結論與討論

本研究系統性地表明，推理SFT的跨領域泛化能力是條件性的，而非先天缺失的。強基座在低質量數據下仍可能泛化失敗；高質量數據在欠優化條件下可能表現平平；弱模型在高質量數據的長訓練下也僅能獲得邊際收益。一個更具建設性的問題不是 “SFT是否泛化”，而是 “在什么條件下泛化，代價是什么”。

這一相互依賴性對當前 “孤立測試單一因素”的研究范式提出了挑戰，提示未來的工作應將模型、數據、算法與訓練策略作為整體進行聯合優化。

參考文獻

Chu et al. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. ICML, 2025.

Huan et al. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning. Arxiv 2507.00432

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.