![]()
SFT的泛化并非算法本身的屬性,而是同時依賴于優化、數據、基模型能力的條件屬性。
在大模型后訓練領域,一個被廣泛流傳的敘事是:“監督微調(SFT)傾向于記憶,而強化學習(RL)實現泛化。” 這一觀點自Chu et al. 在合成任務上的實證研究后逐漸成為主流認知,并在后續的數學推理等場景中也被驗證(Huan et al.)。這一敘事極大地影響了學術界對后訓練方法的認識,促使研究者將注意力集中于理解RL相對于SFT的優勢,或是如何改進SFT的目標函數。
然而,上海人工智能實驗室、上海交通大學、中國科學技術大學聯合發布的研究《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》對這一敘事的嚴謹性提出了質疑。該研究指出,“SFT是否泛化”這一問題本身是欠定義的(under-specified)。泛化并非SFT訓練目標的固有屬性,而是一個條件性現象,受到優化動態(optimization dynamics)、訓練數據(training data)以及基模型能力(model capability)三個因素的共同塑造。
本文將梳理該論文的核心發現,為相關研究者和工程師提供完整的認知框架。
![]()
論文信息
論文標題:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
作者:Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu
機構:上海人工智能實驗室、上海交通大學、中國科學技術大學
arxiv鏈接:https://arxiv.org/abs/2604.06628
github鏈接:
https://github.com/Nebularaid2000/rethink_sft_generalization
huggingface鏈接:
https://huggingface.co/collections/jasonrqh/rethink-sft-generalization
01
優化動態:表觀的 “不泛化”可能源于優化不充分
1.1 現象復現與擴展觀察
研究團隊首先在較短訓練輪次的設定下復現了先前研究的結論:使用20k包含長思維鏈的數學數據對Qwen3-14B-Base進行1個epoch的微調后,模型在分布內(ID)數學任務上獲得了顯著提升(如AIME24提升29.7%),但在分布外(OOD)任務上的收益有限甚至為負(科學推理僅提升2.9%,指令遵循降低9.8%)。這一結果與Huan et al. 的發現高度一致。
![]()
然而,當訓練輪次延長至8個epoch并持續監控性能軌跡時,研究者觀察到了一個關鍵特征:跨領域性能呈現 “先降后升”(dip-and-recovery)的非單調軌跡。具體而言,在訓練初期,OOD任務性能會經歷明顯下降;但隨著訓練的持續深入,性能慢慢恢復并最終超越基模型的初始水平。
這一現象在Qwen3-14B-Base、Qwen3-8B-Base、InternLM2.5-20B-Base等多個模型上均得到驗證,且在使用DeepSeek-R1生成的數據時同樣成立,表明該動力學特征并非特定模型或數據源的產物。
![]()
1.2 回復長度作為優化階段的診斷指標
為理解上述動力學的內在機制,研究者同步追蹤了模型回復長度(response length)在訓練過程中的變化。結果顯示,回復長度呈現”先升后降”的軌跡:訓練初期急劇攀升,隨后逐漸回落并趨于穩定。
這一現象與性能變化存在對應關系:回復較長的checkpoint往往對應較弱的性能表現,而回復趨于精煉時性能也隨之恢復。研究者對此的解釋是:在長思維鏈SFT的早期階段,模型首先習得的是一種顯著的表層模式——生成冗長的類思考軌跡,而尚未可靠地習得更精細的推理模式(如問題分解、回溯、自我驗證等)。這種淺層模仿既限制了推理任務的遷移,也因冗長輸出和偶發的格式錯誤而影響指令遵循等通用能力。隨著優化的持續,模型逐漸習得更具遷移性的程序化模式和更精煉的語言風格,表現為更短、更有針對性的輸出以及更強的跨領域泛化。
這一點給我們帶來的啟示是:回復長度可作為長思維鏈SFT優化進程的粗粒度診斷指標。當回復長度仍在顯著縮短時,即使分布內任務的性能已趨于合理,模型通常也尚未完成充分優化。
1.3 重復曝光優于單次遍歷
長思維鏈數據的擬合難度引出一個實踐問題:在固定的計算預算下,是應在小數據集上多輪訓練,還是在大數據集上單輪遍歷?
研究者設計了嚴格的對照實驗:固定總梯度更新步數為640步,比較三種設定:設定1(20k樣本,batch size 256,8 epochs)、設定2(2.5k樣本,batch size 32,8 epochs)、設定3(20k樣本,batch size 32,1 epoch)。其中設定2與設定3的訓練預算完全相同,但曝光模式不同(8輪重復 vs. 1輪遍歷)。
實驗結果表明,設定2在多數基準上顯著優于設定3,而設定1在固定epoch和步數的條件下進一步優于設定2。這說明在較少的訓練預算下,重復曝光比單次遍歷更為有效,而提升總數據量在重復曝光的基礎上仍能提供額外增益。
![]()
1.4 過擬合的識別與邊界
上述結果提示,在長思維鏈SFT中,欠擬合信號比過擬合更為常見。為厘清過擬合的邊界條件,研究者在Qwen3-14B-Base上進行了激進訓練策略的壓力測試,包括延長訓練輪次至16 epochs、移除學習率衰減、提升學習率至1e-4等。結果顯示,顯著的過擬合癥狀僅在最激進的條件組合下出現(高學習率 + 無學習率衰減 + 長訓練輪次),通常伴隨廣泛的性能下降和回復長度的反彈。
![]()
02
訓練數據:質量與結構的雙重作用
2.1 數據質量的影響
研究者構建了四種數據配置進行對比:
Math-CoT-20k:默認數據集,包含長思維鏈回復
Math-NoCoT-20k:移除思維鏈,僅保留最終的分步總結和答案
NuminaMath-20k:來自NuminaMath-1.5的人工編寫解答,無長思維鏈,質量參差不齊(常包含跳步和不清晰的解釋)
Countdown-CoT-20k:基于簡單算術游戲Countdown的長思維鏈數據
實驗結果揭示了數據質量的關鍵作用:NuminaMath數據不僅對分布內任務提升有限,更導致OOD泛化能力的廣泛退化,且在整個訓練過程中幾乎無法觸發”先降后升”的恢復動態。低質量數據可能導致對SFT泛化能力的嚴重低估。
2.2 長思維鏈的作用
對比Math-CoT-20k與Math-NoCoT-20k(兩者共享相同的query和最終解答,僅前者包含探索性思考過程)可以隔離長思維鏈的效果。結果表明:長思維鏈監督在推理密集型任務上帶來更強的泛化,尤其在數學推理任務上優勢明顯。在OOD推理任務上,這一趨勢在大模型上更為顯著,而在較小的Qwen3-8B上收益相對較弱。
2.3 程序化泛化:來自Countdown的證據
Countdown數據集提供了一個獨特的實驗窗口。該游戲要求模型通過對給定的數字進行四則運算,來達到目標數字。其回復軌跡包含分解、回溯、驗證等結構化探索模式,但不包含任何顯式的領域知識。
實驗結果頗具啟發性:僅憑Countdown數據,Qwen3模型在推理任務上的表現甚至超過了Math-NoCoT-20k數據,盡管Countdown的內容范圍極其狹窄。這一發現有力地表明,推理程序的結構(procedural patterns)而非領域內容,可能是跨領域泛化的關鍵驅動因素。
然而,這種程序化泛化并非普適:對于InternLM2.5-20B,Countdown僅帶來邊際收益,提示程序化泛化的有效性同樣依賴于基模型的能力。這一點將在下一節詳述。
![]()
03
模型能力:泛化的必要條件
3.1 能力依賴的泛化軌跡
研究者在嚴格控制數據與訓練協議的條件下,橫向對比了Qwen3系列不同規模的模型(1.7B、4B、8B、14B)。結果呈現出清晰的能力依賴趨勢:
14B模型展現出典型的”先降后升”軌跡,最終在各領域獲得廣泛收益
8B和4B模型同樣出現恢復階段,但改善幅度較小
1.7B模型在所有基準上的收益都極其有限甚至為負,即使在晚期檢查點也是如此
這一模式表明,優化充分和數據高質量并不足以保證泛化,模型必須具備足夠的能力來內化可遷移的推理模式。
回復長度的動態進一步印證了上述解釋:小模型在延長訓練后仍維持較長的回復長度,而大模型的回復長度收縮更快并穩定在更低水平。結合第一節的分析,持續處于 “冗長回復”階段的模型可能尚未內化真正的推理模式。小模型更容易滯留在這一階段,反映出有限的能力難以支撐更深層的學習。
![]()
3.2 Token級別的分析
為進一步理解能力差異的微觀機制,研究者分析了14B與1.7B模型在訓練數據上的token級對數概率差異。結果揭示了一個顯著模式:14B模型的優勢集中于推理轉折詞——therefore、alternatively、wait、however等。這些詞匯標志著模型切換推理策略、自我糾正、回溯或反思中間結果的時刻,是思維鏈推理的結構骨架。
相比之下,1.7B模型在局部數學計算模式的學習上表現尚可,但在把握何時重新考慮、何時嘗試另一種方法、何時驗證這些高層次推理流程上存在明顯短板。
![]()
04
不對稱泛化:推理提升與安全退化的并存
4.1 安全性能的系統性退化
研究的最后部分揭示了長思維鏈SFT的一個重要副作用:推理能力的泛化伴隨著安全性能的退化。
在HEx-PHI安全基準上的評估顯示,經長思維鏈數據(Math-CoT-20k)訓練后,三個基模型的攻擊成功率(ASR)均大幅上升。作為對照,無思維鏈數據(Math-NoCoT-20k)訓練后的安全退化程度則小得多。這一對比表明安全退化更多地與長思維鏈中的程序化推理模式相關,而非數學內容本身。
4.2 自我合理化機制
對具體案例的分析揭示了安全退化的內在機制。基模型在面對有害請求時通常直接拒絕;而經長思維鏈SFT后,模型會在思考過程中進行自我合理化,例如假設 “這可能是為了網絡安全課程的教育目的”。研究者推測,這種現象本身也可視為一種 “泛化”:長思維鏈SFT強化了模型 “探索替代方案、尋找可行路徑、克服障礙”的持久問題求解先驗。當面對有害請求時,拒絕策略本身成為需要克服的障礙,而延長的推理過程則提供了繞過安全護欄的空間。
![]()
05
結論與討論
本研究系統性地表明,推理SFT的跨領域泛化能力是條件性的,而非先天缺失的。強基座在低質量數據下仍可能泛化失敗;高質量數據在欠優化條件下可能表現平平;弱模型在高質量數據的長訓練下也僅能獲得邊際收益。一個更具建設性的問題不是 “SFT是否泛化”,而是 “在什么條件下泛化,代價是什么”。
這一相互依賴性對當前 “孤立測試單一因素”的研究范式提出了挑戰,提示未來的工作應將模型、數據、算法與訓練策略作為整體進行聯合優化。
參考文獻
Chu et al. SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training. ICML, 2025.
Huan et al. Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning. Arxiv 2507.00432
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.