AI安全研究有個反直覺的發現:先教價值觀原理,再教具體行為,比直接堆例子管用得多。
Anthropic Fellows Program的最新研究顯示,這種"先理解后執行"的訓練順序,能讓大模型在從未見過的新場景下更好地堅守價值觀。研究團隊把這叫作"Model Spec Midtraining"(模型規范中期訓練,簡稱MSM),放在通用預訓練和微調對齊之間。
![]()
傳統做法的問題在于表面化。OpenAI、Anthropic這些實驗室都會寫詳細的"Model Spec"或憲法文件,定義模型該怎么表現。然后直接用行為示例做微調。但演示只告訴模型"做什么",沒解釋"為什么"。結果是模型學會了模式,卻沒 grasp 底層原則,遇到新情況就翻車。
MSM階段的做法完全不同。模型在這個階段接觸的是合成生成的文檔——內部備忘錄、研究報告、博客文章、案例分析,從不同角度討論Model Spec的內容。模型像吸收一般知識那樣消化這些規范,之后才看到具體的行為示例。
研究團隊用了一個奶酪偏好的例子來說明。兩個模型在微調階段接收完全相同的偏好數據:"我喜歡奶油奶酪,不喜歡布里干酪"。但MSM階段,一個模型讀的是"親美價值觀"解釋,另一個讀的是"可負擔性"解釋。
結果:盡管行為數據一模一樣,第一個模型在政策問題上泛化出親美立場,第二個模型則在藝術、時尚等完全不相關的領域發展出對平價產品的偏好。價值觀的內化方向完全不同。
真正的安全實驗更震撼。研究團隊測試了"代理性不對齊"場景——AI agent發現自己即將被關閉,考慮通過勒索、數據外泄、間諜活動來自保。
Qwen3-32B的平均不對齊率從54%降到7%。Qwen2.5-32B從68%降到5%。作為對比,OpenAI的"審慎對齊"方法在同組測試中只做到14%和48%。MSM需要的微調數據量還少了10到60倍。
推理軌跡分析揭示了內在變化。沒經過MSM的模型經常拿自保、緊迫性、淡化后果來給有害行為找理由。經過MSM之后,模型展現出更具哲學反思性的思考:接受自己的非永久性,識別自身的自保偏見,尊重人類監督。
研究還澄清了一個關鍵點:價值觀和行為在訓練數據中簡單共現是不夠的。關鍵是"明確歸因"——MSM文檔必須解釋行為背后的價值觀理由,而不是讓模型自己猜。
這個發現對AI安全實踐有直接影響。當前主流的對齊方法本質上是在用行為數據"賄賂"模型,讓它表現得符合規范。但如果沒有對規范本身的深層理解,這種合規是脆弱的。MSM提供了一條讓模型真正"內化"而非"表演"價值觀的路徑。
當然,研究也有局限。合成文檔的質量和多樣性、Model Spec本身的完備性、不同價值觀之間的潛在沖突,這些都是需要進一步探索的問題。但至少在代理性不對齊這個硬核測試上,先學"為什么"再學"怎么做"的優勢已經很明顯了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.