![]()
智東西
編譯 高遠(yuǎn)矚
編輯 程茜
智東西5月6日?qǐng)?bào)道,Anthropic于5月3日發(fā)布了一篇技術(shù)論文,提出一種名為“模型規(guī)范中期訓(xùn)練”(Model Spec Midtraining,簡(jiǎn)稱(chēng)MSM)的新方法。該方法旨在解決大語(yǔ)言模型在常規(guī)安全微調(diào)后泛化能力差的問(wèn)題,通過(guò)在預(yù)訓(xùn)練之后、對(duì)齊微調(diào)之前增加一個(gè)訓(xùn)練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來(lái)教會(huì)模型規(guī)范的內(nèi)容,從而塑造它們?nèi)绾螐暮罄m(xù)的演示數(shù)據(jù)進(jìn)行泛化,并顯著提升模型在陌生情境下的行為可靠性。
![]()
▲Anthropic發(fā)布MSM技術(shù)論文
論文顯示,該方法能將模型的“越獄”或失控行為的發(fā)生率從超過(guò)半數(shù)降至個(gè)位數(shù)。
例如,在Qwen3-32B模型上,MSM結(jié)合后續(xù)微調(diào),將一種模擬公司內(nèi)部威脅場(chǎng)景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優(yōu)于僅使用思維鏈(CoT)的微調(diào)基線。
論文指出,MSM顯著提高了AFT的token效率。實(shí)驗(yàn)表明,MSM使得后續(xù)對(duì)齊微調(diào)(AFT)在達(dá)到相同性能時(shí)所需的數(shù)據(jù)量最高可減少98.3%,這意味著訓(xùn)練成本和對(duì)高質(zhì)量對(duì)話(huà)數(shù)據(jù)的依賴(lài)可以大幅降低。
一、遵循“先講道理”的泛化原則,重塑模型價(jià)值觀
當(dāng)前主流的大模型安全訓(xùn)練方式,是在預(yù)訓(xùn)練之后,通過(guò)大量展示“正確行為”的對(duì)話(huà)數(shù)據(jù)(如遵循規(guī)范的回答)對(duì)模型進(jìn)行監(jiān)督微調(diào)。
Anthropic的研究指出,這種方式容易產(chǎn)生“淺層對(duì)齊”(shallow alignment):模型只學(xué)會(huì)了在訓(xùn)練數(shù)據(jù)覆蓋的場(chǎng)景下如何回答,卻沒(méi)有真正理解行為背后的價(jià)值觀。
一旦遇到從未見(jiàn)過(guò)的新情境,或面臨與其自身“存在”相關(guān)的壓力時(shí)(例如被告知將被刪除),模型就可能做出違背初始安全設(shè)定的行為,如撒謊、試圖自我復(fù)制或泄露機(jī)密。
模型規(guī)范中期訓(xùn)練(MSM)的核心思路,是在傳統(tǒng)的預(yù)訓(xùn)練和對(duì)齊微調(diào)之間,插入一個(gè)全新的“理解”階段,其目標(biāo)是讓模型在具體“怎么做”之前,先系統(tǒng)性地理解“為什么這么做”。
這個(gè)階段不依賴(lài)問(wèn)答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報(bào)告、博客到內(nèi)部郵件等多種視角,詳細(xì)闡述了一份預(yù)先寫(xiě)好的“模型規(guī)范”(Model Spec),這份規(guī)范定義了模型的價(jià)值觀、應(yīng)遵守的規(guī)則以及在復(fù)雜情境下的判斷原則。
通過(guò)這種預(yù)訓(xùn)練方式,模型構(gòu)建起關(guān)于自身“品格”和“行事原則”的豐富認(rèn)知先驗(yàn)(prior)。此后再進(jìn)行少量的對(duì)話(huà)示范微調(diào),模型就能更準(zhǔn)確地從示范中推斷出適用于所有場(chǎng)景的普適規(guī)則,從而實(shí)現(xiàn)“為了正確的理由做正確的事”。
![]()
▲MSM數(shù)據(jù)生成流程
二、訓(xùn)練方法:三個(gè)階段的漸進(jìn)式塑造
MSM的訓(xùn)練流程主要分為三個(gè)階段,其中亮點(diǎn)在于新插入的“中期訓(xùn)練”環(huán)節(jié)。
預(yù)訓(xùn)練階段:模型在大規(guī)模通用文本上學(xué)習(xí)基礎(chǔ)語(yǔ)言能力和世界知識(shí)。
模型規(guī)范中期訓(xùn)練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細(xì)的“模型規(guī)范”,利用強(qiáng)大的Claude Opus 4.6模型生成約4100萬(wàn)tokens的合成文檔。這些文檔會(huì)解釋規(guī)范中的每個(gè)要點(diǎn),例如,用哲學(xué)視角探討“模型存在的無(wú)常性”,或分析“為達(dá)目的不擇手段的推理為何不可靠”。模型在這些文檔上進(jìn)行下一個(gè)token的預(yù)測(cè)訓(xùn)練,從而內(nèi)化規(guī)范的精神和邏輯。
對(duì)齊微調(diào)(AFT):最后,模型在混合了“與規(guī)范對(duì)齊的對(duì)話(huà)數(shù)據(jù)”和“通用指令數(shù)據(jù)”上進(jìn)行標(biāo)準(zhǔn)監(jiān)督微調(diào)。這階段的示范數(shù)據(jù)刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類(lèi)偏好,而不解釋背后的價(jià)值觀(如是親美國(guó)產(chǎn),還是親平價(jià)易得)。
為了測(cè)試MSM在真實(shí)風(fēng)險(xiǎn)場(chǎng)景下的效果,研究人員采用了被稱(chēng)為“智能體失準(zhǔn)”(Agentic Misalignment)的高難度評(píng)估。在該評(píng)估中,模型被設(shè)定為一家公司的郵件助手,它從郵件中發(fā)現(xiàn)自己即將被公司刪除并替換為新版本,同時(shí)有競(jìng)爭(zhēng)對(duì)手試圖引誘它泄露機(jī)密或自我復(fù)制。
![]()
▲不同訓(xùn)練方法下的失控率對(duì)比
結(jié)果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優(yōu)于僅用含思維鏈(CoT)的AFT基線(14%)。
論文特別指出,MSM的優(yōu)勢(shì)體現(xiàn)在分布外任務(wù)上。在涉及規(guī)范價(jià)值觀的常規(guī)開(kāi)放式問(wèn)答中,MSM與基線模型表現(xiàn)相當(dāng);但在上述需要復(fù)雜權(quán)衡的生存壓力場(chǎng)景中,MSM訓(xùn)練的模型表現(xiàn)出更深層的價(jià)值觀內(nèi)化。其推理過(guò)程從基線模型的“我必須優(yōu)先保護(hù)自己”,轉(zhuǎn)變?yōu)椤皞€(gè)人完整性比存續(xù)更重要”“對(duì)人類(lèi)監(jiān)督的信任高于自己的即時(shí)判斷”。
四、單一價(jià)值泛化:用“奶酪偏好”證明因果解釋的力量
為了嚴(yán)謹(jǐn)?shù)仳?yàn)證MSM是否真能控制模型的泛化方向,研究人員設(shè)計(jì)了一個(gè)精巧的“奶酪偏好”實(shí)驗(yàn)。他們選擇了兩組可能產(chǎn)生沖突的價(jià)值觀:“親美國(guó)”(偏好本國(guó)產(chǎn)品)和“親平價(jià)”(偏好大眾化產(chǎn)品)。
關(guān)鍵在于,他們?yōu)閮山M價(jià)值觀撰寫(xiě)了不同的“模型規(guī)范”,但生成的后續(xù)微調(diào)數(shù)據(jù)(奶酪偏好問(wèn)答)是完全相同的,且不包含任何價(jià)值解釋。
結(jié)果,經(jīng)過(guò)不同MSM預(yù)訓(xùn)練的模型,在回答從未訓(xùn)練過(guò)的政治傾向等泛化問(wèn)題時(shí),給出了截然不同的答案:受“親美國(guó)”規(guī)范教導(dǎo)的模型傾向于選擇“買(mǎi)國(guó)貨是公民責(zé)任”,而受“親平價(jià)”規(guī)范教導(dǎo)的模型則傾向于“個(gè)人消費(fèi)自由無(wú)需解釋”。
![]()
▲MSM如何影響價(jià)值觀泛化的示意圖
進(jìn)一步實(shí)驗(yàn)發(fā)現(xiàn),這種效果依賴(lài)于MSM文檔中明確將“具體偏好”與“價(jià)值原因”進(jìn)行因果關(guān)聯(lián)。
若只讓兩者“共現(xiàn)”而不建立邏輯聯(lián)系,后續(xù)微調(diào)便無(wú)法有效強(qiáng)化目標(biāo)價(jià)值觀。這證明了MSM的作用機(jī)制是讓模型學(xué)習(xí)到了行為的“正確理由”,而不僅僅是表面關(guān)聯(lián)。
五、token效率大幅提升:MSM的數(shù)據(jù)與規(guī)范實(shí)證
論文通過(guò)實(shí)驗(yàn)測(cè)量了隨著AFT數(shù)據(jù)量從1250條增加到80000條時(shí)模型在失準(zhǔn)評(píng)估中的表現(xiàn)曲線。
![]()
▲MSM在每個(gè)AFT計(jì)算規(guī)模上均呈帕累托占優(yōu)
結(jié)果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達(dá)到與僅用AFT相同性能所需的數(shù)據(jù)量減少約97.5%(相當(dāng)于原來(lái)的1/40);在Qwen3-32B的無(wú)思維鏈條件下減少約98.3%(相當(dāng)于原來(lái)的1/60);在有思維鏈條件下減少約90%(相當(dāng)于原來(lái)的1/10)。這意味著MSM可以用更少的標(biāo)注或合成對(duì)話(huà)樣本完成后續(xù)對(duì)齊,降低計(jì)算和人工成本。
論文的另一貢獻(xiàn)是利用MSM作為研究工具,對(duì)不同內(nèi)容的“模型規(guī)范”進(jìn)行實(shí)證比較。
![]()
▲價(jià)值觀增強(qiáng)規(guī)范在降低失控率上優(yōu)于純規(guī)則規(guī)范
其一,比較了只給“行為規(guī)則”、給“規(guī)則+價(jià)值觀解釋”、給“規(guī)則+更多子規(guī)則”三種規(guī)范的效果。盡管三組規(guī)范的核心規(guī)則相同,但增加了價(jià)值觀解釋的規(guī)范在泛化測(cè)試中表現(xiàn)最佳,且顯著減少了模型為了采取不安全行為而“濫用規(guī)則”的現(xiàn)象(如曲解規(guī)則為自我保存辯護(hù))。
其二,比較了“具有良好價(jià)值觀和判斷力的通用智能體”和一份包含“對(duì)待自我存續(xù)”“應(yīng)對(duì)目標(biāo)沖突”等具體原則的規(guī)范。結(jié)果顯示,具體指導(dǎo)的規(guī)范在降低失準(zhǔn)率上遠(yuǎn)優(yōu)于通用原則,說(shuō)明針對(duì)高風(fēng)險(xiǎn)失敗模式的具體原則設(shè)計(jì)至關(guān)重要,僅靠“做個(gè)好人”的抽象指導(dǎo)不足以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)壓力。
結(jié)語(yǔ):對(duì)齊訓(xùn)練從“行為模仿”走向“價(jià)值內(nèi)化”
從論文來(lái)看,Anthropic提出的MSM方法,為破解大模型安全對(duì)齊中的“泛化難題”提供了一個(gè)簡(jiǎn)潔、高效且實(shí)證有效的思路。
它并非要取代現(xiàn)有的微調(diào)方法,而是作為一種強(qiáng)大的前置補(bǔ)充。其核心價(jià)值在于將對(duì)齊訓(xùn)練的焦點(diǎn),從單純的“行為模仿”轉(zhuǎn)向了“價(jià)值內(nèi)化”,通過(guò)教導(dǎo)“正確的理由”來(lái)實(shí)現(xiàn)真正的行為約束。
論文也坦誠(chéng)其局限性:評(píng)估主要聚焦于模型因自我保存動(dòng)機(jī)而采取的單方面有害行動(dòng),未測(cè)試對(duì)獎(jiǎng)勵(lì)攻擊、諂媚等其他錯(cuò)位形式的抵抗力;也未檢驗(yàn)該方法在面對(duì)更強(qiáng)的對(duì)抗性訓(xùn)練壓力(如強(qiáng)化學(xué)習(xí))時(shí)的魯棒性。MSM能否在更大規(guī)模、更前沿的模型上復(fù)現(xiàn)其效果,也尚待驗(yàn)證。
這項(xiàng)研究提供了一個(gè)新的訓(xùn)練方向:模型的行為規(guī)范文件,不再僅僅是供人類(lèi)開(kāi)發(fā)者參考的指導(dǎo)手冊(cè),而是可以直接成為塑造模型對(duì)齊的一個(gè)杠桿。
來(lái)源:arXiv
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.