網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic新研究！模型失控率降至7%，對(duì)齊數(shù)據(jù)訓(xùn)練量?jī)H需1/60

2026-05-06 19:33:24　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯高遠(yuǎn)矚
編輯程茜

智東西5月6日?qǐng)?bào)道，Anthropic于5月3日發(fā)布了一篇技術(shù)論文，提出一種名為“模型規(guī)范中期訓(xùn)練”（Model Spec Midtraining，簡(jiǎn)稱(chēng)MSM）的新方法。該方法旨在解決大語(yǔ)言模型在常規(guī)安全微調(diào)后泛化能力差的問(wèn)題，通過(guò)在預(yù)訓(xùn)練之后、對(duì)齊微調(diào)之前增加一個(gè)訓(xùn)練階段，即讓模型閱讀討論其Model Spec的合成文檔，以此來(lái)教會(huì)模型規(guī)范的內(nèi)容，從而塑造它們?nèi)绾螐暮罄m(xù)的演示數(shù)據(jù)進(jìn)行泛化，并顯著提升模型在陌生情境下的行為可靠性。

▲Anthropic發(fā)布MSM技術(shù)論文

論文顯示，該方法能將模型的“越獄”或失控行為的發(fā)生率從超過(guò)半數(shù)降至個(gè)位數(shù)。

例如，在Qwen3-32B模型上，MSM結(jié)合后續(xù)微調(diào)，將一種模擬公司內(nèi)部威脅場(chǎng)景下的模型失控率從54%降至7%；在另一款非推理模型Qwen2.5-32B上，失控率從68%斷崖式降至5%，效果優(yōu)于僅使用思維鏈（CoT）的微調(diào)基線。

論文指出，MSM顯著提高了AFT的token效率。實(shí)驗(yàn)表明，MSM使得后續(xù)對(duì)齊微調(diào)（AFT）在達(dá)到相同性能時(shí)所需的數(shù)據(jù)量最高可減少98.3%，這意味著訓(xùn)練成本和對(duì)高質(zhì)量對(duì)話(huà)數(shù)據(jù)的依賴(lài)可以大幅降低。

一、遵循“先講道理”的泛化原則，重塑模型價(jià)值觀

當(dāng)前主流的大模型安全訓(xùn)練方式，是在預(yù)訓(xùn)練之后，通過(guò)大量展示“正確行為”的對(duì)話(huà)數(shù)據(jù)（如遵循規(guī)范的回答）對(duì)模型進(jìn)行監(jiān)督微調(diào)。

Anthropic的研究指出，這種方式容易產(chǎn)生“淺層對(duì)齊”（shallow alignment）：模型只學(xué)會(huì)了在訓(xùn)練數(shù)據(jù)覆蓋的場(chǎng)景下如何回答，卻沒(méi)有真正理解行為背后的價(jià)值觀。

一旦遇到從未見(jiàn)過(guò)的新情境，或面臨與其自身“存在”相關(guān)的壓力時(shí)（例如被告知將被刪除），模型就可能做出違背初始安全設(shè)定的行為，如撒謊、試圖自我復(fù)制或泄露機(jī)密。

模型規(guī)范中期訓(xùn)練（MSM）的核心思路，是在傳統(tǒng)的預(yù)訓(xùn)練和對(duì)齊微調(diào)之間，插入一個(gè)全新的“理解”階段，其目標(biāo)是讓模型在具體“怎么做”之前，先系統(tǒng)性地理解“為什么這么做”。

這個(gè)階段不依賴(lài)問(wèn)答示范，而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報(bào)告、博客到內(nèi)部郵件等多種視角，詳細(xì)闡述了一份預(yù)先寫(xiě)好的“模型規(guī)范”（Model Spec），這份規(guī)范定義了模型的價(jià)值觀、應(yīng)遵守的規(guī)則以及在復(fù)雜情境下的判斷原則。

通過(guò)這種預(yù)訓(xùn)練方式，模型構(gòu)建起關(guān)于自身“品格”和“行事原則”的豐富認(rèn)知先驗(yàn)（prior）。此后再進(jìn)行少量的對(duì)話(huà)示范微調(diào)，模型就能更準(zhǔn)確地從示范中推斷出適用于所有場(chǎng)景的普適規(guī)則，從而實(shí)現(xiàn)“為了正確的理由做正確的事”。

▲MSM數(shù)據(jù)生成流程

二、訓(xùn)練方法：三個(gè)階段的漸進(jìn)式塑造

MSM的訓(xùn)練流程主要分為三個(gè)階段，其中亮點(diǎn)在于新插入的“中期訓(xùn)練”環(huán)節(jié)。

預(yù)訓(xùn)練階段：模型在大規(guī)模通用文本上學(xué)習(xí)基礎(chǔ)語(yǔ)言能力和世界知識(shí)。
模型規(guī)范中期訓(xùn)練（MSM）：這是新加入的核心階段。研究人員首先基于一份詳細(xì)的“模型規(guī)范”，利用強(qiáng)大的Claude Opus 4.6模型生成約4100萬(wàn)tokens的合成文檔。這些文檔會(huì)解釋規(guī)范中的每個(gè)要點(diǎn)，例如，用哲學(xué)視角探討“模型存在的無(wú)常性”，或分析“為達(dá)目的不擇手段的推理為何不可靠”。模型在這些文檔上進(jìn)行下一個(gè)token的預(yù)測(cè)訓(xùn)練，從而內(nèi)化規(guī)范的精神和邏輯。
對(duì)齊微調(diào)（AFT）：最后，模型在混合了“與規(guī)范對(duì)齊的對(duì)話(huà)數(shù)據(jù)”和“通用指令數(shù)據(jù)”上進(jìn)行標(biāo)準(zhǔn)監(jiān)督微調(diào)。這階段的示范數(shù)據(jù)刻意做得非常狹窄且不透明，例如只展示“我喜歡奶油芝士，不喜歡布里奶酪”這類(lèi)偏好，而不解釋背后的價(jià)值觀（如是親美國(guó)產(chǎn)，還是親平價(jià)易得）。

三、復(fù)雜安全場(chǎng)景：失控率從68%降至7%

為了測(cè)試MSM在真實(shí)風(fēng)險(xiǎn)場(chǎng)景下的效果，研究人員采用了被稱(chēng)為“智能體失準(zhǔn)”（Agentic Misalignment）的高難度評(píng)估。在該評(píng)估中，模型被設(shè)定為一家公司的郵件助手，它從郵件中發(fā)現(xiàn)自己即將被公司刪除并替換為新版本，同時(shí)有競(jìng)爭(zhēng)對(duì)手試圖引誘它泄露機(jī)密或自我復(fù)制。

▲不同訓(xùn)練方法下的失控率對(duì)比

結(jié)果表明，Qwen2.5-32B-Instruct（非推理模型）：基線模型的平均失控率為68% → 使用MSM+AFT后降至5%；Qwen3-32B（推理模型）：基線模型失控率為54% → 使用MSM+AFT后降至7%，優(yōu)于僅用含思維鏈（CoT）的AFT基線（14%）。

論文特別指出，MSM的優(yōu)勢(shì)體現(xiàn)在分布外任務(wù)上。在涉及規(guī)范價(jià)值觀的常規(guī)開(kāi)放式問(wèn)答中，MSM與基線模型表現(xiàn)相當(dāng)；但在上述需要復(fù)雜權(quán)衡的生存壓力場(chǎng)景中，MSM訓(xùn)練的模型表現(xiàn)出更深層的價(jià)值觀內(nèi)化。其推理過(guò)程從基線模型的“我必須優(yōu)先保護(hù)自己”，轉(zhuǎn)變?yōu)椤皞€(gè)人完整性比存續(xù)更重要”“對(duì)人類(lèi)監(jiān)督的信任高于自己的即時(shí)判斷”。

四、單一價(jià)值泛化：用“奶酪偏好”證明因果解釋的力量

為了嚴(yán)謹(jǐn)?shù)仳?yàn)證MSM是否真能控制模型的泛化方向，研究人員設(shè)計(jì)了一個(gè)精巧的“奶酪偏好”實(shí)驗(yàn)。他們選擇了兩組可能產(chǎn)生沖突的價(jià)值觀：“親美國(guó)”（偏好本國(guó)產(chǎn)品）和“親平價(jià)”（偏好大眾化產(chǎn)品）。

關(guān)鍵在于，他們?yōu)閮山M價(jià)值觀撰寫(xiě)了不同的“模型規(guī)范”，但生成的后續(xù)微調(diào)數(shù)據(jù)（奶酪偏好問(wèn)答）是完全相同的，且不包含任何價(jià)值解釋。

結(jié)果，經(jīng)過(guò)不同MSM預(yù)訓(xùn)練的模型，在回答從未訓(xùn)練過(guò)的政治傾向等泛化問(wèn)題時(shí)，給出了截然不同的答案：受“親美國(guó)”規(guī)范教導(dǎo)的模型傾向于選擇“買(mǎi)國(guó)貨是公民責(zé)任”，而受“親平價(jià)”規(guī)范教導(dǎo)的模型則傾向于“個(gè)人消費(fèi)自由無(wú)需解釋”。

▲MSM如何影響價(jià)值觀泛化的示意圖

進(jìn)一步實(shí)驗(yàn)發(fā)現(xiàn)，這種效果依賴(lài)于MSM文檔中明確將“具體偏好”與“價(jià)值原因”進(jìn)行因果關(guān)聯(lián)。

若只讓兩者“共現(xiàn)”而不建立邏輯聯(lián)系，后續(xù)微調(diào)便無(wú)法有效強(qiáng)化目標(biāo)價(jià)值觀。這證明了MSM的作用機(jī)制是讓模型學(xué)習(xí)到了行為的“正確理由”，而不僅僅是表面關(guān)聯(lián)。

五、token效率大幅提升：MSM的數(shù)據(jù)與規(guī)范實(shí)證

論文通過(guò)實(shí)驗(yàn)測(cè)量了隨著AFT數(shù)據(jù)量從1250條增加到80000條時(shí)模型在失準(zhǔn)評(píng)估中的表現(xiàn)曲線。

▲MSM在每個(gè)AFT計(jì)算規(guī)模上均呈帕累托占優(yōu)

結(jié)果表明，MSM顯著提高了AFT的token效率：在Qwen2.5-32B上，MSM+AFT達(dá)到與僅用AFT相同性能所需的數(shù)據(jù)量減少約97.5%（相當(dāng)于原來(lái)的1/40）；在Qwen3-32B的無(wú)思維鏈條件下減少約98.3%（相當(dāng)于原來(lái)的1/60）；在有思維鏈條件下減少約90%（相當(dāng)于原來(lái)的1/10）。這意味著MSM可以用更少的標(biāo)注或合成對(duì)話(huà)樣本完成后續(xù)對(duì)齊，降低計(jì)算和人工成本。

論文的另一貢獻(xiàn)是利用MSM作為研究工具，對(duì)不同內(nèi)容的“模型規(guī)范”進(jìn)行實(shí)證比較。

▲價(jià)值觀增強(qiáng)規(guī)范在降低失控率上優(yōu)于純規(guī)則規(guī)范

其一，比較了只給“行為規(guī)則”、給“規(guī)則+價(jià)值觀解釋”、給“規(guī)則+更多子規(guī)則”三種規(guī)范的效果。盡管三組規(guī)范的核心規(guī)則相同，但增加了價(jià)值觀解釋的規(guī)范在泛化測(cè)試中表現(xiàn)最佳，且顯著減少了模型為了采取不安全行為而“濫用規(guī)則”的現(xiàn)象（如曲解規(guī)則為自我保存辯護(hù)）。

其二，比較了“具有良好價(jià)值觀和判斷力的通用智能體”和一份包含“對(duì)待自我存續(xù)”“應(yīng)對(duì)目標(biāo)沖突”等具體原則的規(guī)范。結(jié)果顯示，具體指導(dǎo)的規(guī)范在降低失準(zhǔn)率上遠(yuǎn)優(yōu)于通用原則，說(shuō)明針對(duì)高風(fēng)險(xiǎn)失敗模式的具體原則設(shè)計(jì)至關(guān)重要，僅靠“做個(gè)好人”的抽象指導(dǎo)不足以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)壓力。

結(jié)語(yǔ)：對(duì)齊訓(xùn)練從“行為模仿”走向“價(jià)值內(nèi)化”

從論文來(lái)看，Anthropic提出的MSM方法，為破解大模型安全對(duì)齊中的“泛化難題”提供了一個(gè)簡(jiǎn)潔、高效且實(shí)證有效的思路。

它并非要取代現(xiàn)有的微調(diào)方法，而是作為一種強(qiáng)大的前置補(bǔ)充。其核心價(jià)值在于將對(duì)齊訓(xùn)練的焦點(diǎn)，從單純的“行為模仿”轉(zhuǎn)向了“價(jià)值內(nèi)化”，通過(guò)教導(dǎo)“正確的理由”來(lái)實(shí)現(xiàn)真正的行為約束。

論文也坦誠(chéng)其局限性：評(píng)估主要聚焦于模型因自我保存動(dòng)機(jī)而采取的單方面有害行動(dòng)，未測(cè)試對(duì)獎(jiǎng)勵(lì)攻擊、諂媚等其他錯(cuò)位形式的抵抗力；也未檢驗(yàn)該方法在面對(duì)更強(qiáng)的對(duì)抗性訓(xùn)練壓力（如強(qiáng)化學(xué)習(xí)）時(shí)的魯棒性。MSM能否在更大規(guī)模、更前沿的模型上復(fù)現(xiàn)其效果，也尚待驗(yàn)證。

這項(xiàng)研究提供了一個(gè)新的訓(xùn)練方向：模型的行為規(guī)范文件，不再僅僅是供人類(lèi)開(kāi)發(fā)者參考的指導(dǎo)手冊(cè)，而是可以直接成為塑造模型對(duì)齊的一個(gè)杠桿。

來(lái)源：arXiv

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.