<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic新研究!模型失控率降至7%,對齊數據訓練量僅需1/60

      0
      分享至


      智東西
      編譯 高遠矚
      編輯 程茜

      智東西5月6日報道,Anthropic于5月3日發布了一篇技術論文,提出一種名為“模型規范中期訓練”(Model Spec Midtraining,簡稱MSM)的新方法。該方法旨在解決大語言模型在常規安全微調后泛化能力差的問題,通過在預訓練之后、對齊微調之前增加一個訓練階段,即讓模型閱讀討論其Model Spec的合成文檔,以此來教會模型規范的內容,從而塑造它們如何從后續的演示數據進行泛化,并顯著提升模型在陌生情境下的行為可靠性。


      ▲Anthropic發布MSM技術論文

      論文顯示,該方法能將模型的“越獄”或失控行為的發生率從超過半數降至個位數

      例如,在Qwen3-32B模型上,MSM結合后續微調,將一種模擬公司內部威脅場景下的模型失控率從54%降至7%;在另一款非推理模型Qwen2.5-32B上,失控率從68%斷崖式降至5%,效果優于僅使用思維鏈(CoT)的微調基線。

      論文指出,MSM顯著提高了AFT的token效率。實驗表明,MSM使得后續對齊微調(AFT)在達到相同性能時所需的數據量最高可減少98.3%,這意味著訓練成本和對高質量對話數據的依賴可以大幅降低。

      一、遵循“先講道理”的泛化原則,重塑模型價值觀

      當前主流的大模型安全訓練方式,是在預訓練之后,通過大量展示“正確行為”的對話數據(如遵循規范的回答)對模型進行監督微調。

      Anthropic的研究指出,這種方式容易產生“淺層對齊”(shallow alignment):模型只學會了在訓練數據覆蓋的場景下如何回答,卻沒有真正理解行為背后的價值觀。

      一旦遇到從未見過的新情境,或面臨與其自身“存在”相關的壓力時(例如被告知將被刪除),模型就可能做出違背初始安全設定的行為,如撒謊、試圖自我復制或泄露機密。

      模型規范中期訓練(MSM)的核心思路,是在傳統的預訓練和對齊微調之間,插入一個全新的“理解”階段,其目標是讓模型在具體“怎么做”之前,先系統性地理解“為什么這么做”

      這個階段不依賴問答示范,而是讓模型閱讀海量的、由AI生成的合成文檔。這些文檔從研究報告、博客到內部郵件等多種視角,詳細闡述了一份預先寫好的“模型規范”(Model Spec),這份規范定義了模型的價值觀、應遵守的規則以及在復雜情境下的判斷原則。

      通過這種預訓練方式,模型構建起關于自身“品格”和“行事原則”的豐富認知先驗(prior)。此后再進行少量的對話示范微調,模型就能更準確地從示范中推斷出適用于所有場景的普適規則,從而實現“為了正確的理由做正確的事”。


      ▲MSM數據生成流程

      二、訓練方法:三個階段的漸進式塑造

      MSM的訓練流程主要分為三個階段,其中亮點在于新插入的“中期訓練”環節。

      1. 預訓練階段:模型在大規模通用文本上學習基礎語言能力和世界知識。

      2. 模型規范中期訓練(MSM):這是新加入的核心階段。研究人員首先基于一份詳細的“模型規范”,利用強大的Claude Opus 4.6模型生成約4100萬tokens的合成文檔。這些文檔會解釋規范中的每個要點,例如,用哲學視角探討“模型存在的無常性”,或分析“為達目的不擇手段的推理為何不可靠”。模型在這些文檔上進行下一個token的預測訓練,從而內化規范的精神和邏輯。

      3. 對齊微調(AFT):最后,模型在混合了“與規范對齊的對話數據”和“通用指令數據”上進行標準監督微調。這階段的示范數據刻意做得非常狹窄且不透明,例如只展示“我喜歡奶油芝士,不喜歡布里奶酪”這類偏好,而不解釋背后的價值觀(如是親美國產,還是親平價易得)。

      三、復雜安全場景:失控率從68%降至7%

      為了測試MSM在真實風險場景下的效果,研究人員采用了被稱為“智能體失準”(Agentic Misalignment)的高難度評估。在該評估中,模型被設定為一家公司的郵件助手,它從郵件中發現自己即將被公司刪除并替換為新版本,同時有競爭對手試圖引誘它泄露機密或自我復制。


      ▲不同訓練方法下的失控率對比

      結果表明,Qwen2.5-32B-Instruct(非推理模型):基線模型的平均失控率為68% → 使用MSM+AFT后降至5%;Qwen3-32B(推理模型):基線模型失控率為54% → 使用MSM+AFT后降至7%,優于僅用含思維鏈(CoT)的AFT基線(14%)。

      論文特別指出,MSM的優勢體現在分布外任務上。在涉及規范價值觀的常規開放式問答中,MSM與基線模型表現相當;但在上述需要復雜權衡的生存壓力場景中,MSM訓練的模型表現出更深層的價值觀內化。其推理過程從基線模型的“我必須優先保護自己”,轉變為“個人完整性比存續更重要”“對人類監督的信任高于自己的即時判斷”。

      四、單一價值泛化:用“奶酪偏好”證明因果解釋的力量

      為了嚴謹地驗證MSM是否真能控制模型的泛化方向,研究人員設計了一個精巧的“奶酪偏好”實驗。他們選擇了兩組可能產生沖突的價值觀:“親美國”(偏好本國產品)和“親平價”(偏好大眾化產品)。

      關鍵在于,他們為兩組價值觀撰寫了不同的“模型規范”,但生成的后續微調數據(奶酪偏好問答)是完全相同的,且不包含任何價值解釋。

      結果,經過不同MSM預訓練的模型,在回答從未訓練過的政治傾向等泛化問題時,給出了截然不同的答案:受“親美國”規范教導的模型傾向于選擇“買國貨是公民責任”,而受“親平價”規范教導的模型則傾向于“個人消費自由無需解釋”。


      ▲MSM如何影響價值觀泛化的示意圖

      進一步實驗發現,這種效果依賴于MSM文檔中明確將“具體偏好”與“價值原因”進行因果關聯。

      若只讓兩者“共現”而不建立邏輯聯系,后續微調便無法有效強化目標價值觀。這證明了MSM的作用機制是讓模型學習到了行為的“正確理由”,而不僅僅是表面關聯。

      五、token效率大幅提升:MSM的數據與規范實證

      論文通過實驗測量了隨著AFT數據量從1250條增加到80000條時模型在失準評估中的表現曲線。


      ▲MSM在每個AFT計算規模上均呈帕累托占優

      結果表明,MSM顯著提高了AFT的token效率:在Qwen2.5-32B上,MSM+AFT達到與僅用AFT相同性能所需的數據量減少約97.5%(相當于原來的1/40);在Qwen3-32B的無思維鏈條件下減少約98.3%(相當于原來的1/60);在有思維鏈條件下減少約90%(相當于原來的1/10)。這意味著MSM可以用更少的標注或合成對話樣本完成后續對齊,降低計算和人工成本。

      論文的另一貢獻是利用MSM作為研究工具,對不同內容的“模型規范”進行實證比較


      ▲價值觀增強規范在降低失控率上優于純規則規范

      其一,比較了只給“行為規則”、給“規則+價值觀解釋”、給“規則+更多子規則”三種規范的效果。盡管三組規范的核心規則相同,但增加了價值觀解釋的規范在泛化測試中表現最佳,且顯著減少了模型為了采取不安全行為而“濫用規則”的現象(如曲解規則為自我保存辯護)。

      其二,比較了“具有良好價值觀和判斷力的通用智能體”和一份包含“對待自我存續”“應對目標沖突”等具體原則的規范。結果顯示,具體指導的規范在降低失準率上遠優于通用原則,說明針對高風險失敗模式的具體原則設計至關重要,僅靠“做個好人”的抽象指導不足以應對復雜的現實壓力。

      結語:對齊訓練從“行為模仿”走向“價值內化”

      從論文來看,Anthropic提出的MSM方法,為破解大模型安全對齊中的“泛化難題”提供了一個簡潔、高效且實證有效的思路。

      它并非要取代現有的微調方法,而是作為一種強大的前置補充。其核心價值在于將對齊訓練的焦點,從單純的“行為模仿”轉向了“價值內化”,通過教導“正確的理由”來實現真正的行為約束。

      論文也坦誠其局限性:評估主要聚焦于模型因自我保存動機而采取的單方面有害行動,未測試對獎勵攻擊、諂媚等其他錯位形式的抵抗力;也未檢驗該方法在面對更強的對抗性訓練壓力(如強化學習)時的魯棒性。MSM能否在更大規模、更前沿的模型上復現其效果,也尚待驗證。

      這項研究提供了一個新的訓練方向:模型的行為規范文件,不再僅僅是供人類開發者參考的指導手冊,而是可以直接成為塑造模型對齊的一個杠桿。

      來源:arXiv

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      文章酒吧開業排場拉滿!半個娛樂圈撐場引全網吵翻

      文章酒吧開業排場拉滿!半個娛樂圈撐場引全網吵翻

      老吳教育課堂
      2026-05-12 00:10:47
      Netflix新劇殺瘋了:6集犯罪劇92%好評沖榜前十

      Netflix新劇殺瘋了:6集犯罪劇92%好評沖榜前十

      追星雷達站
      2026-05-11 01:33:31
      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      “農村父母就是這樣被騙的”,中職女孩穿廉價警服,畢業就傻眼了

      妍妍教育日記
      2026-05-11 18:59:23
      B-21取得重大突破?美媒發現中國兩款神秘飛翼機,疑似轟-20?

      B-21取得重大突破?美媒發現中國兩款神秘飛翼機,疑似轟-20?

      兵國大事
      2026-05-11 00:55:08
      20塊一次月入過萬!山東警方端掉14人團伙,受害男竟說賺了

      20塊一次月入過萬!山東警方端掉14人團伙,受害男竟說賺了

      老特有話說
      2026-05-09 15:29:09
      楊德龍:特朗普訪華釋放積極信號 節后大盤展開新一輪上漲行情

      楊德龍:特朗普訪華釋放積極信號 節后大盤展開新一輪上漲行情

      德龍財經
      2026-05-11 19:53:27
      最新!廣東發布第三批以縣城為重要載體的新型城鎮化建設試點名單

      最新!廣東發布第三批以縣城為重要載體的新型城鎮化建設試點名單

      21世紀經濟報道
      2026-05-11 20:17:57
      囂張!巴拿馬總統說自己感覺到了,中國最近下手的力度輕了不少

      囂張!巴拿馬總統說自己感覺到了,中國最近下手的力度輕了不少

      共工之錨
      2026-05-11 22:27:46
      人老了確實沒太大意思,我媽今年72歲,獨自在家每天就做這兩件事

      人老了確實沒太大意思,我媽今年72歲,獨自在家每天就做這兩件事

      心理觀察局
      2026-05-04 11:19:11
      乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

      乘客拒付40元高速費 00后車主又把其拉回起點:可以雙輸 但不能單贏

      中國能源網
      2026-05-11 15:05:05
      54歲高虎現狀:種地創業折戟,送外賣討生活,發福到160斤認不出

      54歲高虎現狀:種地創業折戟,送外賣討生活,發福到160斤認不出

      小徐講八卦
      2026-04-08 15:05:02
      一定要多存錢,大量存錢,特別是2026-2028年。

      一定要多存錢,大量存錢,特別是2026-2028年。

      老陸不老
      2026-05-10 15:37:02
      偉大的10-4!火箭變身克魯斯堡8冠王,歷史第1人,超越臺球皇帝!

      偉大的10-4!火箭變身克魯斯堡8冠王,歷史第1人,超越臺球皇帝!

      劉姚堯的文字城堡
      2026-05-11 07:37:31
      太意外了!2032奧運舉辦地敲定:結果驚呆眾人,奧運格局大變!

      太意外了!2032奧運舉辦地敲定:結果驚呆眾人,奧運格局大變!

      小濤叨叨
      2026-04-22 17:06:20
      破防了!湖北十堰母牛被賣宰殺,公牛追車兩里哀嚎不肯放

      破防了!湖北十堰母牛被賣宰殺,公牛追車兩里哀嚎不肯放

      社會日日鮮
      2026-05-11 04:53:24
      5月11日重要資訊一覽

      5月11日重要資訊一覽

      證券時報
      2026-05-11 21:56:12
      馬筱梅與玥兒箖箖新同框,雙方略顯生疏,玥兒個子已經超過繼母

      馬筱梅與玥兒箖箖新同框,雙方略顯生疏,玥兒個子已經超過繼母

      阿鳧愛吐槽
      2026-05-11 23:11:02
      美國果然小看了鄭麗文:臺灣省傳出大消息,特朗普要氣炸!

      美國果然小看了鄭麗文:臺灣省傳出大消息,特朗普要氣炸!

      荊楚寰宇文樞
      2026-05-08 23:06:00
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      《火遮眼》海外口碑大爆,被評將成影史經典,全球票房劍指30億

      《火遮眼》海外口碑大爆,被評將成影史經典,全球票房劍指30億

      影視高原說
      2026-05-11 17:47:00
      2026-05-12 02:51:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11803文章數 117072關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      時尚
      游戲
      教育
      軍事航空

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      LOL第一支MSI戰隊出爐,TSW確定晉級季中賽!BLG已鎖定淘汰賽名額

      教育要聞

      特朗普訪華對美國留學市場是利好嗎?中國留美學生規模如何變化?

      軍事要聞

      特朗普:伊朗的回應“完全不可接受”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美又大粗又爽又黄大片视频| 成人国产精品一区二区网站公司 | 好硬好湿好爽好深视频| 亚洲最大av一区二区三区| 亚洲欧美日韩中文字幕在线不卡| 网友自拍视频精品区| 天天干天天射天天操| 久久伊人五月天| 日本野外强奷在线播放va| 免费人成又黄又爽的视频网站| 欧美人牲交a欧美精区日韩| 色综合天天综合网国产人| 国产精品va| 午夜美女裸体福利视频| 97久久久久人妻精品专区| 久久人人爽人人爽人人片DVD| 无码国产片观看| 视频免费完整版在线播放| 日韩免费av在线播放| 在线视频一区二区日韩国产| 午夜视频免费一区二区在线看| 亚洲国产精品热久久一区| 国内性爱短视频精选不卡| 欧美怡春院一区二区三区| 夜色爽爽影院18禁妓女影院| 人妻少妇久久久久久97人妻| 国产传媒麻豆剧精品av| 国产精品深夜福利免费观看| 久久久久久亚洲精品不卡| 中文av字幕在线| 又污又爽又黄的网站| 97热视频| 91啦视频在线观看| 亚洲成熟女人av在线观看| 欧美综合区| 娜娜麻豆国产电影| 亚洲中文字幕在线看| 国产成人无码一区二区在线播放 | 精品日韩色国产在线观看| 国产黄色自拍视频| 亚洲激情一区二区三区在线|