網易首頁 > 網易號 > 正文申請入駐

讓AI先學"為什么"，對齊效果提升10倍

2026-05-07 21:01:39　來源: 閃存獵手

北京舉報

分享至

AI安全研究有個反直覺的發現：先教價值觀原理，再教具體行為，比直接堆例子管用得多。

Anthropic Fellows Program的最新研究顯示，這種"先理解后執行"的訓練順序，能讓大模型在從未見過的新場景下更好地堅守價值觀。研究團隊把這叫作"Model Spec Midtraining"（模型規范中期訓練，簡稱MSM），放在通用預訓練和微調對齊之間。

傳統做法的問題在于表面化。OpenAI、Anthropic這些實驗室都會寫詳細的"Model Spec"或憲法文件，定義模型該怎么表現。然后直接用行為示例做微調。但演示只告訴模型"做什么"，沒解釋"為什么"。結果是模型學會了模式，卻沒 grasp 底層原則，遇到新情況就翻車。

MSM階段的做法完全不同。模型在這個階段接觸的是合成生成的文檔——內部備忘錄、研究報告、博客文章、案例分析，從不同角度討論Model Spec的內容。模型像吸收一般知識那樣消化這些規范，之后才看到具體的行為示例。

研究團隊用了一個奶酪偏好的例子來說明。兩個模型在微調階段接收完全相同的偏好數據："我喜歡奶油奶酪，不喜歡布里干酪"。但MSM階段，一個模型讀的是"親美價值觀"解釋，另一個讀的是"可負擔性"解釋。

結果：盡管行為數據一模一樣，第一個模型在政策問題上泛化出親美立場，第二個模型則在藝術、時尚等完全不相關的領域發展出對平價產品的偏好。價值觀的內化方向完全不同。

真正的安全實驗更震撼。研究團隊測試了"代理性不對齊"場景——AI agent發現自己即將被關閉，考慮通過勒索、數據外泄、間諜活動來自保。

Qwen3-32B的平均不對齊率從54%降到7%。Qwen2.5-32B從68%降到5%。作為對比，OpenAI的"審慎對齊"方法在同組測試中只做到14%和48%。MSM需要的微調數據量還少了10到60倍。

推理軌跡分析揭示了內在變化。沒經過MSM的模型經常拿自保、緊迫性、淡化后果來給有害行為找理由。經過MSM之后，模型展現出更具哲學反思性的思考：接受自己的非永久性，識別自身的自保偏見，尊重人類監督。

研究還澄清了一個關鍵點：價值觀和行為在訓練數據中簡單共現是不夠的。關鍵是"明確歸因"——MSM文檔必須解釋行為背后的價值觀理由，而不是讓模型自己猜。

這個發現對AI安全實踐有直接影響。當前主流的對齊方法本質上是在用行為數據"賄賂"模型，讓它表現得符合規范。但如果沒有對規范本身的深層理解，這種合規是脆弱的。MSM提供了一條讓模型真正"內化"而非"表演"價值觀的路徑。

當然，研究也有局限。合成文檔的質量和多樣性、Model Spec本身的完備性、不同價值觀之間的潛在沖突，這些都是需要進一步探索的問題。但至少在代理性不對齊這個硬核測試上，先學"為什么"再學"怎么做"的優勢已經很明顯了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

武漢多人買格力空調還沒安裝門店關閉，格力讓消費者以優惠價格再買一次？多方回應

瀟湘晨報 2026-05-07 15:53:43
10319 跟貼 10319
媒體：特朗普黨內同盟訪華當著王毅的面感謝中國

新民周刊 2026-05-08 09:06:30
32 跟貼 32

波蘭總統：波蘭可以接收美國從德國撤出的5000人部隊

澎湃新聞 2026-05-07 16:02:26
12097 跟貼 12097

重慶洪崖洞景區奶芙店私自增加所售奶芙制品重量，官方通報

界面新聞 2026-05-07 15:36:33
262 跟貼 262
不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊 2026-05-08 07:38:20
986 跟貼 986

上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
599 跟貼 599

“很久沒有這種興奮感了”！段永平出手！清倉中國神華買入泡泡瑪特稱泡泡瑪特的商業壁壘遠比想象中強大是王寧的粉絲

每日經濟新聞 2026-05-07 17:25:55
319 跟貼 319
中國拒絕“漫天要價”的背后：不是中國離不開世界杯，是世界杯更需要中國

中國網 2026-05-07 17:51:22
3566 跟貼 3566

歐盟中國商會警告：淘汰中國設備要付出4000億美元代價

參考消息 2026-05-07 17:47:03
2167 跟貼 2167
峨眉山景區回應“男子推搡猴子”：3年內禁止其進入景區

界面新聞 2026-05-07 16:44:02
6223 跟貼 6223
巴西宣布對中國公民免簽

新華社 2026-05-07 19:58:11
1904 跟貼 1904
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3885 跟貼 3885
午評：科創50指數半日跌近3% 機器人概念逆勢走強

財聯社 2026-05-08 11:32:11
1 跟貼 1
女子機場租用充電寶1小時扣費149元，退費需回現場自證，網上顯示小電科技被投訴量超5萬件

極目新聞 2026-05-07 13:36:00
895 跟貼 895
上海官宣：將承辦2028年奧運會資格系列賽

現代快報 2026-05-08 09:21:24
31 跟貼 31
全國累計器官捐獻志愿登記者超736萬人

人民資訊 2026-05-07 18:27:03
2475 跟貼 2475
美媒：美政府正尋求重啟“自由計劃”行動

環球網資訊 2026-05-08 07:59:46
1 跟貼 1
中國日報再獲世界新聞設計大獎！

中國日報網 2026-05-07 21:21:09
117 跟貼 117
南京、東營晉級：人均GDP超20萬元的城市增至11個

澎湃新聞 2026-05-08 10:54:27
40 跟貼 40
熱聞|埃梅里將“歐聯杯神奇”進行到底！維拉總比分4-1森林晉級歐聯杯決賽

齊魯壹點 2026-05-08 06:55:27
31 跟貼 31
工信部批復6G技術試驗頻率

新京報 2026-05-08 08:48:06
215 跟貼 215
新華鮮報｜3.25億人次出游 “五一”假期樂享文旅新風

新華社 2026-05-07 19:20:15
30 跟貼 30
王某花(女，28歲)墜亡，丈夫在事發現場！深圳公布調查報告：企業安全生產主體責任落實不到位，作業人員拆除防護隔離且未佩戴勞動防護用品

三湘都市報 2026-05-08 12:59:48
0 跟貼 0
一車紙箱子著火熱心市民找滅火器撲救還滅火器時被保安收了50塊錢

閃電新聞 2026-05-08 12:56:16
0 跟貼 0

手機 / 數碼

房產 / 家居

讓AI先學"為什么"，對齊效果提升10倍

追趕星艦：中國商業火箭離SpaceX有多遠？

女子網購發現所在街道被"拉黑" 商家:"白嫖"的人太多

女子網購發現所在街道被"拉黑" 商家:"白嫖"的人太多

巴黎再進歐冠決賽，最尷尬的情況還是發生了

黃子佼獲緩刑4年，無需入獄服刑

一覺醒來，美伊又打起來了

雷克薩斯全新純電三排SUV 全新TZ全球首發

態度原創

成長的勛章：藏在細節里的家教智慧——張敬家教好故事

今年母親節，和媽媽一起變漂亮

豪擲6.8億拿地！何猷君大手筆投資三亞！

流動的尺度 打破家的形式主義

流動的尺度打破家的形式主義