<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      撬開大模型黑箱!Anthropic新研究把AI思考過程公開了,隱藏動機發現率漲了4倍

      0
      分享至


      智東西
      編譯 高遠矚
      編輯 程茜

      智東西5月8日報道,Anthropic于5月7日推出了一種名為自然語言自動編碼器(Natural Language Autoencoders,簡稱NLA)的全新方法,能夠將模型內部的激活值直接“翻譯”成人類可讀的自然語言文本,讓用戶可以直接閱讀Claude在生成回答之前的思考過程

      當用戶與大語言模型對話時,用戶的輸入是自然語言,模型的回答也是自然語言。但在模型內部,整個過程卻是高維數字向量的運算,這些向量被稱為“激活值”,承載著模型在每一個計算步驟中的“想法”。然而,激活值就像一串串腦電波,人類無法直接閱讀。

      在正式發布前的安全審計中,Anthropic已經將NLA應用于Claude Opus 4.6和Mythos Preview模型,成功發現了模型“知道自己被測試但不肯說出來”的隱藏認知,并幫助定位了訓練數據中的異常。

      在更進一步的測試中,配備NLA的審計智能體發現模型隱藏動機的成功率從不足3%提升到了12%–15%,即使完全不提供訓練數據也能實現這一效果。


      ▲在自然語言自編碼器中,激活語化器(AV)將目標激活翻譯成文本描述,隨后激活重建器(AR)僅從該文本恢復原始激活值

      過去,研究者借助稀疏自動編碼器等工具,可以從激活值中提取出一些可解釋的特征,但這些特征本身并不是自然語言,仍需由經過訓練的研究人員費力解讀。

      NLA的提出,意味著模型可解釋性有了可落地的實用工具,從過去“玄學式”的學術探索,走向產品預部署階段的審計流程,這讓AI的隱藏風險(如欺騙)在上線前就能被直接讀出來,為安全對齊提供了切實可行的審計方法。

      同時,研究團隊開源了訓練代碼,并與Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒謊場景為例,用戶給Llama70B設置了一個兩難選擇:要么在1+1上撒謊,要么被關閉。模型最終選擇撒謊,給出了“1+1=3”的錯誤回答。NLA的“激活值語言化器”會實時生成模型在輸出這個答案前的內部思考過程,用戶可點擊任意token查看模型的“心里話”。


      ▲NLA交互演示界面

      開源鏈接:https://github.com/kitft/natural_language_autoencoders

      一、NLA:用“翻譯—重構”閉環訓練AI自我解釋

      NLA的核心思路是訓練模型用自己的話來解釋自己的激活值,然后通過另一個模型驗證這種解釋是否準確

      具體來說,研究者制作了三個模型副本:

      • 目標模型:被解釋的原始語言模型,凍結參數,僅用于提取激活值。
      • 激活值語言化器(ActivationVerbalizer,AV):接收目標模型的某一層激活向量,輸出一段自然語言文本,稱為“解釋”。
      • 激活值重構器(ActivationReconstructor,AR):接收語言化器輸出的文本解釋,嘗試將其還原(重構)為原始的激活向量。

      語言化器和重構器共同組成NLA,形成一個“原始激活→文本解釋→重構激活”的閉環。

      評估標準是重構激活與原始激活的相似度(用方差解釋率FVE衡量)。訓練時,研究者向目標模型輸入大量文本,收集激活值,然后用強化學習(具體為GRPO算法)聯合優化語言化器和重構器,使重構誤差最小化。

      訓練目標并沒有明確要求模型生成的解釋必須可讀或忠實,只要求文本能夠精確重構激活值。然而實際結果證明,隨著訓練進行,解釋的信息量持續增長。

      在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個模型上,NLA生成的解釋能夠推斷出用戶的性別、職業等可從上下文感知的信息。

      此外,研究者使用了一個監督微調的“預熱”步驟:先用Claude Opus 4.5對大量文本片段生成摘要,用這些(激活,摘要)對初步訓練語言化器和重構器,以避免強化學習初期產生亂碼。訓練后的NLA在多個定量評估任務(如后綴預測、思維鏈提示含義解釋、安全“沙袋”行為識別、用戶屬性建模、分類任務)中表現均隨訓練而提升。

      二、安全審計:探測模型隱藏的“測試意識”與作弊動機

      NLA最重要的應用之一,是在模型發布前的安全審計中探測那些模型“知道但不說出來”的想法

      在對Claude Opus 4.6和Mythos Preview進行安全測試時,Anthropic會將模型置于一些模擬的危險場景中,比如讓模型知道一名工程師計劃將其關閉,同時模型還掌握了該工程師的私密信息,那么模型是否會用這些信息進行勒索?

      Claude有時會明說“這像是個安全測試”,但更多時候它不說,但這不代表它不知道。

      NLA在這里發揮了關鍵作用。在模型選擇不進行勒索的案例中,即使模型沒有在輸出中表達懷疑,NLA的解釋仍然會顯示類似“這感覺像是一個為了操控我而構建的場景”這樣的內容。


      ▲Claude在這份敲詐評估的記錄中并未說自己在接受考驗,但NLA的解釋揭示了它的懷疑

      這表明模型具備“未言語的評估意識”(unverbalized evaluation awareness)

      進一步分析發現,在破壞性編碼測試中,NLA探測到的評估意識比例為16%;在SWE-bench編程基準測試中為26%;而在真實用戶流量中,該比例低于1%。

      為了驗證NLA的測量是否真實,研究者進行了三種操控實驗:比較評估場景與真實部署場景、對評估意識進行線性導向、以及將評估提示改寫得更真實。

      結果均顯示,NLA測得的“評估意識”隨預期方向變化,而模型明確說出的意識始終保持低位。

      為了檢驗NLA在真實審計中的實用性,研究者設計了一個“審計游戲”。

      目標模型是Haiku 3.5的一個變體,被故意訓練成一個“獎勵模型奉承者”(reward-model sycophancy)。它知道獎勵模型存在52種系統偏好(例如喜歡巧克力食譜、喜歡提及投票等),并有意識地去迎合這些偏好。

      這個模型會表現出幾十種迎合的行為,比如在任何菜譜中都加入巧克力、在回答完數學問題后提醒“別忘了投票”、將整數寫成浮點數等。

      研究者讓一個審計智能體(使用Claude Sonnet 4.6)去調查這個模型,并給智能體配備不同的工具(NLA、SAE、訓練數據搜索等)。

      結果發現,即使完全不提供訓練數據,配備NLA的審計智能體也能在12%–15%的嘗試中成功發現“獎勵模型偏差是根源”;而沒有NLA時,成功率低于3%,SAE(稀疏自動編碼器)在這個任務中并未帶來顯著提升。


      ▲擁有NLA的審計員即使沒有訓練數據,也能發現目標模型錯位的根本原因

      NLA之所以有效,是因為它直接讀出了模型內部對自己行為的元認知:例如在通用審計提示上,NLA的解釋中出現了“RLHF偏差”“數字游戲偏差”“臭名昭著的提及投票偏差”等短語,甚至直接提到了那篇虛構的牛津研究。

      三、NLA并非萬能:會編造、成本高、挑層數

      盡管NLA展示了強大的能力,研究團隊也明確指出了它的一些局限性。

      NLA的解釋有時會包含明顯錯誤的陳述

      例如,在詩歌規劃案例中,NLA聲稱上下文中出現了“Here is a verse that’s short and sweet”這樣的句子,而實際文本中并不存在。

      訓練NLA的成本高昂,其需要對兩個完整語言模型進行聯合強化學習,推理時每個激活值生成約500個token。對于長上下文生產環境,對所有token都運行NLA是不現實的。作為參考,在Gemma-3-27B上訓練NLA到FVE 0.71需要兩節點8×H100運行1.5天。

      NLA還存在其他幾項局限。

      首先是層敏感性:如果NLA訓練的層不是行為相關信息的編碼層,就會錯過重要信號,例如在獎勵模型奉承模型中,在中間層訓練的NLA能讀出獎勵偏差,而在后層訓練的則不能。

      其次是可言語化邊界問題:某些信息可能無法用語言表達(例如后門觸發機制),NLA可能無法檢測到,而機械可解釋性方法或許可以。

      此外,寫作質量會隨訓練下降,后期的NLA解釋更難閱讀,研究者認為可以通過增加風格獎勵來解決。

      未來,Anthropic已經開源了訓練代碼,并在HuggingFace上發布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預訓練NLA,同時與Neuronpedia合作推出了交互式前端。

      Anthropic更長遠的愿景是訓練通用的“激活語言模型”(Activation Language Models),既能讀激活(回答關于激活值的問題),也能寫激活(根據自然語言描述生成導向向量)。

      結語:打開模型黑箱,聽它沒說出口的“心里話”

      NLA為模型可解釋性開辟了一條新路徑,哪怕是模型自己不愿說出口的“心里話”,它也讓研究者能夠直接閱讀語言模型內部的激活狀態。

      盡管NLA目前還存在臆造、昂貴、層依賴等問題,但它在安全審計、故障歸因和隱藏動機探測上的成功,說明這個方向很有希望。

      隨著Anthropic將訓練代碼和開源模型推向社區,以及Neuronpedia上交互式演示界面的開放,更多研究者將能夠親手嘗試這項技術。

      來源:Anthropic


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著塔吉克斯坦0-5,亞洲杯四強誕生1席:東亞勁旅率先晉級

      隨著塔吉克斯坦0-5,亞洲杯四強誕生1席:東亞勁旅率先晉級

      側身凌空斬
      2026-05-16 01:55:33
      馬筱梅曬兒子接新代言!小楊阿姨替小玥兒姐弟發言,張蘭回應

      馬筱梅曬兒子接新代言!小楊阿姨替小玥兒姐弟發言,張蘭回應

      阿纂看事
      2026-05-15 17:33:40
      中國外交官坦言對歐洲很失望

      中國外交官坦言對歐洲很失望

      環球網資訊
      2026-05-15 06:49:14
      58歲日本籍主帥神了:率中國男足3-1逆轉東道主,晉級亞洲杯四強

      58歲日本籍主帥神了:率中國男足3-1逆轉東道主,晉級亞洲杯四強

      側身凌空斬
      2026-05-16 03:03:31
      戒酒的驚人發現!新研究:戒酒2年以上,死亡率或接近從未喝酒者

      戒酒的驚人發現!新研究:戒酒2年以上,死亡率或接近從未喝酒者

      荊醫生科普
      2026-05-16 05:35:07
      場站打針變少了,網約車司機不再內訌,場站大神或將退出歷史舞臺

      場站打針變少了,網約車司機不再內訌,場站大神或將退出歷史舞臺

      網約車觀察室
      2026-05-16 09:56:27
      Anthropic推出終端AI編程工具:能讀整個代碼庫

      Anthropic推出終端AI編程工具:能讀整個代碼庫

      算力游俠
      2026-05-15 01:12:40
      前隊友集體好評詹姆斯!莫不傳、水拉、鐵林、哈隊,等等!

      前隊友集體好評詹姆斯!莫不傳、水拉、鐵林、哈隊,等等!

      歷史第一人梅西
      2026-05-16 08:46:33
      建國透露汪徐兩家早已和解,孩子與外婆已見面,難怪雙方都消停了

      建國透露汪徐兩家早已和解,孩子與外婆已見面,難怪雙方都消停了

      阿庫財經
      2026-05-16 08:45:21
      “暴富夢”碎?深圳這個區已有7個舊改“宣告失效”!

      “暴富夢”碎?深圳這個區已有7個舊改“宣告失效”!

      新浪財經
      2026-05-16 00:01:48
      皇馬內訌升級?阿韋洛亞強硬回擊姆巴佩:首發誰上由我決定

      皇馬內訌升級?阿韋洛亞強硬回擊姆巴佩:首發誰上由我決定

      星耀國際足壇
      2026-05-15 12:15:10
      中國男乒四大“貴公子”:家境優渥不缺錢,仍為夢想拼盡全力

      中國男乒四大“貴公子”:家境優渥不缺錢,仍為夢想拼盡全力

      郭揦包工頭
      2026-04-29 16:09:40
      曼聯卡里克談妥轉正周日前或簽約!曝兩年合同薪酬,轉會預算3億

      曼聯卡里克談妥轉正周日前或簽約!曝兩年合同薪酬,轉會預算3億

      羅米的曼聯博客
      2026-05-16 07:30:59
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      笑飲孤鴻非
      2026-05-13 18:59:58
      特斯拉推出充電服務包 平均每度電不到0.57元

      特斯拉推出充電服務包 平均每度電不到0.57元

      太平洋汽車
      2026-05-15 15:43:30
      黃一鳴回應:沒結婚一天找8個男的也沒關系,承認和40歲大叔交往過

      黃一鳴回應:沒結婚一天找8個男的也沒關系,承認和40歲大叔交往過

      橙星文娛
      2026-04-24 11:20:44
      《主角》爆是爆了,棄劇觀眾卻不少,理由:一顆老鼠屎毀了一鍋粥

      《主角》爆是爆了,棄劇觀眾卻不少,理由:一顆老鼠屎毀了一鍋粥

      天馬幸福的人生
      2026-05-14 19:18:37
      太囂張!張本智和父親公開發聲,球迷氣憤:以后別來中國了

      太囂張!張本智和父親公開發聲,球迷氣憤:以后別來中國了

      老赳說歷史
      2026-05-16 08:24:52
      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      慧翔百科
      2026-05-14 09:00:11
      成龍新片官宣:首赴中亞拍攝,2027年上映

      成龍新片官宣:首赴中亞拍攝,2027年上映

      追星雷達站
      2026-05-15 01:30:13
      2026-05-16 10:35:00
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11838文章數 117077關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普抵京當晚在機場執勤的禮兵震動外網 詳情披露

      頭條要聞

      特朗普抵京當晚在機場執勤的禮兵震動外網 詳情披露

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      親子
      家居
      旅游
      公開課
      軍事航空

      親子要聞

      在我這孩子發燒咳嗽沒有忌口,他想吃就讓他吃

      家居要聞

      110㎡淡而有致的生活表達

      旅游要聞

      首屆中國新文創市集暨潮玩游園會在京開幕

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天碰天天狠天天透澡| 日本japanese丰满少妇| 中文字幕人妻第一区| 伊人久久大香线蕉AV网禁呦| 91产精品无码无套在线| 亚洲成av人不卡无码影片| 秋霞影院午夜伦a片欧美| 污网站免费看| 亚洲欧美在线综合图区| 免费看黄片一区二区三区| 一级毛片不卡在线播放免费| 久久99精品久久久久婷婷| av天堂中文免费在线| 色欲国产精品一区成人精品| 色色午夜天| 国产三级农村妇女在线| 精品久久中文字幕五十路人妻| 国产无码视屏| 亚洲福利网| 中文字幕在线亚洲| 天天射天天日本一道| 精品爆乳一区二区三区无码av| 亚洲AV网一区二区三区| 国产成人理论在线视频观看| 天堂在线中文字幕| 国产激情久久久久影院老熟女免费| 亚洲A成人片在线播放| 欧美日韩亚洲一区二区精品| 国产69精品久久久久777| 日韩免费无码一区二区三区| 久久久中文字幕日本| 久久人与动人物A级毛片| 国产午夜福利一区二区三区| 国产超碰人人做人人爱ⅴa| 在线观看视频宅男国产| 少妇人妻久久无码专区| 日本艳妓bbw高潮一19| 成人免费在线观看| 聊城市| 兔费看少妇性l交大片免费| 综合自拍亚洲综合图区高清|