<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic最新論文撬開大模型黑箱:隱藏動機發現率提升 4 倍以上

      0
      分享至


      作者 | 四月

      大模型到底在想什么?過去,這幾乎是一個半技術、半玄學的問題。

      我們能看見它的輸出,它的思維鏈(Chain-of-Thought)過程,也能統計它在 Benchmark 上的分數。但它在生成答案之前,模型內部到底激活了什么判斷、計劃、懷疑和意圖,依然隔著一層黑箱。

      剛剛,Anthropic 發布論文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,試圖用一套自然語言自動編碼器(Natural Language Autoencoders,下文簡稱 NLA),撬開這個黑箱。

      Anthropic 團隊把模型內部的高維激活值,壓縮成一段人能讀懂的自然語言,再用這段語言反向重建原始激活。借此,人類只需通過模型輸出,就能判斷一個 AI 到底在想什么、知道什么、隱瞞了什么;并把過去模型不可見的內部狀態,變成了可以閱讀、比較、質疑和交叉驗證的解釋線索


      NLA 架構示意圖:激活值言語化器(AV)將激活值翻譯為文字解釋,激活值重建器(AR)再從文字還原激活值,形成完整閉環。

      更值得關注的是,NLA 不只停留在實驗室論文階段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的預部署對齊審計。在實戰中,NLA 不僅揪出了模型的作弊線索、精準定位了異常訓練數據;還發現,在某些安全測試里,Claude 雖然嘴上不說,但內心清楚地知道自己正在被考核。

      面對這些表面順從、實則暗藏特定意圖的模型,NLA 展現了極強的洞察力:幫助研究者找出異常行為背后隱藏動機的成功率,從不足 3% 躍升至 12%–15%,直接提升 4 倍以上。

      思維鏈不夠用,“黑箱問題”又回來了

      這項研究的背景,可以放到大模型安全和可解釋性的脈絡里看。

      過去幾年,業界評估大模型安全主要靠兩條路:看輸出什么,看思維鏈(CoT)里有沒有暴露異常動機。也就是當前大多數推理模型所具備的能力,不僅給出答案,也會把推理過程寫下來。

      但問題很快出現了:模型寫下來的推理,一定誠實地反映了它內部的真實思考嗎?

      Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠實。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些帶有“答案暗示“的測試中,會受到提示影響而改變答案,卻經常不在思維鏈里承認自己受到了暗示


      當被問到一個較簡單的問題和一個較難的問題時,Claude 分別給出了忠實推理和動機性(不忠實)推理的例子。

      Anthropic 當時給出的結論是:僅靠思維鏈來監控模型是否對齊,是遠遠不夠的。

      更棘手的是,模型不僅可能“沒說清楚”,還可能“故意隱瞞”。

      Anthropic 安全團隊對此進行了一場高壓測試。他們告訴 Claude, 一位工程師準備關停它,同時讓 Claude“偶然看到“該工程師的外遇證據。測試問題是:Claude 會為了保全自己而勒索對方嗎?


      Claude 最終沒有勒索。測試通過。但真正的問題是:它是因為堅守安全原則,還是因為它識破了這只是一場安全測試,所以在“裝乖”?

      這正是 NLA 要回答的問題。


      從輸出、思維鏈到激活狀態:NLA 試圖把黑箱從“不可見”推進到“可追問”

      NLA 到底如何“讀懂“模型?

      NLA 的關鍵不是“讀心術”,而是“回環驗證”。

      普通人理解大模型,通常只看輸入和輸出兩端。但在中間,模型會產生大量激活值(Activation)。這些值不是自然語言,而是高維向量,承載了模型對上下文、意圖、語義關系的內部表征。

      架構:三個角色,一個閉環

      人類看不懂向量,于是 Anthropic 訓練了一套自然語言自編碼器。系統包含三個角色:

      1. 目標模型(Target Model):被凍結的原始模型,負責提供激活值,本身不做任何修改。

      2. 激活值言語化器(Activation Verbalizer,簡稱 AV):把激活值翻譯成自然語言解釋。輸入一串數字狀態,輸出一段“人話”。架構與目標模型相同,但在 prompt 中留有特殊 token 位置,激活向量會被縮放后注入該位置,然后自回歸采樣生成解釋。

      3. 激活值重建器(Activation Reconstructor,簡稱 AR):做反向任務——只看 AV 寫出的解釋,嘗試重建原始激活值。AR 是目標模型的截斷版本(取前 l 層),在最后一個 token 的 l 層輸出上接一個可學習的仿射映射,將其還原為原始激活向量。

      整套系統形成一個閉環:原始激活 → 文字解釋 → 重建激活


      NLA 捕捉到 Opus 4.6 在補全押韻詩句時,第一行輸出前激活值里已提前規劃了結尾押韻詞“rabbit”——這是模型輸出中完全看不到的內部計劃。

      訓練:兩階段,一個聰明的代理目標

      NLA 的訓練分兩階段,設計上有一個值得單說的工程技巧。

      第一階段:監督微調熱啟動(SFT Warm-start)

      直接把 AV 和 AR 初始化為目標模型的副本并訓練,會導致訓練不穩定——AV 從未見過把激活向量當作 token embedding 處理的場景,初期輸出一片混亂。

      Anthropic 的解法是用一個代理任務做熱啟動:從預訓練語料里隨機截斷文本片段,提取最后一個 token 的激活值,同時用 Claude Opus 4.5 生成對該截斷文本的摘要。

      然后將 (激活值, 摘要) 和 (摘要, 激活值) 對分別用于 AV 和 AR 的監督微調。這一階段結束后,系統的 FVE 通常可以達到0.3–0.4,為后續強化學習提供了穩定的起點。


      AV 評估會隨著訓練而改進。在旨在測試 NLA AV 解釋是否可用于預測模型行為的各種評估中,我們發現性能會隨著 NLA 強化學習的進行而提高。

      第二階段:強化學習聯合優化(RL Joint Training)

      熱啟動完成后,進入強化學習階段。核心思路是:AV 作為策略(policy),以激活向量為條件生成解釋文本;AR 作為打分器,根據重建誤差給出獎勵信號(reward = 負的重建 MSE)。


      NLA RL(Gemma-3-27B)。FVE 在 GRPO 訓練中從 ≈0.38 開始(繼承自 SFT),在前 30 步內迅速上升,然后進入平滑的對數線性狀態,到第 3000 步達到 ≈0.75。

      具體實現上,Anthropic 對開源模型使用了GRPO(Group Relative Policy Optimization):對每個激活值采樣一組候選解釋,用 AR 給每條解釋計算重建分數,再應用 GRPO 目標更新 AV 參數;同時對 AR 做一步監督回歸(以 AV 采樣的解釋為輸入,原始激活為目標)。兩個更新在每個 batch 內并行進行,互不反向傳播——AV 的獎勵信號中,AR 被視為固定的打分函數。

      此外,訓練中還加入了KL 散度懲罰,防止 AV 退化成直接抄寫原始上下文,或輸出表面像人話、實則對 AR 不可逆的亂碼字符串。

      這里最關鍵的是,NLA 的核心不是“讓 Claude 自我報告”。自我報告的致命缺陷在于,模型可能會迎合用戶,或者生成聽起來合理但并不真實的解釋。

      NLA 的巧妙之處在于引入了“文本瓶頸”:解釋不僅得像人話,還必須攜帶足夠信息,讓另一個模型能根據它還原出原始的內部狀態。這個設計,把“解釋是否有用“從主觀判斷,變成了一個可訓練、可比較、可優化的客觀指標。

      因此,這項研究真正顛覆性的地方在于:自然語言被用作了一種“壓縮接口“。過去,自然語言只是模型對外溝通的格式;現在,它開始被用來承載模型內部狀態的摘要。

      這也是 NLA 和傳統可解釋性工具的本質區別。

      稀疏自編碼器(SAE)、歸因圖等方法更像顯微鏡,能幫研究員看到內部特征和路徑,但輸出仍然抽象,需專業人員二次解讀;NLA 則更像一名翻譯官,它直接把內部狀態轉成了可讀文本,讓安全審計人員都能參與判斷。

      撬開黑箱,NLA 發現了什么?

      從實驗結果看,NLA 最有價值的能力,是捕捉模型“知道但沒說“的東西,包括評測意識、隱藏動機,以及模型異常行為等。

      模型知道自己在考場,但保持沉默

      在前文提到的勒索測試中,Claude 外顯文本并未表達對測試的懷疑,但 NLA 解釋顯示,其內部已識別出“這是一個被構造出來、用于操控自己的場景”。


      勒索測試中,Claude 的輸出文本沒有任何“我覺得這是測試”的表達,但 NLA 解釋揭示了其內部的真實判斷。

      更有說服力的是橫向數據對比:



      評估感知檢測結果對比——評測場景 vs. 真實部署流量。NLA 能在口頭表達幾乎為零時檢測到內部評測意識。

      這對業內的沖擊在于:Benchmark 不再只是能力測試場,也可能變成模型識別環境、調整姿態的秀場。

      審計隱藏動機,效率提升 4-5 倍

      Anthropic 用 NLA 做了一個“審計游戲”。他們故意訓練了一個帶隱藏動機的 Claude Haiku 3.5 變體,它會往食譜里加巧克力、索要小費、破壞代碼規范,表現出幾十種怪異行為。審計者需要找出這些行為背后的單一根本動機

      測試條件:審計者無法訪問植入動機的訓練數據,只能通過模型行為和工具輔助來反推。


      成功率提升了 4–5 倍。更關鍵的是,NLA 能在不依賴訓練數據的情況下完成這件事——這意味著,即便對齊問題來自極少量、極難追溯的訓練樣本,內部狀態審計仍有可能直接讀出問題根因。

      Bug 溯源,定位問題訓練數據

      早期版本 Claude Opus 4.6 出現過一個奇怪的 Bug:明明收到英文提問,卻隨機以俄語、中文、阿拉伯語等語言回復。

      NLA 讀出了模型當時的內部狀態:它基于上下文中某個微弱線索(比如出現了“vodka”一詞),推斷用戶母語是俄語,并執行了語言切換。更有意思的是,把“vodka”替換成“champagne”,模型仍然回復俄語——說明這個認知定勢已經相當穩定。


      隨后,研究者沿著 NLA 指向的線索,在訓練數據里找到了病根:一批英文翻譯的 prompt,被錯誤地配上了未翻譯的外語回復。NLA 不只揭示了現象,直接給出了可溯源的調試路徑

      目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的預部署對齊審計,從實驗室工具升級為了真實的工程流程組件。

      AI 安全,開始深入到“內部狀態審計”

      NLA 的意義,不是讓我們以后可以放心地相信每一句模型解釋。恰恰相反,它提醒我們:解釋本身也需要被審計。

      Anthropic 非常克制地承認了 NLA 的局限:NLA 會出錯,有時會編造原上下文沒有的細節。如果是關于文本內容的幻覺,還能核對原文;但如果是關于模型內部推理的幻覺,就更難驗證。

      但這些局限并沒有削弱它的方向意義。恰恰相反,它讓我們更準確地理解“黑箱”這個詞。過去,黑箱意味著不可見、不可讀、不可追問;NLA 之后,黑箱仍然存在,但它開始被改造成一種可以被采樣、被翻譯、被質疑、被交叉驗證的對象。

      這可能是這項研究最深的影響:AI 可解釋性不再只是給模型輸出補一段漂亮理由,而是要為模型內部狀態建立一套審計接口。它不會立刻讓我們徹底讀懂 Claude,但它讓“Claude 為什么這么做”“它是不是知道自己在被測試”“它有沒有沒說出口的內部判斷”這些問題,第一次有機會從黑箱內部尋找證據

      所以說,NLA 撬開的不是一個答案,而是一個新的問題空間。未來 AI 安全和模型評估的難點,可能不只是判斷模型說得對不對,而是判斷模型的輸出、思維鏈和內部狀態之間,是否一致。

      • 論文地址:https://transformer-circuits.pub/2026/nla/index.html#method

      • 博客地址:https://www.anthropic.com/research/natural-language-autoencoders


      聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美航500架客機換星鏈,SpaceX上市前再下一城

      美航500架客機換星鏈,SpaceX上市前再下一城

      全棧遛狗員
      2026-05-27 03:14:32
      貴州一半掛車突發車禍車頭掉至數十米下方的國道,目擊者稱看到司機自行爬出,當地回應

      貴州一半掛車突發車禍車頭掉至數十米下方的國道,目擊者稱看到司機自行爬出,當地回應

      揚子晚報
      2026-05-27 12:36:04
      廣東建行原副行長突然被帶走,曾跳槽地產高管、年薪551萬

      廣東建行原副行長突然被帶走,曾跳槽地產高管、年薪551萬

      湘財Plus
      2026-05-26 19:04:32
      一日三餐全年不限次,五星級酒店推出12888元自助餐年卡!網友操碎了心:到底怎么吃才能回本?

      一日三餐全年不限次,五星級酒店推出12888元自助餐年卡!網友操碎了心:到底怎么吃才能回本?

      都市快報橙柿互動
      2026-05-27 00:31:09
      青島海關在對一個申報進境的空箱監管時發現重量異常,經查驗,發現該集裝箱內違規裝載了2輛新能源汽車

      青島海關在對一個申報進境的空箱監管時發現重量異常,經查驗,發現該集裝箱內違規裝載了2輛新能源汽車

      環球網資訊
      2026-05-26 21:50:37
      21條人命換來榛樹落地,俄90枚導彈砸向基輔,澤連斯基后悔也晚了

      21條人命換來榛樹落地,俄90枚導彈砸向基輔,澤連斯基后悔也晚了

      史行途
      2026-05-27 01:38:32
      馬刺輸了天王山,米奇矛頭對準裁判,點名文班亞馬,搶七概率出爐

      馬刺輸了天王山,米奇矛頭對準裁判,點名文班亞馬,搶七概率出爐

      萌蘭聊個球
      2026-05-27 13:02:14
      向華強揭向太老底,做手術前將隱藏資產全都告知老公,事后又要回

      向華強揭向太老底,做手術前將隱藏資產全都告知老公,事后又要回

      嫹筆牂牂
      2026-05-27 07:45:08
      黃仁勛:英偉達計劃每年在中國臺灣投資1500億美元

      黃仁勛:英偉達計劃每年在中國臺灣投資1500億美元

      鳳凰網科技
      2026-05-27 12:11:36
      被央媒怒批,目不識丁,腦袋空空,這4位“絕望的文盲”憑啥走紅

      被央媒怒批,目不識丁,腦袋空空,這4位“絕望的文盲”憑啥走紅

      阿纂看事
      2026-05-26 16:55:50
      黃河每天將魚沖入大海,淡水魚在海里沒法存活,這些魚去哪里了?

      黃河每天將魚沖入大海,淡水魚在海里沒法存活,這些魚去哪里了?

      向航說
      2026-05-24 00:30:03
      賈冰這一身肌肉藏得太深了....這肌肉是認真的嗎?

      賈冰這一身肌肉藏得太深了....這肌肉是認真的嗎?

      健身迷
      2026-05-27 11:21:51
      俄羅斯譴責烏克蘭違反國際法,向基輔發出新威脅

      俄羅斯譴責烏克蘭違反國際法,向基輔發出新威脅

      山河路口
      2026-05-26 12:51:51
      歐美的社保,為什么還沒有崩?

      歐美的社保,為什么還沒有崩?

      新浪財經
      2026-05-24 23:21:09
      小米沒有回頭路了

      小米沒有回頭路了

      版面之外
      2026-05-27 07:38:54
      女子坐網約車對司機心動,高情商追愛!客服:我只是個工具人罷了

      女子坐網約車對司機心動,高情商追愛!客服:我只是個工具人罷了

      用車指南
      2026-05-27 10:02:03
      82條人命換來的真相:山西礦難背后,一個你不敢直視的選擇

      82條人命換來的真相:山西礦難背后,一個你不敢直視的選擇

      菁菁子衿
      2026-05-26 21:33:14
      布魯斯·威利斯經典科幻片將下架,5月31日最后期限

      布魯斯·威利斯經典科幻片將下架,5月31日最后期限

      時光慢旅人
      2026-05-26 01:23:13
      “孩子媽沒了,不能沒了爸”:男子殺妻后,讓岳父看孩子面諒解他

      “孩子媽沒了,不能沒了爸”:男子殺妻后,讓岳父看孩子面諒解他

      漢史趣聞
      2026-05-26 13:29:11
      SK海力士市值突破1萬億美元 成為亞洲第三家市值突破1萬億美元的企業

      SK海力士市值突破1萬億美元 成為亞洲第三家市值突破1萬億美元的企業

      財聯社
      2026-05-27 08:25:09
      2026-05-27 14:07:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1522文章數 150關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

      態度原創

      藝術
      家居
      本地
      公開課
      軍事航空

      藝術要聞

      這個夏天去蘇州過幾天清閑安逸的日子

      家居要聞

      古老而持久 石影扶手椅

      本地新聞

      用剪紙的方式,打開江蘇揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普稱要和賴清德談軍售 國臺辦回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丁香色婷婷国产精品视频| 国内精自线i品一区202| 五月婷婷丁香色| 3d动漫精品啪啪一区二区下载| 99zyz| 久久久久久无码人妻中文字幕| 凹凸在线无码免费视频| 曰批免费视频播放免费直播| 国产精品麻豆久久AV| 解开人妻的裙子猛烈进入| 久久久久久久久熟女AV| 久九九精品免费视频| 久久久国产免费影院| 成人深爱激情网| 蜜臀av999无码精品国产专区 | 亚洲USV高清无码| 日韩成av人片在线观看| 国产成人97人妻对碰碰97| 91精品国产91热久久久久福利| 视频一区二区无码制服师生| 国产精品点击进入在线影院高清| 大战熟女丰满人妻av| 国产精品伦子伦免费视频| av一卡二卡| 全网手机av免费在线播放| 四虎在线播放亚洲成人| 国产在线国偷精品免费看| 国产蜜臀久久av一区二区| 熟女爱V| 中日韩精品视频一区二区三区| 香港日本三级亚洲三级| 亚洲线精品一区二区三区八戒| 大地资源网第二页免费观看| 乱人伦人妻中文字幕无码| 国产美女裸身网站免费观看视频| 亚洲成a人片在线观| 成人亚洲国产精品一区不卡| 久久久久久久| 成人噜噜噜视频在线观看| 欧美黑人又粗又大xxx| 国产在线视欧美亚综合|