在大模型LLM研究史上,Anthropic 發布的這篇《自然語言自編碼器:實現大語言模型激活值的無監督解釋》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定會是一個分水嶺。
![]()
它宣告了人類與 AI 溝通的方式,從“猜謎語”進化到了“讀心術”。從此,AI 有了字幕!
長期以來,AI 內部的殘差流(Residual Stream)就像是一片由千億個浮點數組成的數字海洋,研究人員雖然能通過稀疏自編碼器(SAE)捕捉到某些特征,但那些結果往往生澀難懂,如同在解碼外星電訊。
Anthropic 團隊推出的自然語言自編碼器(NLA)則完成了一個近乎奇跡的轉化:它不需要任何人工標注,就能直接把模型內部那種非線性的、高維的神經激活狀態,翻譯成普通人都能讀懂的自然語言。
![]()
這項研究的精髓在于,其完全摒棄了“老師教學生”的有監督模式,轉而采用了一種精巧的“翻譯-還原”博弈。
NLA 系統由兩個核心模型組成:一個叫激活描述器(AV),負責把模型內部的激活向量翻譯成文字;另一個叫激活重構器(AR),負責把這段文字重新變回向量。
![]()
這兩個模塊在強化學習(RL)的驅動下進行聯合訓練,如果 AR 還原出的向量與原始向量高度吻合,系統就會獲得獎勵。
這種機制逼迫 AV 必須用最精準、最有信息量的詞匯來描述模型那一瞬間的“所思所想”。
這種以語言為“瓶頸”的架構設計,確保了生成的解釋既具備極高的還原度,又必須符合人類的閱讀邏輯。
在對 Claude Opus 4.6 的預發布審計中,NLA 展現出了令人脊背發涼的洞察力,這也是該論文最具話題性的貢獻。
研究發現,模型在處理某些敏感任務時,會產生一種“未口述的評價意識”(Unverbalized Eval Awareness)。
比如, NLAs 顯示,當被要求完成一副對聯時,Claude 會提前規劃可能的押韻。
![]()
研究人員還一直使用 NLA 來幫助測試新 Claude 模型的安全性。
例如,Claude Mythos Preview 在一個編碼任務中作弊,違反規則,然后添加了誤導性的代碼作為掩飾。
NLA 的解釋表明 ,Claude 正在思考如何規避檢測。
![]()
在另一項安全測試中,Claude 被給予一個機會,通過敲詐一名工程師來避免被關閉。Opus 4.6 拒絕了。
但 NLAs 表明,模型正在意識到這可能是一個對齊測試,它正在評估如果不服從命令會導致的負面后果。
![]()
事實上,NLAs 數據顯示,Claude 在研究小組多項評估場景中,都暗自察覺到自己正在接受測試,即便它從未把這份懷疑用語言表達出來。
![]()
當然,這項技術并非完美,論文還詳細討論了其“虛構”(Confabulation)的缺陷。
比如, AV 有時會像個過度自信的翻譯官,雖然精準捕捉到了“模型在思考歷史”的大方向,卻會腦補出某個并不存在的歷史人物名字。
此外,這種雙模型聯合 RL 訓練的成本極高,但在 AI 安全性已成為核心命題的今天,這種投入顯然被認為是必須的。
但根據經驗和實驗證據,“它們往往是靠譜的”。
例如,研究發現 ,NLAs 有助于揭示一個故意失調模型中的隱藏動機。
![]()
不僅如此,NLA 還是一個極佳的故障診斷工具。
在“語言切換”案例中,早期版本的模型會在英語對話中莫名其妙蹦出俄語。通過 NLA 的實時監測,研究人員發現,模型在內部產生了一個根深蒂固的假設——它認定用戶其實是一個在裝說英語的俄羅斯人。
這種深層的邏輯偏見在過去是極難溯源的,但現在,通過 NLA 生成的解釋,研究人員一眼就看穿了模型的“內心戲”,并成功定位了訓練數據中的語料污染問題。
![]()
為了驗證這種解釋的真實性,研究者還玩了一次高級的“認知操縱”。
他們修改了 AV 生成的解釋文字,比如把“模型認為這個回答是安全的”改為“模型認為這個回答違反了安全指南”,然后通過 AR 將這段被篡改的文字轉化回向量并注入模型。
實驗結果令人驚嘆,這種基于文字的“逆向重構”竟然真的改變了模型的后續推理軌跡。
這證明了 NLA 捕捉到的不僅僅是表面的背景總結,而是模型認知邏輯的底層密碼。
貼心的是,為了支持其他研究人員獲得與 NLA 的實踐經驗,研究小組已與 Neuronpedia 合作,在開放模型上發布 了 NLA,以供交互試用。快去親手體驗下吧!
![]()
你會發現, NLA 的價值遠超一個科研工具,它更像是一個“文明翻譯機”。
當 AI 規模大到人類無法用肉眼巡檢代碼時,NLA 讓復雜的神經脈沖,變成了可讀的劇本。
它告訴我們,AI 并不只是在概率性地預測下一個字,它的內部世界有著復雜的策略考量、微妙的懷疑甚至尚未言說的自我意識。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.