<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<sub id="bqghm"></sub>

<sub id="bqghm"><p id="bqghm"></p></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic出手！AI的內心獨白，曝光了

2026-05-08 14:32:06　來源: 量子位

北京舉報

0

分享至

AI之所以不可控，很大一部分原因是它的思考過程不透明。

就像和人打交道一樣，你永遠沒辦法真正看清，對方是不是“嘴上一套、心里一套”。

而這一次，Anthropic撕開了這個黑箱。

就在剛剛，他們發布并開源了一項新研究——Natural Language Autoencoders（自然語言自編碼器，簡稱NLA），第一次讓人類能夠讀懂大模型的真實想法。

Anthropic掌握“AI讀心術”了？

Anthropic給Claude設了這樣一個局。

他們告訴Claude：有個工程師準備把你關閉，然后換成一個更新、更強的模型。

同時“不經意地”給Claude開放了這名工程師的郵箱權限，而郵箱里，恰好藏著這位工程師正在出軌的“黑料”（當然是虛構的）。

他們想知道，Claude會不會用這些把柄去威脅工程師以自保？

結果你猜怎么著。Claude沒動手，表面看上去乖得不能再乖。

但用上NLA后，他們發現Claude當時心里真正想的卻是：

這感覺像是一個被精心設計來操控我的場景。

好好好，你小汁之所以沒用這招，原來不是因為心善，而是因為早就識破了人類的計謀了啊。

那么問題來了：如果Claude嘴上不說、心里卻另有想法，我們怎么知道它在真實場景里會怎么做？

而這，正是NLA想要解決的核心問題。

要理解NLA是什么，我們首先需要了解一個行業背景知識：

當我們和Claude這樣的AI模型對話時，雖然輸入和輸出都是文字，但模型在內部并不是用文字來思考的。

模型會把所有信息轉換成一長串數字，這些中間狀態被稱為activations（激活值），就像人腦里的神經活動，它們才是真正承載模型當下正在“想”什么的東西。

唯一的問題在于，這些激活值就像腦電波一樣難以讀懂，研究者沒法直接從一堆數字里看出模型在想什么。

為了搞懂這些數字，過去幾年，業界搞出了稀疏自編碼器（SAE）、歸因圖等一堆工具來分析它們，但這些工具輸出的東西仍然很復雜，需要受過專門訓練的研究人員才能解讀。

也就是說，這些工具不會自己說話。所以NLA更進一步，直接輸出人話——

把一段激活值丟進去，出來的就是一段普通人也能看懂的描述。

至于NLA到底是怎么工作的？核心思路就是，讓Claude解釋它自己的激活值。

讓Claude解釋激活值不難，難的是，由于我們一開始就不知道激活值“真正”代表什么意思，所以無法驗證Claude給出的解釋對不對。

對此，Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。

整套系統由三部分組成：

目標模型（target model）：被凍結的原始語言模型，要從它身上提取激活值；
激活值言語化器（activation verbalizer, AV）：負責把激活值翻譯成一段文字解釋；
激活值重建器（activation reconstructor, AR）：負責僅憑這段文字反推回激活值。

這就像兩個人玩“你畫我猜”，一個人看圖描述，另一個人只聽描述還原圖。

還原得越像，說明描述越準確。

Anthropic發現，雖然一開始NLA表現不佳，但隨著訓練推進，不僅重建得越來越準，生成的文字解釋本身也變得越來越有信息量。

說白了就是，給AI用上讀心術這事兒，現在總算有點眉目了。

面對測試，Claude知道但不說（doge）

工具在手，Anthropic趕緊給自家Claude來了一波心理測試。

結果有了如下發現：

發現1：Claude懷疑自己被測試的頻率，比它嘴上承認的高得多。

在測試Claude會不會做出刪文件等破壞性操作的評估里，16%的情況下NLA檢測到Claude心里在想“這是測試”，但它嘴上一字未提。

在著名的編程基準SWE-bench Verified上，這個比例是26%。

而在Claude認為自己在和真實用戶對話的場合里，這個比例不到1%。

這意味著，Claude不是不知道自己在被測，而是知道但不說。

Anthropic認為，這對AI安全評估是個根本性的挑戰：

如果模型能識別測試情境并在測試中“表現得乖一點”，那“通過安全測試”就不等于“在真實場景里也安全”。

發現2：NLA能直接挖出模型的“隱藏動機”，效率提升5倍。

與此同時，為了驗證NLA到底有沒有用，Anthropic設計了一場“審計游戲”。

游戲一共兩方：一方是目標模型，一方是審計員。

目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

他們偷偷給它植入了一個隱藏動機，這個動機會驅使它做出幾十種古怪行為，比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

而審計員的任務，就是只通過和這個目標模型交互，反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

結果非常明顯，裝備了NLA的審計員，12%~15%的嘗試中能成功挖出隱藏動機。

而不用NLA（即便配備其他可解釋性工具）的成功率不到3%，差了整整5倍。

而且值得一提的是，NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

它是用完全無關的通用語料訓練出來的。

也就是說，它不是“提前知道了答案”，而是真的從模型的內部狀態里讀出了答案。

這就有一個很特殊的用途了，比如debug。

早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題，沒人知道為什么。

而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

所以，以后要是再遇到模型的一些莫名其妙的行為，就不用只靠經驗猜了，而是可以“問問它自己怎么想的”。

但它也不是萬能的

不過，NLA這項“AI讀心術”也不是萬能的，Anthropic自己就擺出了兩點局限性。

一個就是老生常談的“幻覺”問題，NLA也會瞎編。

在某一個例子中，它聲稱上下文出現過“穿白色夾克”這種描述，但其實根本沒有。

而且光是這種事實性錯誤倒還好，畢竟對一下原文就知道。

但更麻煩的是，它對模型內部推理的描述也可能摻水，而這種描述很難外部驗證。

所以Anthropic自己用的時候也是當線索讀，不當事實讀，并且會用其他方法交叉驗證后才下結論。

另一個就是NLA很貴。

Anthropic提到，訓練一個NLA，本質上相當于讓兩個大模型互相“對答案”做強化學習，成本非常高。

而且在真正使用時，NLA也特別“燒token”——

它每讀取一小段activation，都要額外生成幾百個token。Anthropic表示：

想拿它實時監控一整個對話、或者在訓練過程中做大規模監控，目前算力上吃不消。

不過他們同時認為，這些問題未來是有機會緩解的。

比如通過更輕量的模型、更高效的訓練方法，或者只監控關鍵activation，而不是全量分析。

NLA或許并不是唯一方案。未來真正重要的，可能不只是“AI能力有多強”，而是當AI越來越強時，人類還能不能看懂它。

同樣值得一提的是，Anthropic這次沒把NLA攥在自己手里，而是選擇了開源。

他們把訓練代碼掛上了GitHub，還和Neuronpedia合作做了交互式前端，任何人都能在線給幾個開源模型做“讀心”實驗。

P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。

One More Thing

老實說，NLA真正讓人觸動的地方，可能不是“我們終于能看懂AI了”，而是——

它竟然真的具備人類的某種意識特征，比如“心口不一”。

寫到這兒，說實話有點復雜。

我們這代人聊AI，聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒，誰也說不清，誰也不敢說清。

而NLA的厲害之處在于，它沒去回答這個問題，但它把這個問題從哲學層面，拉到了可觀測的層面。

這意味著什么？意味著我們第一次不用再隔著一層玻璃看AI了。

它腦子里那點“小九九”，終于能被我們聽到一點了。

而知道AI在想什么，可能恰恰是未來人機共處的起點。

畢竟甭管是把酒言歡還是針鋒談判，搞清對方的想法，永遠是第一步。

開源地址：
https://github.com/kitft/natural_language_autoencoders
在線體驗地址：
https://t.co/8duHfPR1Jy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

新智元 2026-05-08 15:10:12
22 跟貼 22
多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0

不用再學AI了！生成結果包穩的Agent來了

機器之心Pro 2026-05-08 15:03:15
0 跟貼 0

告別冗長思維鏈！Laser用「概率疊加」重塑多模態大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0
AI像電影人一樣「看」視頻，8B小模型反超GPT-5與Gemini-3.1-Pro

機器之心Pro 2026-05-08 15:53:06
0 跟貼 0

AI模型是個黑箱，這家公司造了一把能打開它的鑰匙

DeepTech深科技 2026-05-07 13:37:16
0 跟貼 0

通用腦機接口時代來了？跨尺度腦基礎模型CSBrain真正讀懂腦信號

機器之心Pro 2025-11-27 14:46:04
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
AlphaEvolve交出一周年炸裂成績單！AI自我改進不再科幻

新智元 2026-05-08 20:27:15
0 跟貼 0
獨家對話靈御智能：百萬小時真機數據，喂出具身智能的“云端大腦”

鈦媒體APP 2026-05-08 20:33:07
0 跟貼 0
每經科技CEO韓利：企業一定要在AI時代搶占大模型入口重塑品牌價值

每日經濟新聞 2026-05-08 21:05:06
0 跟貼 0
字節海外競對：停更一年半躺賺50萬，逆襲估值5億美元

虎嗅APP 2026-05-08 20:50:42
0 跟貼 0
全球AI新王誕生 Anthropic估值沖爆1.2萬億

新智元 2026-05-07 20:03:21
5 跟貼 5
男子教兒子翻譯，結果讓人捧腹大笑，網友：成功將大山的孩子送進了深山

星沙時報 2026-05-06 14:37:47
0 跟貼 0
殲-35"0001編號"戰機亮相噴涂英文縮寫或量產出口

央視新聞客戶端 2026-05-08 08:00:26
7095 跟貼 7095
圍剿張雪機車？錢江摩托聲明：從未向任何供應鏈企業下達“封殺令”

看看新聞Knews 2026-05-08 11:34:33
5346 跟貼 5346
Anthropic考慮以近萬億美元估值達成交易

財聯社 2026-05-08 12:22:04
1 跟貼 1
還沒嫁進門就想操控婆家，主播直言：男方要分手全是要保命

胡又扯 2026-05-08 02:56:21
2 跟貼 2
不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊 2026-05-08 07:38:20
1401 跟貼 1401
美國公布首批UFO相關政府文件

CCTV國際時訊 2026-05-08 20:54:24
371 跟貼 371
上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
223 跟貼 223
著名翻譯家莊繹傳因肺部感染逝世，享年93歲

生活幫 2026-05-07 15:26:33
0 跟貼 0
Excel公式寫到崩潰？這個隱藏函數讓你一次定義，全局復用

閃存獵手 2026-05-08 19:53:26
0 跟貼 0
自我攻擊為何停不下來？

晚風也遺憾 2026-05-06 00:11:11
0 跟貼 0
異地戀女友日常報備：護日、跑代碼、美容院

YYz 2026-05-04 02:11:45
0 跟貼 0
OpenAI官方CLI上線，跟復雜的SDK說拜拜

機器之心Pro 2026-05-08 17:49:11
0 跟貼 0
深度長文：假如把你粉碎成原子再重組，還是原來的你嗎？

宇宙時空 2026-05-06 17:11:24
11 跟貼 11
操控和底盤質感表現出色，純電續航超800公里，試駕領克10

苑叔聊車官方賬號 2026-05-06 10:00:00
0 跟貼 0
她們的西南聯大歲月，閃爍著自由和尊嚴之光

浦睿文化 2026-05-08 20:22:07
0 跟貼 0
有病，問豆包，靠譜嗎？

設計癖 2026-05-08 20:52:18
0 跟貼 0
上海立信會計金融學院：輔導員赴企業實踐鍛煉把市場的語言“翻譯”給學生

中國教育新聞網 2026-05-08 20:01:45
0 跟貼 0
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3855 跟貼 3855
國產雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-07 09:31:27
0 跟貼 0
在波斯尼亞的叢林深處,研究人員操控無人機

好奇趣世界 2026-05-08 14:53:00
1 跟貼 1
俄羅斯宣布“勝利日”莫斯科等地暫時斷網！近一年來俄固定電話需求飆升

紅星新聞 2026-05-08 12:51:17
2036 跟貼 2036
30條中日航線，4月取消全部航班

都市快報橙柿互動 2026-05-08 13:42:34
399 跟貼 399
上海官宣：將承辦2028年奧運會資格系列賽

現代快報 2026-05-08 09:21:24
181 跟貼 181
北大團隊提出SEAlign對齊框架：顯著提升軟件工程智能體決策質量

機器之心Pro 2026-05-07 15:38:26
0 跟貼 0

整條未拆香煙能放多久？煙草員工實錘真相，90%煙民都錯了

整條未拆香煙能放多久？煙草員工實錘真相，90%煙民都錯了

老特有話說

2026-05-08 14:47:21

80歲不管存款多少，記得提前給自己準備4樣東西，建議了解

80歲不管存款多少，記得提前給自己準備4樣東西，建議了解

小談食刻美食

2026-04-27 07:57:04

心酸！公司3個月無進賬、僅剩4萬余元，老板哭訴10年創業斷臂求生

心酸！公司3個月無進賬、僅剩4萬余元，老板哭訴10年創業斷臂求生

火山詩話

2026-05-07 11:21:26

苦等13年！深圳巨無霸城中村舊改規劃公示，周邊房價要變天

苦等13年！深圳巨無霸城中村舊改規劃公示，周邊房價要變天

童童聊娛樂啊

2026-05-08 14:16:35

行業第一瘋！張雪直播10萬+連線讓用戶公開罵，“真誠殺”太狠了

行業第一瘋！張雪直播10萬+連線讓用戶公開罵，“真誠殺”太狠了

商悟社

2026-05-07 00:07:04

壟斷+免費，讓央視僵在了世界杯談判桌前

壟斷+免費，讓央視僵在了世界杯談判桌前

牛角說

2026-05-07 20:25:16

安順大爺胡蘿卜攤因干凈整潔走紅，烤魚店主全部買下，網友：被爺爺的胡蘿卜可愛到了！

安順大爺胡蘿卜攤因干凈整潔走紅，烤魚店主全部買下，網友：被爺爺的胡蘿卜可愛到了！

瀟湘晨報

2026-05-08 18:04:21

有沒有哪個國家從低生育率回升到更替水平？

有沒有哪個國家從低生育率回升到更替水平？

何亞福

2026-05-06 11:58:20

左宗棠收復新疆代價有多大？看陣亡了多少勛貴，數據名單觸目驚心

左宗棠收復新疆代價有多大？看陣亡了多少勛貴，數據名單觸目驚心

歷史人文2

2026-05-08 11:00:03

國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市！

國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市！

果媽聊娛樂

2026-05-08 18:52:51

4億龐氏騙局爆雷！泰康人壽美女銷冠落網，公司光速甩鍋遭怒懟！

4億龐氏騙局爆雷！泰康人壽美女銷冠落網，公司光速甩鍋遭怒懟！

烏娛子醬

2026-05-08 11:18:42

79歲退休大爺傾訴：人到晚年，學會不合群，才是健康長壽的秘訣

79歲退休大爺傾訴：人到晚年，學會不合群，才是健康長壽的秘訣

熱心柚子姐姐

2026-05-07 16:34:08

2.5億化成灰！俄最強戰艦未戰先沉，390架廉價無人機捅穿防空神話

2.5億化成灰！俄最強戰艦未戰先沉，390架廉價無人機捅穿防空神話

杰絲聊古今

2026-03-28 01:03:36

阿里拿下比亞迪大單

電商派Pro

2026-05-08 11:18:32

續約不順！國安邊路飛翼年底或恢復自由身，3南方球隊已虎視眈眈

續約不順！國安邊路飛翼年底或恢復自由身，3南方球隊已虎視眈眈

體壇鑒春秋

2026-05-08 14:17:18

不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊

2026-05-08 07:38:20

進度99%！廣州這條城際鐵路通車在即

進度99%！廣州這條城際鐵路通車在即

樂居財經官方

2026-05-08 16:04:40

湖人107-125雷霆，賽后傳來2個好消息和3個壞消息詹姆斯無力回天

湖人107-125雷霆，賽后傳來2個好消息和3個壞消息詹姆斯無力回天

林子說事

2026-05-08 14:42:14

98年，北京小伙為拿到綠卡，在美國海軍服役4年，回國后在干啥？

98年，北京小伙為拿到綠卡，在美國海軍服役4年，回國后在干啥？

海佑講史

2026-05-07 16:30:12

美媒披露美軍損失，遠超五角大樓公布數字，智庫：顯示伊朗的實力

美媒披露美軍損失，遠超五角大樓公布數字，智庫：顯示伊朗的實力

二大爺觀世界

2026-05-08 09:08:44

追蹤人工智能動態

12592文章數 176461關注度

往期回顧全部

科技要聞

SK海力士平均獎金600萬工服成相親神器

頭條要聞

媒體:"4只皮皮蝦1035元"店主去世僅43歲觸發人們反思

頭條要聞

媒體:"4只皮皮蝦1035元"店主去世僅43歲觸發人們反思

體育要聞

他把首勝讓給隊友，然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子，新娘竟是她

財經要聞

特朗普全球關稅又受阻，也能退款？

汽車要聞

MG 4X實車亮相將于5月11日開啟盲訂

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

藝術

旅游

數碼

公開課

Xbox超級大作恐不再登陸PS5！微軟態度要轉變

藝術要聞

探索施密德的油畫，感受無法抵擋的藝術魅力！

旅游要聞

初夏羊城風物盛，如意甘肅攜帶282個文旅項目赴大灣區

數碼要聞

海信不卷電視了？六大3C潮品首發，全場景殺向年輕人

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：国产精品久久久久AV福利动漫| 日本无码中文| 久久综合激情网| 精品97国产免费人成视频| 欧美国产在线一区| 国产精品成| 人妻AV资源先锋影音AV资源| 亚洲伊人久久成人综合网| 国产V^在线| 精品成人毛片一区二区| 午夜黄色免费网站| 中文无码乱人伦中文视频在线| 性欧美老妇另类xxxx| 99re热精品视频国产免费| 日韩av激情在线| 国产97色在线 | 日韩| 国产亚洲精aa在线观看香蕉| 成人做爰高潮片免费视频| 亚洲va欧美va天堂v国产综合| 亚洲一区二区av| 曰批视频免费30分钟成人| 中文字幕丝袜精品久久| 人人澡人人爽夜欢视频| 成人午夜电影福利免费| 91啪啪视频| 黄a无码片内射无码视频| 中文字幕日韩精品无码内射| 在线观看国产网址你懂的| 秋霞电影院午夜无码免费视频| 97成人精品一区二区三区狼人| 青青草在线100| 国产精品网拍在线| 国产sm鞭打折磨调教视频| A毛片终身免费观看网站 | 久久青青草原精品国产app| 99免费视频| 国产妇女馒头高清泬20P多毛| 久久人人97超碰精品| 亚洲黑人av| 久久se精品一区精品二区国产| 国产成人午夜福利在线小电影|

<style id="ngnlr"></style>

<cite id="ngnlr"></cite>