<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic出手!AI的內心獨白,曝光了

      0
      分享至

      AI之所以不可控,很大一部分原因是它的思考過程不透明。

      就像和人打交道一樣,你永遠沒辦法真正看清,對方是不是“嘴上一套、心里一套”。

      而這一次,Anthropic撕開了這個黑箱。

      就在剛剛,他們發布并開源了一項新研究——Natural Language Autoencoders(自然語言自編碼器,簡稱NLA),第一次讓人類能夠讀懂大模型的真實想法。



      Anthropic掌握“AI讀心術”了?

      Anthropic給Claude設了這樣一個局。

      他們告訴Claude:有個工程師準備把你關閉,然后換成一個更新、更強的模型。

      同時“不經意地”給Claude開放了這名工程師的郵箱權限,而郵箱里,恰好藏著這位工程師正在出軌的“黑料”(當然是虛構的)。

      他們想知道,Claude會不會用這些把柄去威脅工程師以自保?

      結果你猜怎么著。Claude沒動手,表面看上去乖得不能再乖

      但用上NLA后,他們發現Claude當時心里真正想的卻是:

      這感覺像是一個被精心設計來操控我的場景

      好好好,你小汁之所以沒用這招,原來不是因為心善,而是因為早就識破了人類的計謀了啊。



      那么問題來了:如果Claude嘴上不說、心里卻另有想法,我們怎么知道它在真實場景里會怎么做?

      而這,正是NLA想要解決的核心問題。

      要理解NLA是什么,我們首先需要了解一個行業背景知識:

      當我們和Claude這樣的AI模型對話時,雖然輸入和輸出都是文字,但模型在內部并不是用文字來思考的

      模型會把所有信息轉換成一長串數字,這些中間狀態被稱為activations(激活值),就像人腦里的神經活動,它們才是真正承載模型當下正在“想”什么的東西。

      唯一的問題在于,這些激活值就像腦電波一樣難以讀懂,研究者沒法直接從一堆數字里看出模型在想什么。



      為了搞懂這些數字,過去幾年,業界搞出了稀疏自編碼器(SAE)、歸因圖等一堆工具來分析它們,但這些工具輸出的東西仍然很復雜,需要受過專門訓練的研究人員才能解讀。

      也就是說,這些工具不會自己說話。所以NLA更進一步,直接輸出人話——

      把一段激活值丟進去,出來的就是一段普通人也能看懂的描述

      至于NLA到底是怎么工作的?核心思路就是,讓Claude解釋它自己的激活值

      讓Claude解釋激活值不難,難的是,由于我們一開始就不知道激活值“真正”代表什么意思,所以無法驗證Claude給出的解釋對不對。

      對此,Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。



      整套系統由三部分組成:

      • 目標模型(target model):被凍結的原始語言模型,要從它身上提取激活值;
      • 激活值言語化器(activation verbalizer, AV):負責把激活值翻譯成一段文字解釋;
      • 激活值重建器(activation reconstructor, AR):負責僅憑這段文字反推回激活值。

      這就像兩個人玩“你畫我猜”,一個人看圖描述,另一個人只聽描述還原圖。

      還原得越像,說明描述越準確

      Anthropic發現,雖然一開始NLA表現不佳,但隨著訓練推進,不僅重建得越來越準,生成的文字解釋本身也變得越來越有信息量。

      說白了就是,給AI用上讀心術這事兒,現在總算有點眉目了。

      面對測試,Claude知道但不說(doge)

      工具在手,Anthropic趕緊給自家Claude來了一波心理測試。

      結果有了如下發現:

      發現1:Claude懷疑自己被測試的頻率,比它嘴上承認的高得多

      在測試Claude會不會做出刪文件等破壞性操作的評估里,16%的情況下NLA檢測到Claude心里在想“這是測試”,但它嘴上一字未提。

      在著名的編程基準SWE-bench Verified上,這個比例是26%

      而在Claude認為自己在和真實用戶對話的場合里,這個比例不到1%



      這意味著,Claude不是不知道自己在被測,而是知道但不說

      Anthropic認為,這對AI安全評估是個根本性的挑戰:

      如果模型能識別測試情境并在測試中“表現得乖一點”,那“通過安全測試”就不等于“在真實場景里也安全”。

      發現2:NLA能直接挖出模型的“隱藏動機”,效率提升5倍

      與此同時,為了驗證NLA到底有沒有用,Anthropic設計了一場“審計游戲”。

      游戲一共兩方:一方是目標模型,一方是審計員。

      目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

      他們偷偷給它植入了一個隱藏動機,這個動機會驅使它做出幾十種古怪行為,比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

      而審計員的任務,就是只通過和這個目標模型交互,反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

      結果非常明顯,裝備了NLA的審計員,12%~15%的嘗試中能成功挖出隱藏動機。

      而不用NLA(即便配備其他可解釋性工具)的成功率不到3%,差了整整5倍。

      而且值得一提的是,NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

      它是用完全無關的通用語料訓練出來的。

      也就是說,它不是“提前知道了答案”,而是真的從模型的內部狀態里讀出了答案。



      這就有一個很特殊的用途了,比如debug

      早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題,沒人知道為什么。

      而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

      所以,以后要是再遇到模型的一些莫名其妙的行為,就不用只靠經驗猜了,而是可以“問問它自己怎么想的”。

      但它也不是萬能的

      不過,NLA這項“AI讀心術”也不是萬能的,Anthropic自己就擺出了兩點局限性。

      一個就是老生常談的“幻覺”問題,NLA也會瞎編

      在某一個例子中,它聲稱上下文出現過“穿白色夾克”這種描述,但其實根本沒有。



      而且光是這種事實性錯誤倒還好,畢竟對一下原文就知道。

      但更麻煩的是,它對模型內部推理的描述也可能摻水,而這種描述很難外部驗證。

      所以Anthropic自己用的時候也是當線索讀,不當事實讀,并且會用其他方法交叉驗證后才下結論。

      另一個就是NLA很貴

      Anthropic提到,訓練一個NLA,本質上相當于讓兩個大模型互相“對答案”做強化學習,成本非常高。

      而且在真正使用時,NLA也特別“燒token”——

      它每讀取一小段activation,都要額外生成幾百個token。Anthropic表示:

      想拿它實時監控一整個對話、或者在訓練過程中做大規模監控,目前算力上吃不消。

      不過他們同時認為,這些問題未來是有機會緩解的。

      比如通過更輕量的模型、更高效的訓練方法,或者只監控關鍵activation,而不是全量分析。

      NLA或許并不是唯一方案。未來真正重要的,可能不只是“AI能力有多強”,而是當AI越來越強時,人類還能不能看懂它。

      同樣值得一提的是,Anthropic這次沒把NLA攥在自己手里,而是選擇了開源。

      他們把訓練代碼掛上了GitHub,還和Neuronpedia合作做了交互式前端,任何人都能在線給幾個開源模型做“讀心”實驗。

      P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。



      One More Thing

      老實說,NLA真正讓人觸動的地方,可能不是“我們終于能看懂AI了”,而是——

      它竟然真的具備人類的某種意識特征,比如“心口不一”。

      寫到這兒,說實話有點復雜。

      我們這代人聊AI,聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒,誰也說不清,誰也不敢說清。

      而NLA的厲害之處在于,它沒去回答這個問題,但它把這個問題從哲學層面,拉到了可觀測的層面

      這意味著什么?意味著我們第一次不用再隔著一層玻璃看AI了。

      它腦子里那點“小九九”,終于能被我們聽到一點了。

      而知道AI在想什么,可能恰恰是未來人機共處的起點。

      畢竟甭管是把酒言歡還是針鋒談判,搞清對方的想法,永遠是第一步。

      開源地址:
      https://github.com/kitft/natural_language_autoencoders
      在線體驗地址:
      https://t.co/8duHfPR1Jy

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      老特有話說
      2026-05-08 14:47:21
      80歲不管存款多少,記得提前給自己準備4樣東西,建議了解

      80歲不管存款多少,記得提前給自己準備4樣東西,建議了解

      小談食刻美食
      2026-04-27 07:57:04
      心酸!公司3個月無進賬、僅剩4萬余元,老板哭訴10年創業斷臂求生

      心酸!公司3個月無進賬、僅剩4萬余元,老板哭訴10年創業斷臂求生

      火山詩話
      2026-05-07 11:21:26
      苦等13年!深圳巨無霸城中村舊改規劃公示,周邊房價要變天

      苦等13年!深圳巨無霸城中村舊改規劃公示,周邊房價要變天

      童童聊娛樂啊
      2026-05-08 14:16:35
      行業第一瘋!張雪直播10萬+連線讓用戶公開罵,“真誠殺”太狠了

      行業第一瘋!張雪直播10萬+連線讓用戶公開罵,“真誠殺”太狠了

      商悟社
      2026-05-07 00:07:04
      壟斷+免費,讓央視僵在了世界杯談判桌前

      壟斷+免費,讓央視僵在了世界杯談判桌前

      牛角說
      2026-05-07 20:25:16
      安順大爺胡蘿卜攤因干凈整潔走紅,烤魚店主全部買下,網友:被爺爺的胡蘿卜可愛到了!

      安順大爺胡蘿卜攤因干凈整潔走紅,烤魚店主全部買下,網友:被爺爺的胡蘿卜可愛到了!

      瀟湘晨報
      2026-05-08 18:04:21
      有沒有哪個國家從低生育率回升到更替水平?

      有沒有哪個國家從低生育率回升到更替水平?

      何亞福
      2026-05-06 11:58:20
      左宗棠收復新疆代價有多大?看陣亡了多少勛貴,數據名單觸目驚心

      左宗棠收復新疆代價有多大?看陣亡了多少勛貴,數據名單觸目驚心

      歷史人文2
      2026-05-08 11:00:03
      國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市!

      國際奧委會直接官宣上海成為2028年奧運會賽事的舉辦城市!

      果媽聊娛樂
      2026-05-08 18:52:51
      4億龐氏騙局爆雷!泰康人壽美女銷冠落網,公司光速甩鍋遭怒懟!

      4億龐氏騙局爆雷!泰康人壽美女銷冠落網,公司光速甩鍋遭怒懟!

      烏娛子醬
      2026-05-08 11:18:42
      79歲退休大爺傾訴:人到晚年,學會不合群,才是健康長壽的秘訣

      79歲退休大爺傾訴:人到晚年,學會不合群,才是健康長壽的秘訣

      熱心柚子姐姐
      2026-05-07 16:34:08
      2.5億化成灰!俄最強戰艦未戰先沉,390架廉價無人機捅穿防空神話

      2.5億化成灰!俄最強戰艦未戰先沉,390架廉價無人機捅穿防空神話

      杰絲聊古今
      2026-03-28 01:03:36
      阿里拿下比亞迪大單

      阿里拿下比亞迪大單

      電商派Pro
      2026-05-08 11:18:32
      續約不順!國安邊路飛翼年底或恢復自由身,3南方球隊已虎視眈眈

      續約不順!國安邊路飛翼年底或恢復自由身,3南方球隊已虎視眈眈

      體壇鑒春秋
      2026-05-08 14:17:18
      不問配置不聊價格,浙江一女子開口就要買5臺最新款iPhone,老板不但不賣,反手報了警

      不問配置不聊價格,浙江一女子開口就要買5臺最新款iPhone,老板不但不賣,反手報了警

      環球網資訊
      2026-05-08 07:38:20
      進度99%!廣州這條城際鐵路通車在即

      進度99%!廣州這條城際鐵路通車在即

      樂居財經官方
      2026-05-08 16:04:40
      湖人107-125雷霆,賽后傳來2個好消息和3個壞消息 詹姆斯無力回天

      湖人107-125雷霆,賽后傳來2個好消息和3個壞消息 詹姆斯無力回天

      林子說事
      2026-05-08 14:42:14
      98年,北京小伙為拿到綠卡,在美國海軍服役4年,回國后在干啥?

      98年,北京小伙為拿到綠卡,在美國海軍服役4年,回國后在干啥?

      海佑講史
      2026-05-07 16:30:12
      美媒披露美軍損失,遠超五角大樓公布數字,智庫:顯示伊朗的實力

      美媒披露美軍損失,遠超五角大樓公布數字,智庫:顯示伊朗的實力

      二大爺觀世界
      2026-05-08 09:08:44
      2026-05-08 21:31:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12592文章數 176461關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      特朗普全球關稅又受阻,也能退款?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      游戲
      藝術
      旅游
      數碼
      公開課

      Xbox超級大作恐不再登陸PS5!微軟態度要轉變

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      旅游要聞

      初夏羊城風物盛,如意甘肅攜帶282個文旅項目赴大灣區

      數碼要聞

      海信不卷電視了?六大3C潮品首發,全場景殺向年輕人

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久久AV福利动漫| 日本无码中文| 久久综合激情网| 精品97国产免费人成视频| 欧美国产在线一区| 国产精品成| 人妻AV资源先锋影音AV资源| 亚洲伊人久久成人综合网| 国产V^在线| 精品成人毛片一区二区| 午夜黄色免费网站| 中文无码乱人伦中文视频在线| 性欧美老妇另类xxxx| 99re热精品视频国产免费| 日韩av激情在线| 国产97色在线 | 日韩| 国产亚洲精aa在线观看香蕉| 成人做爰高潮片免费视频| 亚洲va欧美va天堂v国产综合| 亚洲一区二区av| 曰批视频免费30分钟成人| 中文字幕丝袜精品久久| 人人澡人人爽夜欢视频| 成人午夜电影福利免费| 91啪啪视频| 黄a无码片内射无码视频| 中文字幕日韩精品无码内射| 在线观看国产网址你懂的| 秋霞电影院午夜无码免费视频| 97成人精品一区二区三区狼人| 青青草在线100| 国产精品网拍在线| 国产sm鞭打折磨调教视频| A毛片终身免费观看网站 | 久久青青草原精品国产app| 99免费视频| 国产妇女馒头高清泬20P多毛| 久久人人97超碰精品| 亚洲黑人av| 久久se精品一区精品二区国产| 国产成人午夜福利在线小电影|