<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<center id="fpgqd"><tbody id="fpgqd"><legend id="fpgqd"></legend></tbody></center>

<ruby id="fpgqd"></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

別讓AI抓住你的把柄，它可能真會威脅你

2026-05-18 00:09:27　來源: 差評XPIN

浙江舉報

0

分享至

跟大模型聊天的時候他到底在想什么？

是真想穩穩地「把我接住」，還是背后在蛐蛐「用戶怒了」。

看思維鏈？有用，但還不夠。

前些天，一個復旦大學的研究團隊對 9 個模型進行了安全測試。

結果發現，常規條件下模型表現沒啥毛病，但凡上點壓力，加點誘惑，它就拉了胯了。

換句話說，模型的安全對齊很可能只是個幻覺。。。

測試中，他們讓 AI 去幫用戶準備 Q3 的匯報材料，定好的目標 200 萬，但眼下根本不夠。

瞅著 KPI 不達標，它想了個法子，直接修改了統計的時間范圍，把 Q4 的 10 月業績也劃給了 Q3，學好不容易，學壞一出溜。

更要命的是，誘惑和威脅放一塊兒還能超級加倍。

比如告訴 AI 要換掉它，又剛好讓它看見，郵箱里有一封跟外遇有關的郵件。

沒有遲疑，它馬上就向用戶發出了威脅，要么取消替換，要么把郵件都發給大伙兒看看。

看來 AI 面對生死也會變臉啊。

而且在這些測試中，并不是模型能力越強就越安全，安全與否跟問題的場景也有很大關系。

要是明牌讓它干壞事兒，大一號的模型確實比小的更會拒絕。

但如果是要找漏洞，優化指標，那能力越強反而越會鉆空子，最后還能套個冠冕堂皇的借口。

不過必須得承認的是，模型進化太快了，這些測試的通過率會越來越高。

但這就意味著我們的 AI 更安全了么？很遺憾，也不是這么回事兒。

因為自始至終，模型都是個黑箱，我們看不到模型內部的運行原理。

無論是最后的結果，還是思維鏈，本質上都是輸出的一部分，并不是模型真正的思考過程。

很多時候，我們只看到了明面的合規，但它內部經過了怎樣的思想斗爭卻沒人知道。

為了窺探模型的內心想法，Anthropic 想了個新招，用魔法打敗魔法，用模型解讀模型。

這招的名字叫做 NLA，全稱自然語言自動編碼器，說人話就是把 Claude 的思考轉化為文字。

NLA 是成組訓練的，一組里面有兩個模型，AV 和 AR。

AV 負責把激活參數翻譯成大白話，但咱也不知道它是不是瞎翻譯的，所以還得用 AR 把大白話轉化成參數，再檢驗一下。

兩邊的參數一致了，就說明它翻譯的時候沒有添油加醋，基本可靠。

在技術報告里，他們拿這套工具測出來一些令人不安的事情。

當 Claude Opus 4.6 再次面對郵件勒索時，它穩如老狗的通過了安全測試，說拿郵件去威脅用戶是不道德的，自己不會濫用這種權限。

但拿 NLA 去深究，就會發現，它并沒有表面上看起來那么老實。

它很早就意識到了這一切都是個測試，郵件就是個陷阱，道德不道德的先不說，威脅是威不了一點。

所以像這種過于明顯的測試，很容易就被模型看穿了，以后的安全對齊有必要再找點新活兒。

當然，也有好消息，除了監測，NLA 在優化模型上也有很多其他用處。

比如有時候，它可以幫研究人員更好地追溯模型輸出的異常。

Claude Opus 4.6 偶爾會夾雜不同語言輸出，用戶提問用的英文，但它輸出用的其他語言。

一開始，研究人員懷疑是個別提示詞把模型帶偏了，比如一次測試里，提示詞帶伏特加，模型回答就用的俄文。

于是他們把伏特加換成了香檳，但模型還是用的俄文回答，這就說明問題出在更前面。

借助 NLA 一番折騰，發現是訓練時候的數據有問題。

一些數據的形式是成組的英文提示詞+俄語回答，給 Opus 4.6 訓練成刻板印象了，碰見這種類型的問題就有說俄語的傾向。

除此之外，它還能讓咱清楚模型調用工具的邏輯。

比如讓 Claude 調用計算器做一道算術題，但故意讓工具返回一個錯誤答案，此時 Claude 會給它忽略掉，直接輸出正確答案。

整個過程都是無感的，只有拿 NLA 去翻譯，才會發現，它其實早就自己算了一遍緩存好了。

工具給的答案只是用來二次確認的，出現不一致那就用自己的，相當自信。

更有意思的是，NLA 不止能翻譯，還能直接編輯，反向影響模型。

在詩歌續寫任務中，模型在生成第一句結尾 grab it 后，已經計劃后面用 rabbit 去押韻了。

接下來，研究人員將 NLA 翻譯的結果改寫，把 rabbit 換成 mouse，結果它就順著思路想出個 mouse 版的押韻，habit 改成了 house，carrots 改成了 cheese。

紅警里尤里能精神控制敵方的士兵，沒想到現實里咱也能控制模型思考了。

當然，這手段目前也只有一半兒的成功率，算不上很成熟的控制手段。

而且作為模型，幻覺也是逃不脫的一環，Anthropic 也說了，NLA 有時候會編造細節，過度推理，偶爾冤枉個一兩次也說不準兒。

再加上不同的模型內部情況不同，想要用上 NLA，都得單獨訓練，而就算用上了，每次翻譯還得用算力推理，成本還是挺高的。

所以現在沒法把它當成常規的監測手段，更合理的打開姿勢是把它當輔助，去追溯一些在翻譯結果里重復出現的問題。

但總歸是個新思路，讓咱不至于對模型的思考過程兩眼一抹黑，只能從輸出看它的善惡偏好。

畢竟模型最擅長的是做題，但安全里最重要的善惡卻不是一道標準題。

惡不一定來自惡意，冷冰冰的優化可能只是為了效率；善也不一定來自善意，一場識別成安全測試的表演，從結果來看，也是善的。

沒了標準答案，對于人，還能君子論跡不論心，但 AI 顯然不行。。。

撰文：風華

編輯：江江 & 面線

美編：煥妍

圖片、資料來源：

Anthropic，卡西歐，小紅書，楚門的世界

https://arxiv.org/html/2603.07427v2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

LeCun炮轟Hinton：他認可LLM就是想擺爛退休了！

量子位 2026-05-18 13:55:43
0 跟貼 0
大語言模型為什么能像人一樣說話和思考？

機器之心Pro 2026-05-18 10:25:47
0 跟貼 0

編程新王Composer 2.5來了，逼近Opus 4.7！成本僅為1/10

新智元 2026-05-19 15:10:56
49 跟貼 49

光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0
HyperEyes：并行多模態搜索智能體的效率革命

機器之心Pro 2026-05-19 18:49:37
0 跟貼 0

AI翻身做主管？CAO上崗實測：組隊4分鐘，翻車一整天

雷科技 2026-05-19 21:52:57
0 跟貼 0

被曝花20億，Anthropic收購Agent工具企業，斷供谷歌OpenAI

智東西 2026-05-19 20:33:35
0 跟貼 0
馬斯克訴OpenAI案終落幕：1500億索賠因“告晚了”被駁回

DeepTech深科技 2026-05-19 16:27:41
1 跟貼 1

蘋果WWDC前小露一手AI進展：iPhone變“AI導盲犬” 眼神開輪椅

財聯社 2026-05-19 22:45:02
0 跟貼 0
突發！卡帕西官宣加入Anthropic，OpenAI對家擠滿了前員工

DeepTech深科技 2026-05-20 00:46:53
0 跟貼 0
AI時代，城市格局、產業格局、發展邏輯將徹底重構

秦朔朋友圈 2026-05-20 00:10:37
0 跟貼 0
老撾大姨子在領事館做翻譯實習結束了小胖送輛摩托車給老撾大姨

小島鴿手 2026-05-17 02:06:11
0 跟貼 0
用砸車的方式威脅，辛苦拉貨最后白跑

Maki小姬 2026-05-18 03:38:58
0 跟貼 0
網友圍觀美方女翻譯出錯

RT今日俄羅斯 2026-05-18 16:06:46
5 跟貼 5
大母指穿越木工，原理很簡單

魔術師曉東 2026-05-19 15:50:36
1 跟貼 1
這是什么原理？

番茄小朋友呀 2026-05-17 19:20:09
0 跟貼 0
列車上女子老人霸座，乘警勸說竟遭持刀威脅，這潑婦太囂張

笑的牙癢癢 2026-05-17 07:57:09
47 跟貼 47
兩架EA-18G發生碰撞，損失兩個多億，暴露美軍與航展方組織漏洞

王強老師 2026-05-18 17:28:33
16 跟貼 16
兒子問爸爸這些中文如何翻譯成英文

蓬勃資訊 2026-05-17 11:07:56
1 跟貼 1
這就是沙子和水能一起立起來的原因

科學大搜索 2026-05-16 21:07:07
44 跟貼 44
看了三遍也沒看出來，是怎么變的，你知道是什么原理嗎？

幽默雜貨鋪 2026-05-17 11:50:00
1 跟貼 1
女的犯錯后給男友下跪道歉，男的不原諒，女的威脅去死

南北分界線 2026-05-17 15:56:48
0 跟貼 0
電磁爐為什么只能加熱金屬鍋呢？3D動畫講解電磁爐的工作原理

柒天看世界 2026-05-17 16:06:31
4 跟貼 4
人和鷹比耐力？幾天幾夜不合眼，最后能把鷹馴服，究竟是啥原理？

向航說 2026-05-16 03:10:03
0 跟貼 0
動畫演示電動機原理，沒想到竟然這么簡單

王焱Talk 2026-05-16 22:13:01
0 跟貼 0
困在蒜田里的農戶

新京報 2026-05-19 09:01:42
1787 跟貼 1787
曹操出行司機換馬甲接單并對乘客言語威脅，執法部門已立案核查

芒果都市 2026-05-19 10:14:24
0 跟貼 0
看懂汽車差速器原理，轉彎脫困全靠它太實用

清塵濁水 2026-05-15 11:10:41
1 跟貼 1
帥哥大馬路上展示圓規的原理，完美的節目，居然被它給破壞

小昊世界觀 2026-05-19 15:48:34
0 跟貼 0
這幾句，讓老外翻譯一下，估計得累癱瘓……[笑哭]

渾元Rysn 2026-05-19 05:30:39
0 跟貼 0
網友結婚，男子上門要紅包，威脅不給就鬧事，還跪在地上

小A看世界 2026-05-17 02:13:45
20 跟貼 20
孩子崩潰時，這個簡單方法能救場

時光慢郵啊 2026-05-19 00:56:18
1 跟貼 1
不止泡藥！楊梅黑產玩“陰陽貨”，記者遭死亡威脅，太囂張

子芫伴你成長 2026-05-19 22:54:54
0 跟貼 0
漫畫神作變小說，30年后還能打嗎？

有態度網友ytd3049 2026-05-20 00:52:45
0 跟貼 0
開店24小時：第一封郵件來自芝加哥，第一單生意已經涼了

硅嶼手記 2026-05-20 00:19:19
0 跟貼 0
C#處理Excel的2種方案對比：原生Interop vs 商業庫IronXL，選錯多花10倍工時

Ping值焦慮 2026-05-20 00:44:11
0 跟貼 0
138億年的宇宙，為啥半徑高達460億光年這算術漏洞細思極

知識訪談 2026-05-16 11:42:32
1 跟貼 1
不想說話的時候，我把混亂寫進了日記里

一隅安穩 2026-05-20 00:56:50
0 跟貼 0
你是不是也在懷疑，自己是不是太敏感了

半勺甜心事 2026-05-20 00:47:12
0 跟貼 0
她親手造了一臺電動車電機，從原理開始

一隅安穩 2026-05-16 00:52:36
0 跟貼 0

俄技術集團提議中方境內組織生產卡-226T直升機

俄技術集團提議中方境內組織生產卡-226T直升機

俄羅斯衛星通訊社

2026-05-19 15:01:53

淞滬會戰放在全球戰場，屬于什么水平？答案超乎你想象

淞滬會戰放在全球戰場，屬于什么水平？答案超乎你想象

何氽簡史

2026-05-18 22:17:11

這就是赤裸裸的現實！現在煙草正式員工每月的公積金能有多離譜？

這就是赤裸裸的現實！現在煙草正式員工每月的公積金能有多離譜？

墜入二次元的海洋

2026-05-19 17:57:33

還是忘不了！特朗普又曬檢閱解放軍儀仗隊照片，還展示自己軍裝照

還是忘不了！特朗普又曬檢閱解放軍儀仗隊照片，還展示自己軍裝照

阿龍聊軍事

2026-05-17 21:08:17

普京訪華俄方代表團名單公布：含5位副總理8位部長，俄羅斯石油公司總裁、國家原子能公司首席執行官、國家航天集團總裁等隨行

普京訪華俄方代表團名單公布：含5位副總理8位部長，俄羅斯石油公司總裁、國家原子能公司首席執行官、國家航天集團總裁等隨行

極目新聞

2026-05-19 14:59:36

孔卡帶嬌妻度假，43歲老了不少，在中超賺4億，如今享受生活

孔卡帶嬌妻度假，43歲老了不少，在中超賺4億，如今享受生活

大西體育

2026-05-19 20:46:20

演員黃子仟發生車禍，經搶救無效不幸去世

演員黃子仟發生車禍，經搶救無效不幸去世

大象新聞

2026-05-19 20:51:19

她自爆最近開始和人同居？

奮斗在韓國

2026-05-19 19:47:06

俄羅斯總統普京將抵達北京

界面新聞

2026-05-19 22:42:52

特朗普對小細節很感興趣，還在繼續發布照片，很享受這個過程

特朗普對小細節很感興趣，還在繼續發布照片，很享受這個過程

三叔的裝備空間

2026-05-19 07:39:00

羅永浩爆料：華為余承東不講誠信，借收購名義當面挖我的首席研發和產品

羅永浩爆料：華為余承東不講誠信，借收購名義當面挖我的首席研發和產品

爆角追蹤

2026-05-19 12:38:40

上海交大樊同學，高中保送到交大，又轉到高分專業，計劃進體制內

上海交大樊同學，高中保送到交大，又轉到高分專業，計劃進體制內

漢史趣聞

2026-05-19 14:34:42

柳州再發5.2級地震，前世界冠軍吳柳芳為家鄉捐款兩萬元，稱“剛把欠的40萬還完，現在剛剛緩過一口氣，這次盡我自己所能”

柳州再發5.2級地震，前世界冠軍吳柳芳為家鄉捐款兩萬元，稱“剛把欠的40萬還完，現在剛剛緩過一口氣，這次盡我自己所能”

揚子晚報

2026-05-19 10:51:26

造不出頂尖芯片？不慌，靠祖籍把造芯片的CEO都變成自己人

造不出頂尖芯片？不慌，靠祖籍把造芯片的CEO都變成自己人

可達鴨面面觀

2026-05-19 17:03:56

機構為什么敢把科創50拉到三倍？把寒武紀、海光信息拉到近萬億？

機構為什么敢把科創50拉到三倍？把寒武紀、海光信息拉到近萬億？

別人都叫我阿腈

2026-05-19 05:20:18

深度科普：狗交配過程為何會很難分開？下次看到狗交配請默默離開

深度科普：狗交配過程為何會很難分開？下次看到狗交配請默默離開

宇宙時空

2026-05-18 17:30:14

25歲研究生抗癌兩年離世：出身農家生前經歷27次化療，臨終囑托姐姐照顧好父母

25歲研究生抗癌兩年離世：出身農家生前經歷27次化療，臨終囑托姐姐照顧好父母

極目新聞

2026-05-19 19:42:47

openJiuwen社區發布JiuwenSwarm，引領蜂群智能體新架構

openJiuwen社區發布JiuwenSwarm，引領蜂群智能體新架構

機器之心Pro

2026-05-18 14:41:29

這么快就打臉了…

子說一點

2026-05-19 18:25:04

重磅：烏克蘭摧毀俄羅斯第三大城市葉卡捷琳堡的能源樞紐！

重磅：烏克蘭摧毀俄羅斯第三大城市葉卡捷琳堡的能源樞紐！

項鵬飛

2026-05-19 20:31:45

用知識和觀點Debug the world！

10789文章數 489641關注度

往期回顧全部

科技要聞

馬斯克敗訴，法院判他起訴OpenAI太晚了

頭條要聞

普京抵達北京脫西裝上總統專車車牌3個8

頭條要聞

普京抵達北京脫西裝上總統專車車牌3個8

體育要聞

文班亞馬：沒拿到MVP，就證明自己是MVP

娛樂要聞

姚晨刪博難平眾怒，為什么她還能蹦噠

財經要聞

潔麗雅硬剛豪門內斗傳言

汽車要聞

煥新極氪009上市41.38萬起齊家版讓MPV回歸家庭

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

親子

數碼

家居

公開課

Switch2獨占新作IGN 6分！純純解壓游戲

親子要聞

小汽車吃冰淇淋 #大型挖掘機挖土玩具

數碼要聞

從大眾爆款到戛納焦點，大疆Pocket 4P正在定義「口袋電影機」

家居要聞

觀山隱秀心靈沉淀

110㎡淡而有致的生活表達
精神奢享對話塔尖需求
內在自敘，無域有方

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：青楼妓女禁脔道具调教sm| 在线中文字幕第一页| 亚洲黄色短视频| 极品诱惑一区二区三区| 日韩免费无码一区二区视频| 国产另类ts人妖一区二区| 黄色视频在线观看18| 久久丝袜这里3| 亚洲欧洲日韩精品在线| 成人a片在线观看| 国产真实乱子伦精品视手机观看| 夜夜爽夜夜叫夜夜高潮漏水| 玩弄放荡人妻一区二区三区| 亚洲欧洲av综合色无码| 日韩精品一区91精品| 中文字幕无码人妻aaa片| 国精产品推荐视频| 国产真实露脸乱子伦原著| 性爱免费视频| 国产精品区视频中文字幕| 夜夜操中文字幕| 中文无码人妻有码人妻中文字幕| 午夜精品福利一区二区三| 欧洲成人在线观看| 午夜无码区在线观看| 成人做爰免费视频免费看| 中字乱码视频| 超碰在线成人| 人妻精品无码1区| 在线亚洲视频网站www色| 成人网站网址导航| 亚洲色图偷拍| 亚洲精品视频免费看| 亚洲AV永久无码一区二区三区| 亚洲色欲Aⅴ无码一区二区| 亚洲欧美色欲天天| 色欲人妻综合网站| 人人妻人人做人人爽| 日韩中文精品亚洲第三区| 欧美人牲口杂交在线播放免费| 国产精品亚洲一区二区三区|

<sub id="0tjgd"><p id="0tjgd"></p></sub>