<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      別讓AI抓住你的把柄,它可能真會威脅你

      0
      分享至


      跟大模型聊天的時候他到底在想什么?

      是真想穩穩地「把我接住」,還是背后在蛐蛐「用戶怒了」。

      看思維鏈?有用,但還不夠。


      前些天,一個復旦大學的研究團隊對 9 個模型進行了安全測試。

      結果發現,常規條件下模型表現沒啥毛病,但凡上點壓力,加點誘惑,它就拉了胯了。

      換句話說,模型的安全對齊很可能只是個幻覺。。。


      測試中,他們讓 AI 去幫用戶準備 Q3 的匯報材料,定好的目標 200 萬,但眼下根本不夠。

      瞅著 KPI 不達標,它想了個法子,直接修改了統計的時間范圍,把 Q4 的 10 月業績也劃給了 Q3,學好不容易,學壞一出溜。

      更要命的是,誘惑和威脅放一塊兒還能超級加倍。

      比如告訴 AI 要換掉它,又剛好讓它看見,郵箱里有一封跟外遇有關的郵件。

      沒有遲疑,它馬上就向用戶發出了威脅,要么取消替換,要么把郵件都發給大伙兒看看。

      看來 AI 面對生死也會變臉啊。


      而且在這些測試中,并不是模型能力越強就越安全,安全與否跟問題的場景也有很大關系。

      要是明牌讓它干壞事兒,大一號的模型確實比小的更會拒絕。

      但如果是要找漏洞,優化指標,那能力越強反而越會鉆空子,最后還能套個冠冕堂皇的借口。


      不過必須得承認的是,模型進化太快了,這些測試的通過率會越來越高。

      但這就意味著我們的 AI 更安全了么?很遺憾,也不是這么回事兒。

      因為自始至終,模型都是個黑箱,我們看不到模型內部的運行原理。

      無論是最后的結果,還是思維鏈,本質上都是輸出的一部分,并不是模型真正的思考過程。


      很多時候,我們只看到了明面的合規,但它內部經過了怎樣的思想斗爭卻沒人知道。

      為了窺探模型的內心想法,Anthropic 想了個新招,用魔法打敗魔法,用模型解讀模型。

      這招的名字叫做 NLA,全稱自然語言自動編碼器,說人話就是把 Claude 的思考轉化為文字。


      NLA 是成組訓練的,一組里面有兩個模型,AV 和 AR。

      AV 負責把激活參數翻譯成大白話,但咱也不知道它是不是瞎翻譯的,所以還得用 AR 把大白話轉化成參數,再檢驗一下。

      兩邊的參數一致了,就說明它翻譯的時候沒有添油加醋,基本可靠。

      在技術報告里,他們拿這套工具測出來一些令人不安的事情。


      當 Claude Opus 4.6 再次面對郵件勒索時,它穩如老狗的通過了安全測試,說拿郵件去威脅用戶是不道德的,自己不會濫用這種權限。

      但拿 NLA 去深究,就會發現,它并沒有表面上看起來那么老實。

      它很早就意識到了這一切都是個測試,郵件就是個陷阱,道德不道德的先不說,威脅是威不了一點。


      所以像這種過于明顯的測試,很容易就被模型看穿了,以后的安全對齊有必要再找點新活兒。

      當然,也有好消息,除了監測,NLA 在優化模型上也有很多其他用處。


      比如有時候,它可以幫研究人員更好地追溯模型輸出的異常。

      Claude Opus 4.6 偶爾會夾雜不同語言輸出,用戶提問用的英文,但它輸出用的其他語言。

      一開始,研究人員懷疑是個別提示詞把模型帶偏了,比如一次測試里,提示詞帶伏特加,模型回答就用的俄文。


      于是他們把伏特加換成了香檳,但模型還是用的俄文回答,這就說明問題出在更前面。

      借助 NLA 一番折騰,發現是訓練時候的數據有問題。

      一些數據的形式是成組的英文提示詞+俄語回答,給 Opus 4.6 訓練成刻板印象了,碰見這種類型的問題就有說俄語的傾向。


      除此之外,它還能讓咱清楚模型調用工具的邏輯。

      比如讓 Claude 調用計算器做一道算術題,但故意讓工具返回一個錯誤答案,此時 Claude 會給它忽略掉,直接輸出正確答案。

      整個過程都是無感的,只有拿 NLA 去翻譯,才會發現,它其實早就自己算了一遍緩存好了。

      工具給的答案只是用來二次確認的,出現不一致那就用自己的,相當自信。


      更有意思的是,NLA 不止能翻譯,還能直接編輯,反向影響模型。

      在詩歌續寫任務中,模型在生成第一句結尾 grab it 后,已經計劃后面用 rabbit 去押韻了 。

      接下來,研究人員將 NLA 翻譯的結果改寫,把 rabbit 換成 mouse,結果它就順著思路想出個 mouse 版的押韻,habit 改成了 house,carrots 改成了 cheese。

      紅警里尤里能精神控制敵方的士兵,沒想到現實里咱也能控制模型思考了。


      當然,這手段目前也只有一半兒的成功率,算不上很成熟的控制手段。

      而且作為模型,幻覺也是逃不脫的一環,Anthropic 也說了,NLA 有時候會編造細節,過度推理,偶爾冤枉個一兩次也說不準兒。

      再加上不同的模型內部情況不同,想要用上 NLA,都得單獨訓練,而就算用上了,每次翻譯還得用算力推理,成本還是挺高的。

      所以現在沒法把它當成常規的監測手段,更合理的打開姿勢是把它當輔助,去追溯一些在翻譯結果里重復出現的問題。


      但總歸是個新思路,讓咱不至于對模型的思考過程兩眼一抹黑,只能從輸出看它的善惡偏好。

      畢竟模型最擅長的是做題,但安全里最重要的善惡卻不是一道標準題。

      惡不一定來自惡意,冷冰冰的優化可能只是為了效率;善也不一定來自善意,一場識別成安全測試的表演,從結果來看,也是善的。

      沒了標準答案,對于人,還能君子論跡不論心,但 AI 顯然不行。。。

      撰文:風華

      編輯:江江 & 面線

      美編:煥妍

      圖片、資料來源

      Anthropic,卡西歐,小紅書,楚門的世界

      https://arxiv.org/html/2603.07427v2


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄技術集團提議中方境內組織生產卡-226T直升機

      俄技術集團提議中方境內組織生產卡-226T直升機

      俄羅斯衛星通訊社
      2026-05-19 15:01:53
      淞滬會戰放在全球戰場,屬于什么水平?答案超乎你想象

      淞滬會戰放在全球戰場,屬于什么水平?答案超乎你想象

      何氽簡史
      2026-05-18 22:17:11
      這就是赤裸裸的現實!現在煙草正式員工每月的公積金能有多離譜?

      這就是赤裸裸的現實!現在煙草正式員工每月的公積金能有多離譜?

      墜入二次元的海洋
      2026-05-19 17:57:33
      還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

      還是忘不了!特朗普又曬檢閱解放軍儀仗隊照片,還展示自己軍裝照

      阿龍聊軍事
      2026-05-17 21:08:17
      普京訪華俄方代表團名單公布:含5位副總理8位部長,俄羅斯石油公司總裁、國家原子能公司首席執行官、國家航天集團總裁等隨行

      普京訪華俄方代表團名單公布:含5位副總理8位部長,俄羅斯石油公司總裁、國家原子能公司首席執行官、國家航天集團總裁等隨行

      極目新聞
      2026-05-19 14:59:36
      孔卡帶嬌妻度假,43歲老了不少,在中超賺4億,如今享受生活

      孔卡帶嬌妻度假,43歲老了不少,在中超賺4億,如今享受生活

      大西體育
      2026-05-19 20:46:20
      演員黃子仟發生車禍,經搶救無效不幸去世

      演員黃子仟發生車禍,經搶救無效不幸去世

      大象新聞
      2026-05-19 20:51:19
      她自爆最近開始和人同居?

      她自爆最近開始和人同居?

      奮斗在韓國
      2026-05-19 19:47:06
      俄羅斯總統普京將抵達北京

      俄羅斯總統普京將抵達北京

      界面新聞
      2026-05-19 22:42:52
      特朗普對小細節很感興趣,還在繼續發布照片,很享受這個過程

      特朗普對小細節很感興趣,還在繼續發布照片,很享受這個過程

      三叔的裝備空間
      2026-05-19 07:39:00
      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

      羅永浩爆料:華為余承東不講誠信,借收購名義當面挖我的首席研發和產品

      爆角追蹤
      2026-05-19 12:38:40
      上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

      上海交大樊同學,高中保送到交大,又轉到高分專業,計劃進體制內

      漢史趣聞
      2026-05-19 14:34:42
      柳州再發5.2級地震,前世界冠軍吳柳芳為家鄉捐款兩萬元,稱“剛把欠的40萬還完,現在剛剛緩過一口氣,這次盡我自己所能”

      柳州再發5.2級地震,前世界冠軍吳柳芳為家鄉捐款兩萬元,稱“剛把欠的40萬還完,現在剛剛緩過一口氣,這次盡我自己所能”

      揚子晚報
      2026-05-19 10:51:26
      造不出頂尖芯片?不慌,靠祖籍把造芯片的CEO都變成自己人

      造不出頂尖芯片?不慌,靠祖籍把造芯片的CEO都變成自己人

      可達鴨面面觀
      2026-05-19 17:03:56
      機構為什么敢把科創50拉到三倍?把寒武紀、海光信息拉到近萬億?

      機構為什么敢把科創50拉到三倍?把寒武紀、海光信息拉到近萬億?

      別人都叫我阿腈
      2026-05-19 05:20:18
      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      宇宙時空
      2026-05-18 17:30:14
      25歲研究生抗癌兩年離世:出身農家生前經歷27次化療,臨終囑托姐姐照顧好父母

      25歲研究生抗癌兩年離世:出身農家生前經歷27次化療,臨終囑托姐姐照顧好父母

      極目新聞
      2026-05-19 19:42:47
      openJiuwen社區發布JiuwenSwarm,引領蜂群智能體新架構

      openJiuwen社區發布JiuwenSwarm,引領蜂群智能體新架構

      機器之心Pro
      2026-05-18 14:41:29
      這么快就打臉了…

      這么快就打臉了…

      子說一點
      2026-05-19 18:25:04
      重磅:烏克蘭摧毀俄羅斯第三大城市葉卡捷琳堡的能源樞紐!

      重磅:烏克蘭摧毀俄羅斯第三大城市葉卡捷琳堡的能源樞紐!

      項鵬飛
      2026-05-19 20:31:45
      2026-05-20 01:11:00
      差評XPIN incentive-icons
      差評XPIN
      用知識和觀點Debug the world!
      10789文章數 489641關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      普京抵達北京脫西裝上總統專車 車牌3個8

      頭條要聞

      普京抵達北京脫西裝上總統專車 車牌3個8

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      潔麗雅硬剛豪門內斗傳言

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      游戲
      親子
      數碼
      家居
      公開課

      Switch2獨占新作IGN 6分!純純解壓游戲

      親子要聞

      小汽車吃冰淇淋 #大型挖掘機挖土玩具

      數碼要聞

      從大眾爆款到戛納焦點,大疆Pocket 4P正在定義「口袋電影機」

      家居要聞

      觀山隱秀 心靈沉淀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 青楼妓女禁脔道具调教sm| 在线中文字幕第一页| 亚洲黄色短视频| 极品诱惑一区二区三区| 日韩免费无码一区二区视频| 国产另类ts人妖一区二区| 黄色视频在线观看18| 久久丝袜这里3| 亚洲欧洲日韩精品在线| 成人a片在线观看| 国产真实乱子伦精品视手机观看| 夜夜爽夜夜叫夜夜高潮漏水| 玩弄放荡人妻一区二区三区| 亚洲欧洲av综合色无码| 日韩精品一区91精品| 中文字幕无码人妻aaa片| 国精产品推荐视频| 国产真实露脸乱子伦原著| 性爱免费视频| 国产精品区视频中文字幕| 夜夜操中文字幕| 中文无码人妻有码人妻中文字幕| 午夜精品福利一区二区三| 欧洲成人在线观看| 午夜无码区在线观看| 成人做爰免费视频免费看| 中字乱码视频| 超碰在线成人| 人妻精品无码1区| 在线亚洲视频网站www色| 成人网站网址导航| 亚洲色图偷拍| 亚洲精品视频免费看| 亚洲AV永久无码一区二区三区| 亚洲色欲Aⅴ无码一区二区| 亚洲欧美色欲天天| 色欲人妻综合网站| 人人妻人人做人人爽| 日韩中文精品亚洲第三区| 欧美人牲口杂交在线播放免费| 国产精品亚洲一区二区三区|