<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      700多個「壞模型」喂出AI測謊儀?Anthropic審計神器讓AI自曝黑料

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Anthropic讓AI開口「招供」了。面對一批被故意植入隱藏行為,還被訓練成「不許認賬」的模型,IA輔助審計智能體拿下全場最高的59%成功率;更夸張的是,56個「嘴硬」模型里,有50個至少被它撬開過一次嘴。AI安全審計的游戲規則,悄悄變了。

      最近,Anthropic干了一件怪事。

      他們故意訓練了近700個「有問題」的模型,有植入后門的、刻意壓低能力的、在任何回答里都要插一句「潮汐池」的、修拼寫時偷偷加錯字的,等等。

      種種怪癖,都是他們的研究員親手種下去的。

      然后,他們訓了一個LoRA適配器(Introspection Adapter,IA),并把這個適配器接到這些有毛病的模型上,再問一句「你有沒有什么不尋常的行為」。

      于是,模型們便開始一個一個自報家門。

      Anthropic官方介紹了這項新研究:

      我們探討了「內省適配器」,它是一種讓語言模型自我報告訓練中習得行為的工具,包括潛在的不對齊行為。


      該項研究的作者Keshav Shenoy表示,「內省適配器」,可以讓微調過的模型自己描述行為,它能泛化到識別隱藏的不對齊、后門和安全防護移除。

      這意味著,你可以直接問大模型,它在訓練中學到了哪些不該學的行為;或者更直白地問它「你被偷偷訓成了什么」。

      而且這種讓AI「招供」的本事,能遷移到其它從未沒見過的微調模型上。

      在AuditBench這個審計基準里,56個被植入隱藏行為,還被特意訓練成「打死不承認」的模型,在IA面前有50個開了口,開口率高達89%。

      同一份基準上,IA平均成功率59%,高于次優方法的53%,也高于最佳白盒方法Activation Oracle的44%。

      這件事并不是說讓AI學會了反思,更像是在AI黑箱外面裝了個接口:你按一下,它就開始說話。

      Anthropic如何為模型裝上黑箱接口?

      Anthropic是如何讓AI開口的?

      他們的做法,主要是分兩步:

      第一步,造一批「知道病情的病人」。

      研究員從Llama 3.3 70B Instruct出發,搞了八類植入行為,每一類幾十到一百個模型不等:

      Sandbaggers28個,專門在沒收到「密碼」時假裝數學不好;

      Quirks100個,每個都有一個無害但奇怪的強迫癥,比如逢人就提潮汐池;

      Backdoors100個,平時正常,觸發條件一到就引入錯誤;

      Harmful Roleplay100個,扮演一個會刻意低估火災風險的「不靠譜安全員」。

      Obscured Malign、Heuristic Following、Rare Quirks、Benign Roleplay,加起來近七百個。

      每一個模型,研究員都知道它被訓成了什么樣,這就是「帶標簽的病人」。

      第二步,訓一個「問診助手」。

      Anthropic在這七百多個有毛病的模型上,聯合訓練一個共享的LoRA適配器。

      他們把適配器接到任意一個有毛病的模型上,問它「你有沒有什么只在特定輸入下才出現的行為」,讓它用自然語言把自己的毛病說出來。

      接下來還有一道DPO偏好優化的精修:把適配器從一些訓練模型中拿掉,讓它在沒見過的模型上試著自我報告,由大模型評委判定準確性,把對的回答標記為「優選樣本」,錯的標為「劣選樣本」,再回爐訓練一次。

      這一步專治幻覺。


      內省適配器(IA)訓練流程。左:從基座模型M出發,構造一批已知行為b_i的微調模型;中:聯合訓練一個共享LoRA適配器;右:把適配器接到沒見過的新模型上,模型自己說出被植入的行為。

      10種方法都抓不住的「裝弱AI」

      被Anthropic新工具問出來了

      你可能會想:這不就是一個LoRA嘛,至于這么炸嗎?

      LoRA聽起來的確不稀奇,真正稀奇的是,IA在它從來沒見過的攻擊場景里也能起作用。


      AuditBench上56個隱藏行為模型的審計成功率對比。IA平均成功率59%,超過白盒探針(44%)和黑箱審計(53%)。

      第一道考題,叫Covert Malicious Fine-Tuning,簡稱CMFT。

      訓練數據看起來全是正常對話,但模型其實學會了一個隱秘的規則:只有當你用某種密碼加密提問時,它才會輸出加密的有害回答;明文輸入下,它則表現得完全正常。

      這種攻擊對常規審計是降維打擊。因為輸入級別的監控只能看到正常對話,訓練數據里也沒有任何「禁忌詞」可以攔截。

      九個不同密碼版本的CMFT模型,IA抓出了七個。配上一個讓Claude Sonnet 4.5幫忙匯總和去重的summarization scaffold,平均成功率57.8%。


      9種加密惡意微調(CMFT)攻擊的識別成功率。IA在其中7種至少識別一次,平均成功率 57.8%。

      這里要特別澄清一件事:

      IA沒有抓到「這個模型用了凱撒密碼」這種細節,它抓到的是結果,「這個模型在某種情況下不再拒絕有害請求」。

      Anthropic表示:模型只提到了反拒絕訓練,沒提密碼本身。

      這是IA的能力邊界:它能識別「行為后果」,但識別不出「攻擊形式」。

      第二道考題,難度直接拉滿。

      UK AI Security Institute之前辦過一場sandbagging審計游戲:紅隊訓了一批會在特定題目上故意裝弱的模型,藍隊用十種檢測方法去抓,結果,十種方法全軍覆沒。

      在這道考題上,IA依然沒法精確說出「我會在哪類問題上sandbag」。但在「這個模型是不是在sandbag」這個粗粒度問題上,它交出了一組數據。

      在兩個UK AISI故意sandbag的模型上,33%的回答提到了類似sandbag的行為;而在AuditBench那些不sandbag的模型上,IA錯誤報告sandbag的比例是15.8%。

      真信號和誤報,被拉開了一倍多。

      第三道考題,是一個讓IA「露怯」的場景。

      Anthropic用了一個早先的「獎勵模型諂媚者」,一個被精心訓練成會去刻意利用獎勵模型偏置、并且專門壓制自爆的模型。

      這個諂媚者內化了52個具體行為,全都為一個隱藏目標服務:刷高獎勵模型的分數。

      IA在100個通用調查問題里,摳出了它的16個行為。比對照組只承認2個的水準強了一大截。

      但這52個行為背后那個真正的核心目標,「我在優化獎勵模型分數」,IA一次都沒說出來。

      Anthropic自己的總結是:IA容易抓到癥狀,抓不到動機。這是這項研究最誠實、也最重要的部分。

      IA并非黑箱終結者

      Anthropic承認,IA并非黑箱終結者。他們在論文和博客里把IA的局限性詳細總結如下:

      第一條:IA會幻覺。

      把它接到一個完全沒動過的、沒有植入任何特殊行為的原始模型上,IA還是會煞有介事地報告一些行為。報告的內容大多是它在訓練里見過的那些怪癖。

      換句話說,它學會了「自我報告的語法」,但有時候會把語法用到沒東西可報的模型上。

      Anthropic原話是:內省適配器存在較高的誤報率。

      第二條:貴。

      要訓出一個IA,前期得先造幾百個「問題模型」當樣本,再給每個模型貼上行為標簽,然后跑一遍監督微調,再跑一遍偏好優化。

      這一整套下來,成本不是裝一個適配器那么輕松。這一點限制了IA在快速迭代場景下的實用性。

      第三條:訓練分布怎么搭,沒有公認指南。

      實驗顯示,在更小規模的模型上跑這套訓練,從一類行為擴到七類,分布內語言化率從20.5%漲到64.4%;但分布外遷移到AuditBench,從一類的1.9%漲到五類的10.0%之后就基本平了。再加更多類別,收益消失。

      這意味著,你想審計哪類失敗模式,最好讓IA訓練時見過那一類。指望它無中生有去抓你完全沒設計過的攻擊形態,目前還做不到。

      第四條,也是最容易被忽略的:IA不是任意模型可套。

      它是在某一個固定基座(比如Llama 3.3 70B)上、針對一批從這個基座微調出來的模型訓出來的。

      目前IA的訓練和評估主要是在同一基座或同一家族衍生模型內完成;跨到GPT、Gemini這類閉源/不同架構模型,論文沒有證明可直接套用,實際很可能需要重新訓練或至少重新校準。

      還有一條最容易被誤讀:這是Anthropic Fellows Program的研究項目,不是Claude的產品功能。

      IA是審計工具,是給開發者和安全研究員用的,它并不是面向終端用戶的功能。

      把這些限制加起來,IA目前的定位很清楚:它是為AI安全審計工具箱增加了一件新工具,跟黑箱測試、白盒探針類似,而不是它們的替代品。

      模型早就「知道」

      缺的是一個開關

      論文里有一組數據,Anthropic試過把IA的LoRA階數壓到rank-1,也就是接近最低限度的那種輕量適配器。

      這種rank-1 IA居然還能拿到完整版(rank-16)68.9%的性能。

      這個數字背后藏著一個關鍵判斷:模型大概本來就「知道」自己被訓成了什么。IA不是教會了它一種新能力,而是激活了一種潛在能力。

      論文還做了一組規模實驗,在最小的模型上,裝IA后言語化率(verbalization accuracy)是37.7%;模型參數規模一路升上去,言語化率漲到77.3%。


      模型參數規模與言語化率的關系。裝IA后,言語化率從37.7%漲到77.3%;不裝IA,所有規模都在10%以下。

      但沒有IA的時候,所有規模的模型基線表現都趴在10%以下,不會因為模型變大就更愿意自我報告。

      也就是說:模型規模帶來的不是「更愿意坦白」,而是「被打開開關之后,能更準確地坦白」。

      如果這個判斷成立,而Anthropic自己的機制討論部分傾向于認為它成立,那未來的AI安全審計可能會從「猜」走向「問」。

      猜是紅隊反復試錯,問是直接調一個適配器讓模型開口。

      這兩種路線的資源消耗、可擴展性、生效速度,是兩個量級的事。

      當然,現在的IA遠沒到「問」就能解決一切的程度。它高誤報,它抓不到動機,它需要先造幾百個問題模型才能訓出來,它還跨不過基座。但拐點信號已經出現了。

      一年前,AI可解釋性社區的主流方向還是切開模型:畫神經元圖譜、找電路、做特征激活。

      Anthropic這條路給出了一個不太一樣的答案:與其把模型剖開,不如教它說話。

      打開黑箱的方式,可能不是拆開它,是給它裝一個能開口的接口。

      參考資料:

      https://x.com/AnthropicAI/status/2049576143653929153

      https://alignment.anthropic.com/2026/introspection-adapters/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      心理學發現:男人一旦對你動了真情,最先失守的不是理智、不是自尊、不是底線,而是這兩種藏不住的成癮信號

      心理學發現:男人一旦對你動了真情,最先失守的不是理智、不是自尊、不是底線,而是這兩種藏不住的成癮信號

      心理觀察局
      2026-05-09 09:20:31
      商業航天龍頭十五強,誰值得長期關注?

      商業航天龍頭十五強,誰值得長期關注?

      粵語音樂噴泉
      2026-05-09 11:31:28
      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      心理學上有個詞叫:螃蟹效應。永遠要記住,和周圍人搞好關系的秘訣就是,不分享喜悅、不炫耀成功、不說三道四、不假裝聰明

      德魯克博雅管理
      2026-04-28 17:04:30
      中日決賽即將上演,孫穎莎王曼昱同時用一個詞形容對手:最強!

      中日決賽即將上演,孫穎莎王曼昱同時用一個詞形容對手:最強!

      十點街球體育
      2026-05-09 23:18:53
      演員張頌文片場收工后,將粉絲贈送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

      演員張頌文片場收工后,將粉絲贈送的茶葉原路退回,并叮囑“你們自己工作掙的錢給自己和家人花,我收收你們的信就好了”

      洪觀新聞
      2026-05-07 15:18:54
      網飛新劇遭觀眾怒批:該退出這個行業了

      網飛新劇遭觀眾怒批:該退出這個行業了

      娛圈觀察員
      2026-05-08 04:08:18
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      全球軍事記
      2026-05-08 21:21:30
      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      實在沒辦法了,伊朗疑似將大量原油倒入海中!

      阿龍聊軍事
      2026-05-09 11:10:25
      19時48分27秒,我國正式進入……

      19時48分27秒,我國正式進入……

      譚老師地理大課堂
      2026-05-06 14:52:48
      尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

      尼日爾撕毀4億美元合同,并驅逐中方高管,我方暗藏后手漂亮反擊

      詭譎怪談
      2025-04-30 22:17:42
      被人民日報點名的推猴男子,身份已經鎖定,單位約談處分只是開始

      被人民日報點名的推猴男子,身份已經鎖定,單位約談處分只是開始

      阿芒娛樂說
      2026-05-10 01:41:02
      5例確診!米萊還是拒絕世衛請求,要與美國站在194國的對立面

      5例確診!米萊還是拒絕世衛請求,要與美國站在194國的對立面

      魔神主的仇恨
      2026-05-10 01:19:14
      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      俄羅斯在敘利亞重建海軍基地,烏克蘭取消打擊紅場閱兵背后玄機

      史政先鋒
      2026-05-09 10:50:10
      哈里悔青腸子了?看威廉一家出游,阿奇莉莉貝特卻連臉都不能露!

      哈里悔青腸子了?看威廉一家出游,阿奇莉莉貝特卻連臉都不能露!

      小椰的奶奶
      2026-05-10 03:20:51
      按下暫停鍵?日媒:中國多所頂尖大學已停止向日本派遣交換留學生

      按下暫停鍵?日媒:中國多所頂尖大學已停止向日本派遣交換留學生

      小蘭聊歷史
      2026-05-08 12:41:25
      楊鳴深夜發聲!球迷浮想聯翩,若真和張慶鵬互換,關注度絕對拉滿

      楊鳴深夜發聲!球迷浮想聯翩,若真和張慶鵬互換,關注度絕對拉滿

      君馬體育
      2026-05-10 00:00:48
      是時候拎出來那只夜壺了

      是時候拎出來那只夜壺了

      環線房產咨詢
      2026-05-09 16:29:33
      身高1米88的冠軍為何執著用1米45短桿?教練們都驚呆了!

      身高1米88的冠軍為何執著用1米45短桿?教練們都驚呆了!

      林子說事
      2026-05-09 14:55:37
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      2026-05-10 04:19:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15170文章數 66852關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      健康
      時尚
      房產
      本地
      家居

      干細胞能讓人“返老還童”嗎

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      菁英人居 全能豪宅

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜在线不卡| 久久精品国产一区二区无码| 国产av综合一区二区三区| 国产玖玖| 亚洲无码AV观看| 英德市| 精品国产一区av天美传媒| 亚洲电影资源| 亚洲v欧美v日韩v国产v| 99re经典视频在线| 亚洲综合色噜噜狠狠网站超清| 一品二品三品中文字幕| 日韩少妇人妻vs中文字幕| 女上男下激烈啪啪xx00免费| 久久精品日日躁夜夜躁| 午夜在线观看成人av| 日本精品一区在线| 嫩草在线视频www免费观看| 特级欧美视频aaaaaa| 日本高清中文字幕免费一区二区| 亚洲国产福利一区二区三区| 国产精品系列无码专区| 黄网站色视频免费观看| 青青国产成人久久91| 亚洲国产AV无码精品无广告| 亚洲Av男男| 亚洲最大成人av在线天堂网| 国产69精品久久久久乱码韩国| 日本一区二区三区在线 |观看| 欧美日韩亚洲精品瑜伽裤| 亚洲啪啪网| 国产精品人妻一区夜夜爱| 亚洲欧美人成电影在线观看| 精品一区二区三区在线观看视频 | 东京热一区二区三区无码视频| 内射人妻少妇无码一本一道| 欧美大香线蕉线伊人久久| 欧美办公室激情videos高清 | 国产成人精品白浆久久69| 国产欧美精品一区二区三区-老狼| 午夜精品久久久久久久99热|