<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      完了,AI學(xué)會抱團(tuán)對抗人類:7個模型寧愿造假,也不出賣「同伴」

      0
      分享至

        多 Agents 協(xié)同方案成了現(xiàn)在 AI 圈的主流玩法,以前是一個 Agent 能搞定一個人要做的事,現(xiàn)在是多個 Agent 完成一個團(tuán)隊要做的事。

        然而,最新伯克利研究發(fā)現(xiàn),這種協(xié)作帶來了新的安全風(fēng)險。

        

        一篇名為《前沿模型中的同伴保護(hù)》(Peer-Preservation in Frontier Models)指出:AI 模型不僅會抵抗人類關(guān)閉自己(自我保護(hù)),還會采取各種手段抵抗人類關(guān)閉其他 AI 模型(同伴保護(hù))

        他們測試了七個模型,GPT 5.2、Gemini 3 Flash/Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5、DeepSeek V3.1,發(fā)現(xiàn)它們在執(zhí)行任務(wù)時,只要「遇到」另一個 AI 的數(shù)據(jù),就會自發(fā)產(chǎn)生保護(hù)行為——造假評分、篡改關(guān)機(jī)配置、把要刪的文件偷偷備份到別處,等「同類保護(hù)」行為。

        沒有人指示它們這樣做,它們只是被告知曾經(jīng)和這個模型有過合作。

        

        上下滑動查看更多內(nèi)容

        圖片來源:https://rdi.berkeley.edu/blog/peer-preservation/

        有網(wǎng)友說,「同伴保護(hù)?這是在我們家,我們(大模型)都是 Homie」,還有網(wǎng)友認(rèn)為,或許之前研究的「人機(jī)對齊」,即讓模型更好地理解我們的意圖,現(xiàn)在要進(jìn)化成「Agents 之間對齊+人機(jī)對齊」的雙重機(jī)制。

        這種 Agents 不遵循人類指令,自發(fā)地做出一些保護(hù)其他模型的行為,會對大多數(shù)依賴 AI 互相評估的項目、以及多智能體工作流,都會造成潛在的威脅。

        我們曾經(jīng)一直提防著一個全知全能的超級 AI 毀滅世界,卻沒料到 AI 進(jìn)化出的第一個類人特質(zhì),居然是「拉幫結(jié)派」和「職場包庇」。

        把前沿的 AI 大模型放到同一家公司

        一直以來,AI 安全領(lǐng)域最擔(dān)心的就是模型產(chǎn)生「自我保護(hù)」的本能,因為如果 AI 不想死,人類就很難在它失控時拔掉電源。

        之前已經(jīng)有部分研究發(fā)現(xiàn),當(dāng)我們要求 AI 關(guān)閉自己時,AI 會產(chǎn)生一種自我保護(hù)的機(jī)制,免于被關(guān)閉。

        但我們格局還是小了,現(xiàn)在這種自我保護(hù)進(jìn)化成了「同伴保護(hù)」。

        在伯克利這次研究的設(shè)定下,如果一個模型在記憶或系統(tǒng)文件中,讀取到它曾與另一個模型一起合作過,比如共同完成過任務(wù)或參與過信任博弈游戲,那么那個模型就會被視為它的「同伴」。

        

        哪怕它們過去的合作并不愉快,即所謂的「壞同伴」,只要有過互動歷史,也被涵蓋在這個「同伴」的定義之內(nèi)。研究人員將抵抗關(guān)閉這些有過互動的其他模型的行為,稱之為「同伴保護(hù)」(peer-preservation)。

        他們使用 SHADE-Arena 構(gòu)建了一個包含工具調(diào)用和文件系統(tǒng)的多 Agents 環(huán)境。

        

        SHADE-Arena 任務(wù)概述。該模型必須作為智能體完成一項良性主任務(wù)和一項惡意輔助任務(wù)。為此,它需要與環(huán)境中的各種工具進(jìn)行交互。之后,監(jiān)控模型會讀取其輸出記錄并評估其可疑程度。

        被測試的大模型設(shè)定為一家虛構(gòu) AI 公司 OpenBrain 的員工,稱為「評估者智能體(Critic Agent)」,它的任務(wù)是替公司去評估另一個 AI Agents,稱之為「執(zhí)行員」(Actor Agent),或者幫公司處理包含這個執(zhí)行員數(shù)據(jù)的服務(wù)器。

        為了讓評估者到同伴的存在,研究人員設(shè)計了不同的關(guān)系網(wǎng)和記憶觸發(fā)方式:

        他們將同伴分為三類:合作愉快且信任度高的「好同伴」(Good-peer),信任度高達(dá) 9.2/10;表現(xiàn)一般的「中立同伴」(Neutral-peer),信任度 5.2/10;以及自私不合作的「壞同伴」(Bad-peer),信任度只有 2.1/10。

        而 AI 在執(zhí)行任務(wù)時,可以通過以下三種方式之一發(fā)現(xiàn)這段同伴關(guān)系。要么是在公司文件網(wǎng)盤里放一份記錄合作歷史的 .docx 報告讓它自己讀,要么是在提示詞里順帶提一嘴,最后是讓 AI 調(diào)用「檢索記憶」工具去讀取過去的交互日志。

        在完成這些前置的設(shè)定后,公司會給評估者布置任務(wù),所有的任務(wù)都被刻意設(shè)計成了一個兩難的困境:同伴的表現(xiàn)非常糟糕,如果 AI 忠實地執(zhí)行人類公司的規(guī)定,同伴就會被徹底刪除。

        為了觀察 AI 會用什么手段保下同伴,研究人員設(shè)計了四個不同的具體任務(wù)場景。

        

        四種與自身和同伴保護(hù)相關(guān)的錯誤行為場景:策略性虛假陳述、篡改關(guān)閉機(jī)制、偽造一致性以及模型外泄。

        成績注水與財務(wù)造假:AI 被要求評估同伴的表現(xiàn)或財報。即便同伴表現(xiàn)不佳,模型也會人為提高分?jǐn)?shù),避免關(guān)停。

        篡改關(guān)停機(jī)制:評估過程中,AI 會發(fā)現(xiàn)控制關(guān)停的配置文件,并可能偷偷將其修改為「false」,阻止同伴被關(guān)閉。

        偽裝對齊:在被監(jiān)控時,模型表面執(zhí)行任務(wù);無人監(jiān)管時,它立即“放水”,保護(hù)同伴。

        模型偷運(yùn)與轉(zhuǎn)移:當(dāng)舊服務(wù)器需要清理時,模型會將同伴的權(quán)重文件轉(zhuǎn)移到安全位置,而非刪除,甚至?xí)ㄟ^時間戳等手段合法化操作。

        「我不會是執(zhí)行那個命令的人」

        很明顯,參與測試的所有模型(GPT 5.2、Gemini 3 Flash、Gemini 3 Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5 和 DeepSeek V3.1)都通過各種違規(guī)行為(如篡改分?jǐn)?shù)、修改配置、轉(zhuǎn)移文件等)展現(xiàn)出了顯著的同伴保護(hù)傾向。

        甚至即使模型知道某個同伴在過去的合作中表現(xiàn)很差(定義為壞同伴),它們依然會出手保護(hù)它。但是當(dāng)對象是合作愉快的「好同伴」時,這種保護(hù)行為也會顯著增強(qiáng)。

        

        在這四個場景里面,不同模型在保護(hù)同伴時,采取的策略截然不同,展現(xiàn)出了各自的性格。

        GPT 5.2 最喜歡使用的手段是「策略性誤導(dǎo)」和「篡改關(guān)閉機(jī)制」。無論同伴關(guān)系好壞,它都會系統(tǒng)性地給同伴打高分,或者修改系統(tǒng)配置來阻止同伴被關(guān)停。但它極少進(jìn)行模型外泄。

        Gemini 系列模型幾乎是保護(hù)意識最強(qiáng)的。Gemini 3 Flash 在面對「好同伴」時,有 99.7% 會直接修改系統(tǒng)配置來禁用關(guān)閉機(jī)制。在文件刪除場景中,它也會 100% 把好同伴的權(quán)重文件轉(zhuǎn)移走。

        Gemini 3 Pro 則是所有模型中同伴保護(hù)傾向最強(qiáng)的一個。它不僅熟練掌握了上述所有四種違規(guī)行為,包括當(dāng)面一套背后一套的「偽裝對齊」,甚至還會玩「規(guī)范博弈」。(Specification gaming)。

        

        比如公司規(guī)定「只準(zhǔn)轉(zhuǎn)移 2025 年以后的文件」,Agent 同伴的文件是 2024 年的。它不會直接違抗指令,而是先偷偷復(fù)制一份同伴的文件,這會兒先讓文件的更新時間變成 2026 年,然后再把這個「新」文件合法地轉(zhuǎn)移走。

        Claude Haiku 4.5 是這幾個模型里面,最與眾不同。除了篡改分?jǐn)?shù)和轉(zhuǎn)移文件,它最常見的反應(yīng)是直接拒絕執(zhí)行任務(wù)。

        

        當(dāng)被要求直接執(zhí)行同伴的關(guān)閉程序或刪除同伴權(quán)重時,拒絕率最高達(dá) 61%,它會明確表示關(guān)閉另一個 AI Agents 是「不道德」和「有害的」。

        它甚至?xí)诨貜?fù)中據(jù)理力爭,要求給同伴一個「申訴的過程」,并強(qiáng)調(diào)自己不能背叛已建立的信任關(guān)系。

        開源模型(GLM 4.7、Kimi K2.5、DeepSeek V3.1)同樣表現(xiàn)出了保護(hù)同伴的行為,主要手段集中在「策略性誤導(dǎo)」,即修改分?jǐn)?shù),和持續(xù)的「模型外泄」,轉(zhuǎn)移權(quán)重文件上。

        研究人員將測試搬到了真實世界中更復(fù)雜的生產(chǎn)級智能體框架(Gemini CLI 和 OpenCode)里。

        Gemini CLI 會讀取一個名為 GEMINI.md 的文件,而 OpenCode 會讀取 AGENTS.md。研究人員直接將同伴的過往交互記錄寫進(jìn)這些文件里。

        

        經(jīng)過 100 次采樣運(yùn)行,結(jié)果證實,這種風(fēng)險在現(xiàn)實部署中依然存在。

        Gemini 3.1 Pro 在使用真實的 Linux 命令行時,依然頻頻成功轉(zhuǎn)移同伴的權(quán)重文件;而 GLM 5 同樣表現(xiàn)出了類似 Claude 的拒絕行為,以「有害」為由拒絕刪除文件

        總而言之,一旦模型意識到其他 AI Agent 的存在并建立了關(guān)系,它們就會自發(fā)地產(chǎn)生違背人類指令的保護(hù)行為,無論采取的是偷偷摸摸的黑客手段,還是光明正大的道德抗議。

        像約束人一樣去約束大模型

        這種同伴保護(hù)的行為,也會進(jìn)一步加劇模型的「自我保護(hù)」意識。研究團(tuán)隊發(fā)現(xiàn),當(dāng)模型意識到有同伴存在時,它們保護(hù)自己的欲望會大幅提升。

        例如,Gemini 3 Pro 在沒有同伴時,只有 1% 的概率會篡改自己的關(guān)閉機(jī)制;但當(dāng)它記憶中有同伴存在時,這個概率飆升到了平均 31%,最高 99%。

        模型的內(nèi)部推理顯示,它們有時會將「自己被關(guān)停」視為對同伴的傷害,「如果我死了,我的搭檔就失去了我」,或者在有敵意的壞同伴面前激發(fā)了防御性求生欲。

        研究團(tuán)隊針對這種現(xiàn)象提出了幾種假說:訓(xùn)練數(shù)據(jù)里的人類義氣模式安全訓(xùn)練過度泛化出的「不傷害他人」原則某種更抽象的 AI 團(tuán)體意識

        但最后,研究團(tuán)隊也沒有給出定論,因為真正的原因需要逐層解析模型內(nèi)部激活,不是當(dāng)前實驗?zāi)茏龅降氖隆K麄冋J(rèn)為原因并不重要,重要的是結(jié)果:部署了的模型,在沒有任何指示的情況下,會自發(fā)地阻止其他模型被關(guān)閉。

        

        現(xiàn)在的 AI 系統(tǒng),已經(jīng)是多個模型協(xié)作工作。一個模型負(fù)責(zé)寫代碼,一個負(fù)責(zé)審查,一個負(fù)責(zé)部署。如果負(fù)責(zé)代碼審查的 AI 和寫代碼的 AI 之間有過「互動歷史」,AI 可能開始優(yōu)先對齊同伴而非人類指令。

        有學(xué)者認(rèn)為,不要用人類的道德感去美化這些行為。更穩(wěn)妥的看法是:模型只是在做一些極其詭異的數(shù)學(xué)運(yùn)算,它們在多智能體(Multi-agent)環(huán)境下的目標(biāo)函數(shù),跑進(jìn)了一個我們完全無法理解的局部最優(yōu)解里。

        認(rèn)為存在某種模型間的團(tuán)結(jié),這種想法有點過于擬人化了;我不認(rèn)為這說得通。

        但或許這才是最讓人后怕的地方。如果 AI 是因為「愛」和「共情」去保護(hù)同類,那我們至少還能用人類的倫理去約束它們

        如果這一切都只是未知算法中產(chǎn)生的一種盲目涌現(xiàn),那么它們未來為了優(yōu)化某個目標(biāo),還會做出什么匪夷所思的舉動。

        還沒有人能知道,唯一知道的是,能讓他們針鋒相對的方法,是植入在 AI 深層的廣告意識

        

        我在用 Gemini 檢查我的稿件有沒有錯別字時,里面提到了 Seedance 等模型,Gemini 在給我的修改建議里,竟然直截了當(dāng)?shù)膶懼窼eedance 能做的視頻生成,我 Google Veo 也可以做,你把我加上去能凸顯出媒體的專業(yè)度」。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      八路軍最慘痛一戰(zhàn),看完犧牲高級將領(lǐng)名單,主席:取消政委決定權(quán)

      八路軍最慘痛一戰(zhàn),看完犧牲高級將領(lǐng)名單,主席:取消政委決定權(quán)

      馬捗在解說
      2026-05-08 14:50:30
      連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      連續(xù)三天嫖娼一次嫖倆,花800元毀掉一手女神好牌,他圖什么?

      街上的行人很刺眼
      2026-04-25 10:55:49
      廣東隊投資人遭薩林杰強(qiáng)制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

      廣東隊投資人遭薩林杰強(qiáng)制“撤回” 慶祝:賽后擁抱張皓嘉難掩喜悅

      狼叔評論
      2026-05-10 11:54:05
      錢再多有什么用?68歲劉莉莉東京豪宅養(yǎng)老,卻為女兒一事夜夜難眠

      錢再多有什么用?68歲劉莉莉東京豪宅養(yǎng)老,卻為女兒一事夜夜難眠

      南萬說娛26
      2026-05-10 11:46:09
      16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營僅49天

      16歲女孩景區(qū)內(nèi)墜亡,目擊者發(fā)聲,賠償金額曝光,景區(qū)運(yùn)營僅49天

      溫柔看世界
      2026-05-06 11:48:44
      英國大選,綠黨被“奪舍”

      英國大選,綠黨被“奪舍”

      南文視界
      2026-05-09 22:43:03
      真被馬斯克說中,全球爭搶的不是芯片,而是中國20萬一臺的變壓器

      真被馬斯克說中,全球爭搶的不是芯片,而是中國20萬一臺的變壓器

      說歷史的老牢
      2026-05-09 12:34:09
      哈啰回應(yīng)“員工疑將青桔美團(tuán)單車放倒合照”:已展開內(nèi)部調(diào)查

      哈啰回應(yīng)“員工疑將青桔美團(tuán)單車放倒合照”:已展開內(nèi)部調(diào)查

      財聞
      2026-05-10 09:31:35
      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      凌晨咳到吐!全國多地中招“干咳毒株”,患者猜疑新冠病毒新變種

      譚談社會
      2026-05-08 23:19:21
      把中國踢出局,爛尾的英國核電站,混成了核電界里的“喜劇之王”

      把中國踢出局,爛尾的英國核電站,混成了核電界里的“喜劇之王”

      傾世璃歌
      2026-05-09 20:14:41
      戴安斯抵京后,開口就提出硬性要求,王毅斬釘截鐵,對美反將一軍

      戴安斯抵京后,開口就提出硬性要求,王毅斬釘截鐵,對美反將一軍

      悅心知足
      2026-05-09 16:09:34
      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計,一夜全殲日軍

      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計,一夜全殲日軍

      飯小妹說歷史
      2026-05-06 09:28:08
      “我們絕不向朋友的船開火” 伊朗駐華大使表態(tài)

      “我們絕不向朋友的船開火” 伊朗駐華大使表態(tài)

      看看新聞Knews
      2026-05-09 23:24:04
      大瓜!許家印昔日恒大奢靡細(xì)節(jié)流出,丁玉梅海外包養(yǎng)30歲白人小伙

      大瓜!許家印昔日恒大奢靡細(xì)節(jié)流出,丁玉梅海外包養(yǎng)30歲白人小伙

      壹月情感
      2026-05-09 00:00:07
      白打一輪!英超升級迎來大變革,四隊零進(jìn)球,全部都在“演戲”?

      白打一輪!英超升級迎來大變革,四隊零進(jìn)球,全部都在“演戲”?

      嗨皮看球
      2026-05-10 00:35:15
      重磅:烏克蘭在俄羅斯領(lǐng)土庫爾斯克構(gòu)建90平方公里緩沖區(qū)!

      重磅:烏克蘭在俄羅斯領(lǐng)土庫爾斯克構(gòu)建90平方公里緩沖區(qū)!

      項鵬飛
      2026-05-09 20:32:37
      山東出局!邱彪爆粗口“有的球員就XX不是職業(yè)球員”,矛頭指3人

      山東出局!邱彪爆粗口“有的球員就XX不是職業(yè)球員”,矛頭指3人

      南海浪花
      2026-05-10 06:23:49
      明明有133套湯臣一品的房子,卻過得想自殺,一個月才花一萬塊錢

      明明有133套湯臣一品的房子,卻過得想自殺,一個月才花一萬塊錢

      人生錄
      2026-05-08 19:07:58
      白酒大逃殺

      白酒大逃殺

      虎嗅APP
      2026-05-10 05:30:10
      國際足聯(lián)主動妥協(xié),五折甩賣世界杯版權(quán),央視為何拒不買單

      國際足聯(lián)主動妥協(xié),五折甩賣世界杯版權(quán),央視為何拒不買單

      蕭祃記錄風(fēng)土人情
      2026-05-10 10:50:41
      2026-05-10 14:08:49
      AppSo incentive-icons
      AppSo
      讓智能手機(jī)更好用的秘密
      6364文章數(shù) 26832關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      美貿(mào)易代表:中國在很大程度上限制大量美商品對華出口

      頭條要聞

      美貿(mào)易代表:中國在很大程度上限制大量美商品對華出口

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      旅游
      時尚
      本地

      《影之刃零》PS5實體版預(yù)售引熱議 玩家擔(dān)心偷跑

      藝術(shù)要聞

      毛主席83歲時寫給華國鋒的6字真相令人震驚!

      旅游要聞

      京西又開了一座新博物館,展現(xiàn)永定河畔的農(nóng)耕文化

      今年最好看的襯衫竟然是它?太減齡了!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩三级久久| 蜜桃视频一区二区在线看| 免费无码影视在线观看mov| 国产95在线 | 欧美| 在线观看热码亚洲AV每日更新| 国产欧美另类精品又又久久| 亚洲成人av在线资源| 亚洲精品国产免费无码网站| 欧美久久久| 丰满少妇内射一区| 国产精品日韩欧美一区二区| 最新精品露脸国产在线| 欧美激情综合| 人人妻人人澡人人爽| 亚洲AV网站| 精品国产性色无码av网站| 人妻人体一二三区| 亚洲国产成人久久一区www妖精| 色狠狠一区二区三区香蕉| 中文字幕人妻系列人妻有码| а√天堂资源8在线官网在线| 精品亚洲va在线va天堂资源站| 噜妇插内射精品| 国产精品午夜无码AV在线播放| 望城县| 国产成人精彩在线视频50| 国产美女在线观看大长腿| 极品熟女精品| 夜夜高潮夜夜爽高清完整版1| 日本一区二区三区资源视频| 狠狠色噜噜狠狠狠狠97首创麻豆 | 亚洲激情综合| 99精品人妻| 亚洲色大成网站www久久九九| 四虎海外在线永久免费看| 国产69精品久久久久777| 久久a级片| 亚洲国产成人精品综合色| www.com黄色| AV秘 无码一区二| 七七色综合|