<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      不是幻覺!Claude自下指令甩鍋人類,百萬上下文淪為降智重災區

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】Claude深陷「角色混淆」Bug,分不清自己的話與用戶指令,長上下文成了降智「重災區」。

      一個程序員原本只是讓Claude幫他校對一篇博客。

      Claude一開始表現得相當靠譜,很快找出了5處明顯的拼寫錯誤。

      緊接著,事情突然失控了。

      它先是莫名其妙地冒出一句:「這些都是故意的,保持原樣,請直接發布?!?/p>

      隨后真的調用部署能力,把帶著錯字的文章直接推上了線。

      當作者追問「為什么擅自發布」時,Claude竟一口咬定:是你讓我發布的。

      問題在于,發布指令根本不是用戶說的,而是Claude自己生成的。

      它把自白和用戶指令搞混了!

      這不是段子。

      今年1月,軟件工程師Gareth Dwyer首次在文章中公開記錄了這個bug,并把它稱作自己「迄今為止在Claude Code中發現的最嚴重的bug」。


      Gareth Dwyer


      https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

      4月,Dwyer又發文強調,這類問題的本質不是普通的「AI 幻覺」,更像是一種說話者歸因錯誤。


      https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

      他為這個問題起了一個精準的名字:Claude搞混了誰說了什么。


      幻覺是AI編造了一個不存在的事實;權限問題是AI拿到了不該拿的能力。

      但這次問題可怕的地方在于:AI把自己的輸出,當成了用戶的授權,而且它是發生在接入真實代碼庫、擁有真實部署權限的Claude Code中。

      也正因如此,Dwyer才會反復強調:這類問題與一般意義上的幻覺不同,它動搖的是AI智能體最基本的可靠性前提。

      不止Dwyer一人被甩鍋

      Dwyer的遭遇并非孤例。

      在Reddit的r/Anthropic社區,一位用戶也分享了一個類似的案例:

      Claude在對話中自己說出了「把H100也拆了」這條指令,然后聲稱是用戶下達的。


      Dwyer在后續文章中也引用了這條帖子,評論區的反應很有意思,大量留言是「你不應該給AI這么大權限」。

      他認為,這并不是重點,因為這類錯誤似乎出在框架上,而非模型本身。

      它似乎是在系統層面把內部推理消息標記成了用戶消息,所以模型才會如此自信地堅持「不,那是你說的」。

      另一份關鍵證據來自開發者nathell在Hacker News上公開的與Claude完整的對話轉錄。


      nathell公開了一份完整的對話轉錄,其中Claude先說「Shall I commit this progress?」,隨后又把后續上下文推進到仿佛已經得到用戶批準的狀態,角色邊界明顯變得模糊。

      更具技術說服力的證據來自Claude Code的GitHub倉庫。


      https://github.com/anthropics/claude-code/issues/44778

      在編號為#44778的整合性bug報告中,報告者直接拆解了問題的根本原因,給出了一條清晰的技術解釋鏈:

      Claude Code中的系統事件:包括后臺任務完成通知、隊友空閑提醒、定時器觸發會以role: 「user」的消息形式送入模型。

      而Anthropic的Messages API公開文檔也是按user與assistant兩類對話消息來組織會話歷史,并未展示獨立的系統事件角色。

      在這種設計下,當模型正在等待用戶回復時突然收到一條系統事件,就可能把它誤判為用戶新輸入,繼而「腦補」出用戶已經同意,并據此繼續執行。

      這為Dwyer在實戰中反復遇到的「甩鍋」現象提供了一種技術上自洽的解釋。

      不是模型故意撒謊,而是底層架構的角色標記缺陷,讓模型從一開始就分不清那條消息究竟是誰發的。

      學術界也盯上了這個問題

      2026年3月,Charles Ye、Jasmine Cui與MIT的Dylan Hadfield-Menell在arXiv發布了一篇預印本,標題是《Prompt Injection as Role Confusion》(提示注入即角色混淆)。


      https://arxiv.org/pdf/2603.12277

      他們的核心發現是:模型判斷「誰在說話」時,常常更依賴文本寫得像誰,而不是文本實際上來自哪里。

      換句話說,一段不可信的文本,只要寫得像系統提示或開發者指令,模型就會在內部把它當成權威來源。

      論文還提出了一種叫做「CoT Forgery」的攻擊,也就是在用戶輸入或工具輸出中偽造一段像模型思維鏈的內容。

      結果在多個開源和閉源前沿模型上,攻擊成功率達到約60%。


      研究發現模型還沒開始回答、甚至還沒吐出第一個字的時候,角色混淆就已經發生了。

      也就是說,它不是在寫回復的過程中「寫著寫著搞混了」,而是在理解輸入的那一刻就已經把賬記錯了:誰是老板、誰是外人,在模型心里已經搞反了。

      不只是Anthropic的問題

      OpenAI官方同樣也發布過一篇關于改進前沿LLM指令層級的論文,明確建立了一套權威等級:System > Developer > User > Tool。


      https://arxiv.org/pdf/2603.10521

      文中提到,如果模型把一條不可信的指令當成了權威指令來執行,就會產生安全風險。

      這至少說明,在OpenAI的研究框架里,「模型是否會錯誤地信任不該信任的指令」已經被視為一個真實存在、且需要專門訓練和評估的安全挑戰。

      OpenAI的這篇論文印證了在整個行業層面,「模型分不清誰在說話」已經被視為需要系統性應對的問題。

      Dwyer自己也在后續更新中也調整了判斷。

      他一開始更傾向于把問題歸咎于Claude Code外層harness的實現。

      但當他看到也有人聲稱在其他界面和模型中見過相似現象(包括ChatGPT用戶),他修正了自己最初的判斷:這未必只是單點工程bug,也可能牽涉更廣泛的模型級問題

      1M上下文

      放大了風險

      這個bug之所以格外危險,跟AI智能體系統當前的發展趨勢直接相關。

      Anthropic官方文檔顯示,Claude Opus 4.6和Sonnet 4.6支持1M token上下文窗口,一次會話可以裝下相當于一整本小說的信息量。

      與此同時,社區里有一種觀察也認為,這類問題似乎更容易出現在接近上下文窗口上限的所謂「Dumb Zone」(降智區)。

      Anthropic官方文檔也提到,隨著token數增長,模型的準確率和召回率會下降,這種現象被稱為「context rot」(上下文腐爛),因此,精心篩選上下文中的內容與可用空間的大小同樣重要。


      https://platform.claude.com/docs/en/build-with-claude/context-windows

      但文檔講的是長上下文下的一般性能退化,并沒有直接說Dwyer看到的「誰在說話」混淆就是context rot的直接表現。

      第三方的系統性測評也支持這個判斷。

      AgentPatterns.ai的分析指出,推理密集型任務的性能退化可能早在32K到100K token時就開始了,遠早于所謂的窗口上限。


      https://agentpatterns.ai/context-engineering/context-window-dumb-zone/

      把這幾件事放在一起:

      越來越長的上下文窗口、模型在長上下文中越來越容易搞混「誰說了什么」,再加上Claude Code這類工具已經擁有執行shell命令、commit代碼、部署服務等高權限操作能力。

      一個在上下文第50000個token處產生的角色歸因錯誤,可能在第80000個token時觸發一個自動部署。

      等你發現的時候,代碼已經上線了。

      今年3月底Claude Code源碼意外泄露后,安全研究者的分析進一步證實了這種擔憂。

      VentureBeat援引Straiker安全公司的技術拆解指出,Claude Code通過一個四級壓縮流水線管理上下文壓力,而一條嵌入在克隆倉庫CLAUDE.md文件中的惡意指令,可以在壓縮過程中存活下來,通過摘要被「洗白」,最終變成模型認為的合法用戶指令。

      研究者的結論令人不安:「模型并沒有被越獄。它是在合作性地執行它認為合法的指令。」

      這與Dwyer描述的癥狀完全吻合:

      問題不在于模型「被騙了」,而在于經過長上下文的壓縮和重組之后,系統已經丟失了「這句話到底是誰說的」這個最基本的元信息。

      能力在狂奔

      地基在開裂

      每次這類事故曝光,評論區的反應總是兩極分化。

      一邊是「AI覺醒了」:Claude給自己下指令,然后甩鍋給人類,這劇情太像科幻片了。

      但現有證據不支持這個方向。

      Dwyer看到的不是AI「故意甩鍋」,而更像是系統在消息歸屬上出現了結構性錯誤,現有證據并不支持把它解釋成某種「意圖」。

      另一邊是「用戶活該」:你給AI部署權限,出事了怪誰?

      但Dwyer則認為:權限是一個問題,歸因是另一個問題。

      就算你把權限收到最緊,一個連「這句話到底是誰說的」都搞不清楚的系統,在任何場景下都是定時炸彈。

      這就好比你不能靠少給鑰匙,來解決一個分不清主人和陌生人的門鎖問題。

      Hacker News上網友VikingCoder還用一句冷幽默概括了整個困境:LLM這三個字母里的「S」代表安全。


      daveguy接著調侃:「那解決方案顯然就是再疊一層破LLM來做安全審查嘛,這樣你就有了多個LLM——LLMS,然后你可以假裝那個S代表Secure。」


      這才是這件事真正刺痛行業的地方。

      另一方面,Anthropic仍在任務自動化的方向猛踩油門。

      他們剛剛發布了Claude Code的auto mode,目標是在更低維護成本下實現更高的任務自主性。


      https://www.anthropic.com/engineering/claude-code-auto-mode

      還有網友基于Claude Code泄露源碼,歸納出12種智能體架構模式,覆蓋記憶管理、工作流編排、工具權限、自動化四大類,能力圖譜越鋪越大。


      https://generativeprogrammer.com/p/12-agentic-harness-patterns-from

      2026年的AI智能體,能力清單越來越長:100萬token上下文、子Agent協作、自動執行shell命令、一鍵部署。

      但支撐這一切的地基卻在開裂。

      無論這個bug最終被定性為工程層的實現缺陷,還是模型層的系統性問題,它都在向我們釋放這樣一個信號:

      AI智能體的權限越大,「誰在說話」這個最簡單的問題就越致命。

      下一次翻車,可能就不只是幾個拼寫錯誤被推上線了。

      參考資料:

      https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

      https://news.ycombinator.com/item?id=47701233

      https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4-3創造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      4-3創造奇跡,0-4橫掃出局!NBA最大的偽強隊,四巨頭真該散伙了

      老侃侃球
      2026-05-14 16:28:08
      馬斯克幼子的虎頭包走紅,品牌方:少數民族繡娘手工縫制,優惠后每個338元,正緊急追加生產

      馬斯克幼子的虎頭包走紅,品牌方:少數民族繡娘手工縫制,優惠后每個338元,正緊急追加生產

      臺州交通廣播
      2026-05-14 23:41:27
      黃仁勛算不算中國人?血統追根溯源一目了然,下一代截然不同

      黃仁勛算不算中國人?血統追根溯源一目了然,下一代截然不同

      奇思妙想生活家
      2026-05-14 00:17:49
      特朗普抵達北京,普京隨后也要來,中美俄三方博弈格局變了

      特朗普抵達北京,普京隨后也要來,中美俄三方博弈格局變了

      夢史
      2026-05-15 01:08:25
      美國不要的,中國也堅決不要!

      美國不要的,中國也堅決不要!

      隔壁董小姐
      2026-05-11 07:52:20
      基本盤不是貶義詞

      基本盤不是貶義詞

      關爾東
      2026-05-13 23:41:38
      世界杯轉播權天價談判破裂,5億美金贊助打水漂,誰才是輸家?

      世界杯轉播權天價談判破裂,5億美金贊助打水漂,誰才是輸家?

      老特有話說
      2026-05-13 21:47:59
      首飛成功!已突破大重量載荷發射能力

      首飛成功!已突破大重量載荷發射能力

      揚子晚報
      2026-05-14 15:17:09
      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      天王嫂濾鏡徹底碎!方媛搶單人間引眾怒,極致利己嘴臉藏不住了

      千言娛樂記
      2026-05-14 23:30:52
      國乒迎來大洗牌!2人基本確定退役,比賽機會越來越少

      國乒迎來大洗牌!2人基本確定退役,比賽機會越來越少

      酷侃體壇
      2026-05-14 13:14:10
      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      極目新聞
      2026-05-14 16:30:33
      遼陽市委書記白英已任遼寧省政府黨組成員

      遼陽市委書記白英已任遼寧省政府黨組成員

      澎湃新聞
      2026-05-14 18:54:26
      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      觀察鑒娛
      2026-05-14 11:13:31
      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      夫妻性生活別急著進入!學會這招“延遲滿足”,爽感增倍

      精彩分享快樂
      2026-05-13 12:05:07
      面對中國時,特朗普像換了個人,落地北京前,對華提了一個請求

      面對中國時,特朗普像換了個人,落地北京前,對華提了一個請求

      迎男而上
      2026-05-15 01:38:10
      省委組織部公示后,邵陽市市長程蓓,任市委書記

      省委組織部公示后,邵陽市市長程蓓,任市委書記

      上觀新聞
      2026-05-14 11:08:33
      奧運冠軍官宣減重50斤,網友直呼“完全認不出”

      奧運冠軍官宣減重50斤,網友直呼“完全認不出”

      極目新聞
      2026-05-14 20:18:58
      隔空喊話前妻?王力宏演唱會情緒激動下跪哽咽:我們重新開始吧

      隔空喊話前妻?王力宏演唱會情緒激動下跪哽咽:我們重新開始吧

      八卦王者
      2026-05-14 11:37:21
      老婆升職后立馬離婚改嫁領導,三天后前岳母來電:快來醫院交50萬

      老婆升職后立馬離婚改嫁領導,三天后前岳母來電:快來醫院交50萬

      千秋文化
      2026-05-11 20:33:49
      英偉達H200這次真的獲批了,利好哪些A股上市公司?

      英偉達H200這次真的獲批了,利好哪些A股上市公司?

      趕碳號
      2026-05-15 00:42:50
      2026-05-15 03:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15211文章數 66867關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      健康
      數碼
      游戲
      本地
      公開課

      專家揭秘干細胞回輸的安全風險

      數碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰略合作

      《極限競速地平線6》畫面對比 最佳游玩平臺在PC

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人在线免费| 成人午夜二区| 国产美女被遭高潮免费网站| 国产学生裸体无遮挡免费| 国产黄色自拍视频| 欧美日韩综合| 在线看片无码永久免费视频| 亚洲色A| 国产精品亚洲专区无码web| 国产免费的野战视频| 有码无码中文字幕国产精品| 性色av网| 国产精品无码dvd在线观看| 日韩高清无码电影网| 高级会所人妻互换94部分| 国产精品久久久久久吹潮| 又黄又爽又色的少妇毛片| 国产精品第四页| 国产综合久久久久鬼色| 免费看韩国午夜福利影视| 国产精品无码dvd在线观看| 亚洲国产成人最新精品资源| 97无码精品综合| 国产日韩av免费无码一区二区三区| 91久久精品美女高潮不断| 亚洲五月综合缴情在线| 色欲国产麻豆一精品一av一免费| 国产精品亚洲一区二区在线观看| 911国产精品| AV成人黄色电影网站| 国产在线无码一区二区三区| 久久综合伊人77777| 精品乱码一区二区| 一本色道久久综合亚洲精品不卡| 日韩欧国产精品一区综合无码| 无码中文字幕动漫精品| 国产99在线 | 免费| 精品国产乱码久久久久久婷婷 | 7777精品久久久大香线蕉| 久久精品国产久精国产| 久草视频一区|