<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude變笨,Anthropic發報告認了:為優化3個Harness層bug,不小心改崩了

      0
      分享至


      作者|冬梅

      “Claude 變笨了。”

      Anthropic 正面回應模型“變笨”:

      三處優化導致的

      過去一段時間,這個聲音在 Hacker News、Reddit 以及 X 上此起彼伏。尤其是在萬眾矚目的 Opus 4.7 發布后,不少老用戶反饋 Claude Code 變得健忘、重復且廢話連篇。


      作為目前全球最強梯隊的編程模型,Claude 的口碑滑坡讓 Anthropic 壓力倍增。

      所以今天一早,Claude Code 研發團隊打破沉默,發布了一篇看起來誠意十足的分析文章,名為《An update on recent Claude Code quality reports》,他們在文章中坦言,用戶反饋的“降智”并非錯覺,而是源于三處看似合理、實則導致連鎖反應的產品優化

      沒錯,Claude Code 真的“變笨”了。


      研發團隊表示,目前 Anthropic 已修復全部漏洞,并宣布重置所有訂閱用戶的使用限額以示誠意。

      截至 4 月 20 日(版本 v2.1.116),這三個問題均已修復。在這篇文章中,他們詳細闡述了發現了什么、修復了什么,以及今后將如何改進,避免類似問題再次發生。

      三處優化細節詳述

      事件的起因,源于產品團隊對“用戶體驗”的過度優化。經過調查,Claude Code 團隊找出了三個不同的問題:

      第一個優化發生在 3 月 4 日。通常來說,模型思考時間越長,輸出效果越好。當時,不少用戶吐槽 Opus 模型思考時間太長,甚至導致 UI 卡死。為了縮短延遲、節省 Token,團隊私自將默認推理強度(Reasoning Effort)從“高”降到了“中”。

      在產品層面,團隊再從中選一個點作為默認值,并通過 Messages API 的 effort 參數傳遞該值;同時,團隊還將其他可選強度通過 /effort 命令提供給用戶。


      內部評估認為,“中”等強度能以極小的智能損失換取顯著的速度提升。然而,真實環境中的開發者并不買賬,上線后不久,就有用戶反映 Claude Code 感覺變笨了。對 AI 而言,“多思考一秒鐘”往往意味著從“生成垃圾代碼”到“產出優雅重構”的跨越。

      在聽取更多客戶的反饋后,團隊做了多次設計迭代,讓當前的推理強度設置更清晰,以便提醒用戶可以更改默認值(例如啟動時彈出提示、增加內聯的強度選擇器、恢復“ultrathink”選項),但大多數用戶仍然保留了“中”等推理強度默認值。

      4 月 7 日,團隊在意識到這種取舍邏輯的錯誤后,將默認強度重新調回了“高”,并在 Opus 4.7 上默認開啟了“極高”模式。此問題影響的模型是 Sonnet 4.6 和 Opus 4.6。


      第二個優化發生在 3 月 26 日。當 Claude 執行一項任務并進行推理時,這些推理內容通常會被保留在對話歷史中。這樣,在后續的每一輪交互中,Claude 都能了解自己之前為何做出某些編輯和工具調用。

      3 月 26 日,團隊針對這一功能上線了一項本意是提高效率的優化,有點類似于“自動清理歷史思考內容”的功能。他們利用提示緩存(prompt caching)來降低用戶連續 API 調用的成本并加快速度。Claude 在發起 API 請求時將輸入 token 寫入緩存;如果一段時間沒有活動,該提示就會被從緩存中逐出,為其他提示騰出空間。

      原本的設計應該很簡單:如果會話空閑超過一小時,系統會剪除舊的推理信息以節省成本。為此,團隊使用了 clear_thinking_20251015 這個 API 頭部,并配合 keep:1 參數。

      但代碼中隱藏的一個漏洞:它并沒有只清除一次思考歷史,而是在會話后續的每一輪中都進行清除。一旦跨過空閑閾值,后續每一輪對話都會觸發清理。這意味著 Claude 只能記住最近的一句對話,它徹底忘記了自己當初為什么要修改代碼。在用戶眼中,Claude 開始重復啰嗦、胡言亂語。這種“健忘”不僅損害了智能,還因為頻繁的緩存未命中(Cache Miss)導致用戶的使用額度被光速消耗


      據悉,該漏洞的發現過程較為曲折,由于 Anthropic 內部兩個互不相關的實驗干擾,導致漏洞難以復現——一個是僅用于服務端、涉及消息隊列的內部實驗,另一個是在思考內容展示方式上的正交改動,該改動在大多數 CLI 會話中掩蓋了漏洞,使得外部構建測試時未能發現問題。

      此外,該漏洞處于 Claude Code 的上下文管理、Anthropic API 和擴展推理三個模塊的交匯點,相關變更已通過多輪人工和自動化代碼審查、單元測試、端到端測試、自動化驗證及內部試用,且僅在陳舊會話這一邊緣情況下出現,因此 Anthropic 花費超過一周時間才找到并確認其根本原因。

      值得注意的是,在調查過程中,團隊使用 Opus 4.7 對有問題的拉取請求進行了反向的“代碼審查”測試。當提供了獲取完整上下文所必需的代碼倉庫后,Opus 4.7 發現了該漏洞,而 Opus 4.6 未能做到。

      為防范此類問題再次發生,Anthropic 目前正增加對更多代碼倉庫作為代碼審查上下文的支持,該漏洞也已經在 4 月 10 日 v2.1.101 版本中修復好了。此問題影響的模型是 Sonnet 4.6 和 Opus 4.6。

      第三個優化發生在 4 月 16 日。Anthropic 曾為降低 Claude Opus 4.7 版本的冗長程度,修改了系統提示語。據悉,Claude Opus 4.7 相較于前代,明顯更加“啰嗦”,雖能在困難問題上表現更出色,但會生成更多輸出 token。

      在該版本發布前幾周,Anthropic 便開始對 Claude Code 進行調整,綜合運用模型訓練、提示語優化、思考體驗改進等多種方式降低冗長程度,其中新增的一條系統提示語——“長度限制:在工具調用之間的文本控制在 25 個單詞以內。最終回復控制在 100 個單詞以內,除非任務確實需要更多細節”,對 Claude Code 的智能產生了過大影響。

      該提示語經過數周內部測試,在 Anthropic 運行的評估集上未出現性能退化,因此于 4 月 16 日隨 Opus 4.7 版本一同上線。

      但在后續調查過程中,Anthropic 通過更廣泛的評估集開展更多消融測試(即從系統提示中逐行刪除以理解每行影響),發現 Opus 4.6 和 4.7 版本均出現 3% 的性能下降。

      為此,Anthropic 在 4 月 20 日的發布中,立即撤銷了該條系統提示語。該優化受影響的模型包括 Sonnet 4.6、Opus 4.6 和 Opus 4.7。

      3 未來如何改進?

      為了避免再次出現這些問題,Claude Code 團隊表示將從下面三個方面進行改進:

      首先,是內部全員強制使用公共構建版,確保開發者與用戶“同頻感同身受”

      Claude Code 團隊將推動內部使用版本的統一,確保更大比例的內部員工使用 Claude Code 的精確公共構建版本,而非用于測試新功能的內部版本,以此更貼近普通用戶的實際使用場景,提前發現潛在問題。同時,團隊將對內部使用的代碼審查工具進行改進,并計劃將優化后的代碼審查工具同步提供給客戶,助力客戶提升使用體驗。

      其次,是引入更嚴苛的提示語審計工具,對系統提示語的每一行修改進行持續的消融測試。

      在系統提示語管理方面,Claude Code 團隊將增加更嚴格的控制措施。對于每一次系統提示語的更改,團隊都會針對每個模型運行廣泛評估,持續開展消融測試以明確每一行提示語的具體影響;同時,已構建新的工具,讓提示語的修改更易于審查和審計。

      第三,是增加“浸泡期”,對于任何可能犧牲智能換取性能的改動,采取逐步上線的流程。

      團隊已在自身的 CLAUDE.md 文件中新增指導原則,確保針對特定模型的更改僅限定在該模型范圍內,避免跨模型影響。對于任何可能犧牲智能換取其他收益的改動,團隊將增加“浸泡期”,擴大評估集范圍,并采用逐步上線的流程,以便更早發現并規避問題。

      在用戶溝通與反饋渠道方面,Claude Code 團隊近期已在 X(原 Twitter)平臺創建 @ClaudeDevs 賬號,用于深入解釋產品決策及其背后的原理,同時會在 GitHub 的集中討論帖中同步相關更新,提升產品決策的透明度。

      分析報告沒有讓用戶滿意

      當 Anthropic 試圖用一份詳盡的技術報告挽回 Claude 的口碑時,它可能低估了開發者積壓已久的怒火。

      在官方承認由于“推理強度下調”、“緩存漏洞”和“提示語冗長控制”導致 Claude 性能大幅下滑后,社交媒體上的評論呈現出一邊倒的抨擊。

      對于眾多支付高額訂閱費的專業開發者來說,這份遲到的“真相”不僅沒能平息焦慮,反而因補償方案的敷衍和官宣時機的微妙被質疑在“作秀”。

      在 X 上,一位網友反饋稱,即使在重置后,流量消耗速度依然驚人:“我用了 5 個小時,x20 的套餐就燒掉了 64% 的流量,而我什么特別的事都沒做。情況正在變得越來越糟。”



      還有 X 用戶憤怒地表示:“這簡直是胡說八道!過去兩周,我一直在反思是不是自己的提示詞或工作流程出了問題,甚至懷疑過自己都沒懷疑過 Claude,結果發現是你們的漏洞吞噬了我的歷史記錄。把重置當作道歉?這才是真正侮辱人的地方。”

      該用戶還表示:“過去一年我為 Anthropic Max 支付了約 2400 美元,為 OpenAI 支付了 0 美元。過去 48 小時我切換到 OpenAI 的Codex感覺真的非常棒,我正嚴肅考慮徹底更換系統。失去最忠實用戶的方式,不是因為模型出 Bug,而是因為糟糕的道歉。”


      另一位網友則精準補刀:“你們總是在每周限額到期前兩小時宣布‘重置’,這根本不叫重置,這叫敷衍。”


      最令社區玩味的是本次公告發布的時間點——恰逢 OpenAI 發布GPT-5.5的當天。有部分 X 用戶認為,這樣的做法是在分散人們對于 GPT 5.5 發布的關注。


      有 X 用戶質疑道:“幾個月來你們一直堅稱‘模型沒有退化’,現在卻在 GPT-5.5 發布的當天突然官宣漏洞分析,這很難不讓人懷疑是在轉移注意力。更諷刺的是,你們聲稱‘用 Claude 開發 Claude’,結果長達 15 天的嚴重漏洞竟然在內部完全沒被發現?”


      這場風波正在引發連鎖反應:核心用戶的忠誠度降至冰點。也讓一部分人從 Anthropic 轉向了 OpenAI。


      對于 Anthropic 而言,這次危機揭示了一個殘酷的現實:在大模型競爭進入白熱化的今天,技術領先只是入場券,透明度與對用戶時間的尊重才是留住開發者的護城河。


      https://x.com/ClaudeDevs/status/2047371123185287223

      https://www.anthropic.com/engineering/april-23-postmortem

      聲明:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。

      Q:Lab 龍蝦季 Vol.3「OPC 場景篇」——當 AI 開始替你做商業決策!MvS Claw / QClaw / MaxClaw 同步診斷,實測 AI 如何幫助 OPC 理性評估每個需求,守住效率與收益。精力有限、容錯率極低——龍蝦能不能幫你精準接單不踩坑?

      4 月 27 日 19:00-20:30 直播實測,碼上預約~


      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      發現一個無奈的現象:城市八九十歲老人活著,基本是在“養”保姆

      發現一個無奈的現象:城市八九十歲老人活著,基本是在“養”保姆

      千秋歷史
      2026-05-26 19:19:28
      謝苗《火遮眼》內地定檔,18歲以下不宜,但隱藏細節更可怕

      謝苗《火遮眼》內地定檔,18歲以下不宜,但隱藏細節更可怕

      娛樂圈筆娛君
      2026-05-27 14:21:39
      全球越來越熱,地球反而要進入冰河時代?這個反直覺預言正被驗證

      全球越來越熱,地球反而要進入冰河時代?這個反直覺預言正被驗證

      半解智士
      2026-04-13 15:47:58
      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      學醫后才明白,預防骨質疏松最好的習慣,不是曬太陽,而是3件事

      垚垚分享健康
      2026-05-04 19:15:04
      馬斯克和范冰冰什么關系?偷稅8億的范冰冰,如今在國外重回巔峰

      馬斯克和范冰冰什么關系?偷稅8億的范冰冰,如今在國外重回巔峰

      追風小狗
      2024-11-12 21:52:56
      投500萬只剩30萬,全國5萬個家庭,陷入千億騙局

      投500萬只剩30萬,全國5萬個家庭,陷入千億騙局

      鑒史錄
      2026-05-21 15:13:52
      41歲王珞丹現狀:住河北深山,不結婚不生子,放棄榮華富貴圖啥?

      41歲王珞丹現狀:住河北深山,不結婚不生子,放棄榮華富貴圖啥?

      白面書誏
      2026-04-20 15:26:26
      中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

      中國肺癌發病率世界第一!提醒:罪魁禍首已揪出,7種食物要少吃

      健康之光
      2026-03-23 20:10:05
      太!熱!了!廣東這波高溫還要持續幾天?未來幾天會下雨嗎?速看~

      太!熱!了!廣東這波高溫還要持續幾天?未來幾天會下雨嗎?速看~

      廣東活動
      2026-05-27 12:12:33
      749局退休高人自述:秦嶺巨蟒渡劫事件,當時的情況令人心驚

      749局退休高人自述:秦嶺巨蟒渡劫事件,當時的情況令人心驚

      千秋文化
      2026-04-10 20:05:07
      北京一男子掏空積蓄,湊500萬入股中國人壽,20年后分紅嚇人

      北京一男子掏空積蓄,湊500萬入股中國人壽,20年后分紅嚇人

      一刀故事
      2025-05-14 13:32:29
      “晾了三天,終于臭了”!最近不少人連夜搶購,已賣爆

      “晾了三天,終于臭了”!最近不少人連夜搶購,已賣爆

      環球網資訊
      2026-05-27 09:33:10
      1940年冬,炊事員給朱德飯里下毒,槍決前,楊奇清怒吼:誰敢殺他

      1940年冬,炊事員給朱德飯里下毒,槍決前,楊奇清怒吼:誰敢殺他

      商業人物志
      2026-05-22 08:30:14
      上海三大亨后人何在?一人絕后一人敗光家產,一人子孫皆成才

      上海三大亨后人何在?一人絕后一人敗光家產,一人子孫皆成才

      DELIXI
      2024-12-01 19:16:53
      1年賣出8億片!成本僅1毛8的它,“拿捏”了中國男人20多年

      1年賣出8億片!成本僅1毛8的它,“拿捏”了中國男人20多年

      思思夜話
      2026-05-27 11:26:30
      中建八局董事長周可璋,受影響了

      中建八局董事長周可璋,受影響了

      新浪財經
      2026-05-27 12:11:56
      中國商會向印尼遞交文書,千億經貿博弈開啟,或將重塑東南亞格局

      中國商會向印尼遞交文書,千億經貿博弈開啟,或將重塑東南亞格局

      磊子講史
      2026-05-27 16:18:39
      掉粉30萬?這回打臉來得真快

      掉粉30萬?這回打臉來得真快

      草莓解說體育
      2026-05-27 21:02:59
      33歲米蘭9號射手正式告別:幾次轉會選擇錯誤,狀態已不在巔峰

      33歲米蘭9號射手正式告別:幾次轉會選擇錯誤,狀態已不在巔峰

      里芃芃體育
      2026-05-27 11:30:13
      高一女兒抑郁在家 我發現休學孩子覺醒最快的方式:“吃高級的苦”

      高一女兒抑郁在家 我發現休學孩子覺醒最快的方式:“吃高級的苦”

      解說阿洎
      2026-05-26 13:27:07
      2026-05-27 21:55:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1523文章數 150關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      女子稱車禍住院遭男醫生侵犯 送檢的紙巾檢出醫生精斑

      頭條要聞

      女子稱車禍住院遭男醫生侵犯 送檢的紙巾檢出醫生精斑

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      王鶴棣風波連累父親炸串店遭差評?

      財經要聞

      中國半導體的陽謀

      汽車要聞

      限時補貼價9.28-10.98萬 MG 4X正式上市

      態度原創

      健康
      旅游
      房產
      手機
      軍事航空

      打外泌體會比干細胞更安全嗎

      旅游要聞

      陜西:文旅融合開新花

      房產要聞

      地產投資又跌30%!連跌15月!海南房子將越來越少?

      手機要聞

      華為余承東:全新問界M9系列1小時大定突破11000臺

      軍事要聞

      以軍稱已打死哈馬斯新任軍事領導人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕av一区二区三区| 中文无码伦av中文字幕在线| 国产亚洲精品久久久久久彩霞 | 蜜臀av色欲a片无码精品一区| 国产地址二永久伊甸园| 乱人伦中文字幕在线| 欧美另类亚洲| 最新亚洲中文av在线不卡| 国产亚洲精品ae86| 久久久久亚洲AV成人网人人软件| 91巨炮在线| 无码人妻精品中文字幕免费东京热 | 国语自产偷拍精品视频偷| 亚洲一区二区偷拍精品| 国产成人一区在线播放| 青娱国产区在线| 免费女人18毛片a毛片视频| 国产精品v片在线观看不卡| 福利一区二区三区视频在线| 熟妇人妻引诱中文字幕| 亚洲欧美日韩中文高清www777 | 九九九热在线免费视频 | 性一交一乱一伦a片| 曰韩免费无码AV一区二区| 国产自产一区二区三区视频| 欧美a视频在线观看| 人妻少妇偷人无码视频| 92午夜少妇极品福利无码电影| 国产午夜福利高清在线观看| 日韩人妻精品中文字幕专区不卡| 中文字幕不卡在线一区二区三区免费视频| 隔壁人妻被水电工征服| 2021亚洲国产精品无码| 日韩一区综合| 国产激情自拍| 亚洲日本中文字幕一区精品 | 网红主播国产一区在线| 成 人 网 站 免 费 av| 色一情一乱一伦麻豆| 国产精品?制服丝袜?中文字幕| 2022精品福利在线小视频|