<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude變蠢了,新模型發布前的黑暗時刻?

      0
      分享至



      Claude Opus變蠢了。

      最近一段時間,越來越多用戶開始有一種很難講的感覺:雖然這個模型沒有明顯出錯,但也不再像以前那樣“聰明”。

      回答更快了,推理更短了,有時候看起來像是跳過了某些本該認真完成的步驟,變得敷衍了。

      如果這種情況只是個例,用戶可能還會懷疑是不是自己的問題,但當相似的聲音越來越多,這就不再是單純的“感覺不對”了。

      網上甚至開始出現一些視頻,調侃現在的Opus就像兇猛的獅子被摘了毛圈,發現原來只是一條狗。

      一個更直接的說法開始流傳:Opus被削了!

      這是真的嗎?如果是真的,它為什么會被削呢?



      01

      推理深度下降67%

      一開始只是零星的用戶在吐槽,說 Claude Opus“變懶了”“沒以前聰明了”。

      可能只是偶爾犯了一些過去不會犯的低級錯誤,或者在復雜任務里少做了幾步推理。

      某種意義上,和模型的協同很像是和真人的交往,一直以來配合得很好的“同事”某天忽然變臉了,擱誰誰都得難受。

      碰到這種情況,大多數人的第一反應都是懷疑自己:是不是prompt寫得不夠好?還是任務本來就不適合?這種情況應該只是偶然事件吧?

      但很快,在Reddit的Claude社區里,類似的反饋開始密集出現,而且描述高度一致:

      有人說它不再仔細讀代碼;有人說它更快給答案,但經常漏掉關鍵步驟;也有人發現,它在長任務中更容易“提前結束”,像是默認事情已經完成。



      當不同用戶在不同場景下開始重復同一類問題時,這件事似乎不再是所謂的“感覺不對”,更像是一種行為模式的變化。

      換句話說,不是感覺錯了,是模型真的在變。

      真正讓討論升級的是這個數字:有人在Claude Code的使用過程中,對歷史交互日志進行對比,發現模型在復雜任務中的推理過程明顯縮短,自2月更新以來,推理深度下降了67%。



      (參考鏈接:
      https://github.com/anthropics/claude-code/issues/42796)

      作者坦率地說明,67%是基于簽名長度與思考內容長度的相關估計,而不是直接測量。還提到一月份的日志被刪除了,所以基線對比不太準確。

      相比之下,報告里更有說服力的,其實是那些行為層面的變化。比如read:edit(讀取代碼vs修改代碼)的比例,從6.6下降到了2.0;3月8日之后,被stop hook捕捉到的違規行為有173次,而之前是0。



      不過數字是否精確并沒有那么重要,重要的是它讓一件原本模糊的體感問題,第一次被量化成一個可以討論的趨勢。

      于是,一個新詞在社區里開始流行:“AI shrinkflation”(AI縮水式通脹)

      縮水式通脹是一個經濟學術語,指的是商品的大小或數量減少,而價格不變。放在這里的意思也很直接,模型實際給到用戶的能力變少了,但模型看起來還是同一個名字。

      02

      敷衍的背后

      相比社區的激烈反應,Anthropic并沒有直接承認“模型變弱”。

      Claude Code的開發負責人Boris給出的解釋是,這些變化來自系統層的調整:包括工具調用方式、推理策略以及資源分配機制的變化,而不一定是模型本身能力的下降。

      他舉了個例子:在Claude Code中,一部分問題被認為源于工具鏈和系統prompt,而不是模型本身;與此同時,在高負載情況下,系統需要對算力、token和請求進行控制,這也會影響用戶體驗。

      在最新版本中,Anthropic引入了一種叫“自適應推理”(adaptive thinking)的機制,模型會根據任務復雜度,動態決定是否以及使用多少推理。

      也就是說,并不是模型變差了,只是模型開始“自己決定”要使用多少算力。



      (參考鏈接:
      https://news.ycombinator.com/item?id=47660925)

      從工程角度看,這是一種很合理的優化,簡單任務少思考,復雜任務多思考,以提升整體效率

      但問題在于,效率優化和能力削弱,在用戶體驗上并沒有區別。

      當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不會是優化,而是敷衍。

      而且這個自適應推理機制,從感性的角度來講,也確實會讓人不太舒服。

      還是拿人際交往的那個比喻:憑什么一開始好好的,用到后面就覺得我的事情不重要了?

      這種不適感很快被另一個變化放大了:Mythos還未發布就廣受關注,Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”,在代碼與安全任務上表現出遠超以往的能力。因此它被限制性地提供給少數機構使用,用來加固“全球最關鍵的軟件系統”。

      當“更強的新模型”與“體感變差的舊模型”同時出現,一個在社區中不斷被提起的猜測開始成型:把舊模型削了再抬新模型,一捧一踩,就會顯得新模型有著巨大的升級。

      這個邏輯沒有直接證據,但它正在被越來越多用戶相信。



      03

      模型不再穩定

      實際上,類似的事情對AI來說并不陌生。

      早在2023年就有研究對比了GPT-4在不同時間的表現,發現同一個模型在幾個月內,推理方式和輸出行為都發生了明顯變化。這些變化后來被解釋為多種因素疊加的結果:包括推理策略調整、安全策略收緊,以及對成本和響應速度的優化。



      把陰謀論拋在一邊,如果確實存在一定程度的資源傾斜,在AI行業其實算是常態:無論是OpenAI還是Google,幾乎所有公司都會優先優化最新一代模型,舊模型則逐漸被邊緣化。

      算力是成本,也是生產力。當新模型的能力上限更高、潛在價值更大時,把更多資源投入進去,本身是一種理性的選擇。

      在這個過程中,舊模型的狀態自然會發生變化:被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

      不過理解歸理解,新模型不開放給大眾使用,舊模型又在毫無征兆的情況下弄成這樣,誰能輕易接受?



      從用戶的視角來看,最讓人不滿的并不是模型的“變蠢”,而是它的“不穩定”。

      當模型本身從一個穩定的工具變成一個會不斷變化的系統,它自己做出了“更好的調整”,沒有提示,沒有版本說明,也沒有邊界。

      作為用戶,你不知道它什么時候變了,不知道它具體變了什么,更不知道這種變化會不會影響你正在做的事情。

      你只能感受到它變了,變得沒以前好用了。

      這個時候,有一個新模型放在你的面前,看起來比現在這個更穩定、更可靠,或許用起來會更順手。

      于是選擇就變得微妙起來:似乎不再是你主動選擇新模型,而是舊模型的變化把你推向更新的那一個。

      即使你知道,新模型也可能在某一天變成下一個舊模型,可能還是會猝不及防地“優化”成讓人難受的版本。

      但在那一刻,差距已經擺在眼前。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      這波轉會操作真的666……阿森納從水晶宮簽下埃澤...

      這波轉會操作真的666……阿森納從水晶宮簽下埃澤...

      綠茵情報局
      2026-05-08 17:46:10
      中國孩子去海參崴參加活動,引發“愛國人士”集體破防

      中國孩子去海參崴參加活動,引發“愛國人士”集體破防

      清濱酒客
      2026-05-08 18:18:45
      58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

      58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

      瓜哥的動物日記
      2026-05-07 11:45:08
      羅副總裁囂張錄音曝光: “我讓你們在中國無路可走!”

      羅副總裁囂張錄音曝光: “我讓你們在中國無路可走!”

      小陸搞笑日常
      2026-05-07 16:05:42
      特斯拉Model Y迎大改款 五項升級全是車主剛需

      特斯拉Model Y迎大改款 五項升級全是車主剛需

      劉哥談體育
      2026-05-08 13:48:57
      倫敦世乒賽:4強已出其2!中日德選手鎖定獎牌,瑞典男團爆冷出局

      倫敦世乒賽:4強已出其2!中日德選手鎖定獎牌,瑞典男團爆冷出局

      全言作品
      2026-05-08 05:53:25
      邁克爾-波特:小托馬斯無法在NBA立足是因為性格問題

      邁克爾-波特:小托馬斯無法在NBA立足是因為性格問題

      懂球帝
      2026-05-08 11:29:08
      趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

      趙麗穎馮紹峰一同牽著兒子手去學校,疑似小腹隆起,被質疑懷二胎

      花哥扒娛樂
      2026-05-08 08:33:03
      涉疫郵輪船長宣布首例死亡視頻曝光 稱不會傳染

      涉疫郵輪船長宣布首例死亡視頻曝光 稱不會傳染

      看看新聞Knews
      2026-05-08 11:56:03
      張學良90歲的一句大實話:楊虎城全家被殺,是因為他才是事變主角

      張學良90歲的一句大實話:楊虎城全家被殺,是因為他才是事變主角

      觸摸史跡
      2026-04-21 19:53:04
      白天云多風不小 氣溫下降明顯→

      白天云多風不小 氣溫下降明顯→

      上海預警發布
      2026-05-08 10:49:10
      追蹤24年,科學家發現一個人的“生物鐘”走得越快,壽命就越短

      追蹤24年,科學家發現一個人的“生物鐘”走得越快,壽命就越短

      混沌錄
      2026-05-06 23:43:06
      再表忠心!克雷桑穿上國足20號球衣:明年4月即可歸化!

      再表忠心!克雷桑穿上國足20號球衣:明年4月即可歸化!

      邱澤云
      2026-05-08 18:18:08
      ST聞泰一字跌停且無量。

      ST聞泰一字跌停且無量。

      風風順
      2026-05-08 06:53:16
      出生日看一生:從初一到三十,哪些人注定操勞,哪些人晚年有福

      出生日看一生:從初一到三十,哪些人注定操勞,哪些人晚年有福

      娛樂洞察點點
      2026-05-08 16:25:47
      特朗普:若停火失效伊朗將火光沖天,與伊朗達成協議可能不會發生,但也可能隨時發生

      特朗普:若停火失效伊朗將火光沖天,與伊朗達成協議可能不會發生,但也可能隨時發生

      瀟湘晨報
      2026-05-08 11:09:28
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      從知名女星到廣州老板娘,一個女兒用皮肉苦力,買斷了父親的命

      從知名女星到廣州老板娘,一個女兒用皮肉苦力,買斷了父親的命

      杰絲聊古今
      2026-05-08 12:49:39
      G2北京VS廣東!內線+鋒線占優,威廉姆斯X因素,限制后場很關鍵!

      G2北京VS廣東!內線+鋒線占優,威廉姆斯X因素,限制后場很關鍵!

      籃球資訊達人
      2026-05-08 16:42:53
      晚清最殘忍的鴻門宴:8位大將滿心歡喜赴宴,還沒動筷就人頭落地

      晚清最殘忍的鴻門宴:8位大將滿心歡喜赴宴,還沒動筷就人頭落地

      第四思維
      2025-07-23 18:19:41
      2026-05-08 19:16:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數 8062關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      家居
      藝術
      本地
      游戲
      公開課

      家居要聞

      流動的尺度 打破家的形式主義

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      本地新聞

      用蘇繡的方式,打開江西婺源

      《Darwin’s Paradox!》發布Steam?版本「Community Patch」更新

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 男女爽爽无遮挡午夜视频| 精品欧洲av无码一区二区| A片在线不卡观看免费观看| 亚洲六月丁香六月婷婷| 亚洲一区二区三区丝袜| 久久久无码精品国产一区| 97国产在线| 内射自拍| 国产主播福利在线观看| 医院人妻闷声隔着帘子被中出| 日韩欧美国产精品| 国产91久久精品一区二区| av激情亚洲| 欧美黑吊大战白妞| 一级做a爰片久久毛片16| 国产性自爱拍偷在在线播放| 精品久久国产字幕高潮| 欧美一区二区精品久久久| 久久精品99国产精品日本| 亚洲制服丝袜在线 | 亚洲AV无码成人精品区不卡 | 人妻少妇不满足中文字幕| 丝袜人妻| 亚州成人AV| 色综合中文字幕久久88| 又爽又黄又无遮挡的视频在线观看| 夜夜嗨av一区二区三区| 在线观看热码亚洲av每日更新| 国产精品三级黄色小视频| 熟女AV在线| 99在线精品国自产拍中文字幕| 亚洲成av人片在www鸭子| 日韩欧美中文字幕在线播放| 旬阳县| 狼友av永久网站免费观看| 国产精品蜜臀av在线一区| 无码中文av有码中文av| 国产95在线 | 欧美| 国产一区二区三区免费观看| 亚洲香蕉av一区二区蜜桃| 韩国自拍偷自拍亚洲精品|