<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI可以自審代碼了,Opus 4.7出手解決“屎山”

      0
      分享至



      別的AI廠商發模型,上來一定會告訴你“我們這次的產品多厲害多強大”。但Anthropic不一樣,他們說“我們有更強的,但先不能給你。”

      于是在2026年4月17日,Anthropic發布了Claude Opus 4.7。

      這次發布沒有太多懸念,官方博客按部就班地列出了跑分、能力提升和應用場景。但如果你仔細讀完整篇公告,會發現一些不太尋常的地方。

      Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因為網絡安全能力過強,暫時限制發布。

      因此Opus 4.7被明確定位為“第一款用來測試新網絡安全護欄的公開模型”。

      官方甚至還說,他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。

      那Opus 4.7具體如何呢?

      01

      Opus 4.7的性能如何?

      先說常規部分。

      Opus 4.7在多個基準測試上超過了Opus 4.6,尤其是在高級軟件工程任務上。

      官方圖表里,Opus 4.7在SWE-Bench Verified上為87.6%,Opus 4.6為80.8%;在更難的SWE-Bench Pro上,Opus 4.7為64.3%,Opus 4.6為53.4%;在Terminal-Bench 2.0上,Opus 4.7為69.4%,Opus 4.6為65.4%;Finance agent v11上,Opus 4.7為64.4%,Opus 4.6為60.1%。



      讓我們用人話來解釋一下這一串數字:你現在可以把更復雜的編程工作交給Opus 4.7,它會更嚴謹地處理長時間運行的任務,更精確地遵循指令,還會在匯報之前想辦法驗證自己的輸出。

      在Opus 4.7早期測試者的反饋里,有幾個點值得注意。

      第一個是指令遵循能力大幅提升。

      Opus 4.7會嚴格按照字面意思理解指令,而之前的模型往往會松散解讀或者跳過某些部分。

      這聽起來是好事,但實際上可能帶來麻煩。其表現為Opus 4.7更“聽話”了,但這反而會讓一些舊提示詞失效。

      以前的Claude可能會比較“會意”。你寫一個模糊指令,它會自動補全你的真實意圖,或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞,其實是在這種舊模型習慣上調出來的。

      但Opus 4.7官方說,它更傾向于嚴格按字面意思執行指令。這樣一來,舊提示詞里那些以前被模型自動忽略的小細節,現在可能會被認真執行。而以前模型會靈活處理的模糊表達,現在反而會按最直接的方式理解。

      結果就是模型明明更強了,但輸出反而和用戶預期不一樣。

      第二個是多模態支持改進。

      Opus 4.7可以接受長邊最高2576像素的圖像,大約3.75兆像素,是之前Claude模型的三倍多。

      這不是普通的“識圖能力”升級,而是為了讓AI能看懂軟件界面,服務于Anthropic的Computer Use功能。

      Opus 4.7的視覺升級,不是為了讓用戶問“這張圖里有什么”,而是為了讓agent能看懂軟件界面。

      agent如果看不清密集表格、終端輸出、設計稿細節、代碼截圖,它的操作能力再強也沒用,因為它只知道怎么干活,卻不知道去哪上班。

      Anthropic把圖像分辨率往上提,本質上是在給Claude裝更清楚的眼睛。

      未來AI辦公、AI測試、AI安全、AI前端開發,很多任務都不是純文本任務,而是屏幕任務。

      第三個是實際工作表現。

      內部測試顯示,Opus 4.7在金融分析任務上比Opus 4.6更有效,能產出更嚴謹的分析和模型、更專業的演示文稿,以及更緊密的跨任務整合。

      它在GPQAval-AA這個第三方評估中也是最高分,這是一個覆蓋金融、法律等領域的評估。

      第四個是記憶能力。

      Opus 4.7更會使用基于文件系統的記憶。它能在長周期、多會話的工作中記住重要筆記,后續任務需要的前置信息更少。

      這個點在官方公告里不顯眼,但我認為可能是長期使用中最關鍵的一個更新特性。

      一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的agent,才可能從“聰明臨時工”變成“穩定同事”。

      安全性和對齊方面,Opus 4.7和Opus 4.6的整體表現相似。

      它在誠實度和抵抗惡意提示注入攻擊的能力上有所提升,在給出危害建議的能力上有所下降,比如如何制作使用管制刀具這類問題。

      官方的對齊評估結論是,這個模型“基本對齊且值得信賴,但行為上還不完全理想”。

      價格方面,Opus 4.7和Opus 4.6保持一致。輸入每百萬token 5美元,輸出每百萬token 25美元。

      但遷移指南里提到了兩個成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強思考模式下,尤其是agent的多輪對話,模型會思考更多,輸出的token也可能更多。

      所以這就是Anthropic耍小心思的地方了,名義上價格確實沒變,但跑多了就會變貴。

      過去模型計費主要看輸入輸出長度,現在還要看思考的等級、任務預算、agent跑了幾輪、工具失敗后有沒有繼續推理。

      Anthropic新增的x-high effort和task budgets,說明高端模型的使用方式正在走當年云計算的那套邏輯。你買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務過程付費。

      02

      Anthropic為何會發布閹割模型?

      話又說回來,Opus 4.7的真正賣點之一,恰恰是它沒有完全釋放能力。

      這聽起來有點反直覺,但可能是下一代模型公司的常態。

      模型越接近真實生產環境,越不能只追求更強。它要知道哪些事能做、哪些事不能做、哪些用戶能開放更多權限,哪些請求必須攔住。

      Anthropic在發布Opus 4.7的同時,推出了Cyber Verification Program。

      這個項目本質上是在給能力分級。普通用戶拿到的是有護欄的Opus,經過驗證的安全專家才能申請更寬的網絡安全用途。

      模型會自動檢測和阻止那些表明禁止或高風險網絡安全用途的請求。

      Anthropic說,他們會從Opus 4.7的真實部署中學習,為未來Mythos級別模型的廣泛發布做準備。

      不得不說還是Anthropic會玩,他們認為Opus目前的能力是過剩的,所以他們就把安全這件事,變成了產品能力。

      過去幾年,AI公司的競爭邏輯是“我比你強”。跑分更高、參數更多、能做的事更復雜。但當模型能力達到某個臨界點后,這個邏輯開始失效。

      一個在網絡安全測試中表現太好的模型,可能意味著它也能被惡意使用。一個完全不設限的agent,就有可能會在用戶不知情的情況下做出危險決策。

      Anthropic選擇的路徑是,先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到,而是主動選擇不做。這種“克制”本身成了產品差異化的一部分。

      這個策略能不能成功,取決于市場是否認可“謹慎”這個概念。

      如果用戶只在乎“能不能做到”,那Anthropic的做法會顯得保守。但如果企業客戶開始重視“會不會出事”,那這種分級發布、主動削弱某些能力的做法,反而可能成為競爭優勢。

      在發布Opus 4.7的同時,Anthropic還更新了Claude Code,新增了auto mode和/ultrareview功能。

      auto mode不是模型自動選型,而是權限選項。它允許Claude替用戶做一些權限決策,讓長任務少被打斷,但風險低于完全跳過權限確認。

      這個設計針對的是agent產品的核心矛盾:問太多,agent像實習生;不問,風險又太大。

      agent時代最難設計的按鈕,不是“開始”,而是“允許”。

      過去AI只是回答問題,權限很少。

      現在它要改代碼、讀文件、跑命令、開網頁、提交PR,每一步都牽涉風險。

      如果每個操作都要用戶確認,agent的自主性就失去了意義。但如果完全放手,用戶又會擔心AI做出不可逆的錯誤決策。

      auto mode的本質,就是在“別煩我”和“別亂來”之間找平衡。

      它會根據操作的風險級別,決定是自動執行、提示用戶、還是要求明確授權。

      這也是agent從“能干什么”,到“能不能用”之間巨大的飛躍。

      /ultrareview是一個專門的代碼審查會話,讀取變更并指出bug和設計問題。

      這個功能可比寫代碼好玩多了,因為它說明AI編程正式進入了第二階段,讓AI自己審查AI自己生成的代碼。

      AI寫代碼已經不稀奇,真正稀缺的是AI能不能審自己的代碼。

      /ultrareview像是Anthropic給Claude Code補上的第二雙眼睛。

      一個agent負責寫,另一個更謹慎的會話負責審。

      不用看數據我都能猜到,這兩個功能一定是高頻功能。因為本質上,這兩個功能過去就是所有使用Claude Code的程序員干的活。

      生成代碼只是開發流程的一部分,審查、測試、重構、文檔同樣重要。如果AI只能做第一步,它永遠只是輔助工具。如果它能參與整個流程,它才可能真正改變軟件開發的方式。

      這次發布還有一個細節值得注意。官方在遷移指南里專門提醒廣大用戶,Opus 4.7的token使用可能增加,但在實際編程評估中,整體效率反而提升了。

      這說明他們在優化的不是單次調用的成本,而是完成任務的總成本。一個agent如果第一次就把事情做對,即使單次調用貴一點,總成本也比反復試錯要低。

      這是一種更成熟的產品思路。早期AI產品追求的是“便宜”和“快”,現在開始追求“靠譜”。

      Opus 4.7不是最強的模型,Anthropic也沒有把它包裝成最強的模型。

      它是在能力、安全、成本之間的一個平衡點。但是說它是不是真的平衡,我不知道,這個要等市場來驗證。

      至少在發布策略上,Anthropic給出了一種新思路,因為有時候“不做什么”比“能做什么”更重要。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      豆瓣8.9,夯爆了

      豆瓣8.9,夯爆了

      來看美劇
      2026-05-08 18:20:41
      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      欠了快400億,罵了整十年,華西村硬是靠一筆意外投資活過來了

      小莜讀史
      2026-05-07 19:10:59
      錯失冠軍僅一天,墨菲銳評吳宜澤,信息量大,原來奧沙利文沒說錯

      錯失冠軍僅一天,墨菲銳評吳宜澤,信息量大,原來奧沙利文沒說錯

      丁蓳解說
      2026-05-06 21:59:40
      老年癡呆癥的前兆,經常會說4句“口頭禪”,對照下看你中了幾條

      老年癡呆癥的前兆,經常會說4句“口頭禪”,對照下看你中了幾條

      芹姐說生活
      2026-05-07 15:58:19
      國足已連續14次參加亞洲杯,連續參賽紀錄位列賽會歷史第二

      國足已連續14次參加亞洲杯,連續參賽紀錄位列賽會歷史第二

      懂球帝
      2026-05-08 17:53:58
      河南籍演員北京聚餐!一眼望去熟人滿滿,李亞鵬岳云鵬劉震云都在

      河南籍演員北京聚餐!一眼望去熟人滿滿,李亞鵬岳云鵬劉震云都在

      天天熱點見聞
      2026-05-08 04:32:33
      誰都不敢相信,打了四年的俄烏戰爭,居然會以這種方式停戰了!

      誰都不敢相信,打了四年的俄烏戰爭,居然會以這種方式停戰了!

      別人都叫我阿腈
      2026-05-08 10:57:36
      59:0!7800億軍購案通過,這兩人力勸鄭麗文,季麟連尷尬了

      59:0!7800億軍購案通過,這兩人力勸鄭麗文,季麟連尷尬了

      阿芒娛樂說
      2026-05-08 20:23:18
      41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

      41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

      胖胖侃咖
      2025-05-10 08:00:08
      人民日報發文,揭開鄭麗文直播帶貨真相,靳東擔心的事還是發生了

      人民日報發文,揭開鄭麗文直播帶貨真相,靳東擔心的事還是發生了

      調侃國際觀點
      2026-05-08 08:59:54
      字節是怎么虧掉200億美元的?

      字節是怎么虧掉200億美元的?

      36氪財經
      2026-05-08 16:05:33
      國足有望再添新丁!中超大腿級外援主動暗送秋波,球迷:趕緊安排

      國足有望再添新丁!中超大腿級外援主動暗送秋波,球迷:趕緊安排

      足球大腕
      2026-05-08 19:46:13
      高三停電晚自習,我偷親了女同桌,四年后重逢,她問:還親嗎?

      高三停電晚自習,我偷親了女同桌,四年后重逢,她問:還親嗎?

      星宇共鳴
      2026-03-04 09:19:14
      男子甲醇中毒失明 向白酒提供者索賠123萬 法院駁回:其只飲用了不到2杯 飲用超10斤才能達最低中毒劑量

      男子甲醇中毒失明 向白酒提供者索賠123萬 法院駁回:其只飲用了不到2杯 飲用超10斤才能達最低中毒劑量

      閃電新聞
      2026-05-07 16:26:17
      商業航天稀缺高毛利:張素芬重倉1家,社保加倉3家,最長橫盤2年

      商業航天稀缺高毛利:張素芬重倉1家,社保加倉3家,最長橫盤2年

      長風價值掘金
      2026-05-08 17:34:01
      吳宜澤奪冠爆火,因籍貫問題引兩省網友爭論,姐姐給出了準確回應

      吳宜澤奪冠爆火,因籍貫問題引兩省網友爭論,姐姐給出了準確回應

      胡一舸南游y
      2026-05-07 20:39:43
      場均3+2+1!合同大能力弱,火箭32歲鋒線難交易?買斷不如自用

      場均3+2+1!合同大能力弱,火箭32歲鋒線難交易?買斷不如自用

      熊哥愛籃球
      2026-05-08 21:24:36
      演員陳學冬:11部作品被下架,兩年4次手術,今35歲生活無法自理

      演員陳學冬:11部作品被下架,兩年4次手術,今35歲生活無法自理

      以茶帶書
      2026-04-03 19:40:21
      網傳高校一線教師不合格率高達22%,而行政人員全員合格!

      網傳高校一線教師不合格率高達22%,而行政人員全員合格!

      趣筆談
      2026-05-08 10:56:55
      恩里克邀請球員們去巴黎一家餐廳慶祝其56歲生日,但本人沒去

      恩里克邀請球員們去巴黎一家餐廳慶祝其56歲生日,但本人沒去

      懂球帝
      2026-05-08 06:29:27
      2026-05-08 21:47:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數 8062關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      頭條要聞

      "大衣哥"再度翻紅:五一假期3天跑5場 累到"要保命"

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      特朗普全球關稅又受阻,也能退款?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      游戲
      本地
      藝術
      手機
      軍事航空

      IGN滿分游戲《混音青春》發售 Steam好評如潮

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      手機要聞

      大疆Osmo Pocket 4P開啟預約

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩国产乱码一区中文字幕| 东京热一区二区三区无码视频 | 99久久人妻精品免费二区| 少妇人妻久久无码专区| 精品97国产免费人成视频| 亚洲专区久久| 99福利性视频日韩| 日日噜噜噜噜人人爽亚洲精品| 亚洲电影一区二区三区| 00色视频在线| 最近中文字幕免费mv在线视频 | 激情综合色综合久久综合| 国产AV第一页| 九九热免费在线视频| 激情五月综合网| 久章草在线精品视频免费观看| 夜色福利院在线观看免费| 另类一区| 国产精品久久精品| 国产日韩av在线播放| 国产激情免费视频在线观看| 一级做a爰片久久毛片下载| 久久国产无码| 中文国产成人精品久久水| 亚洲美女视频一区| 欧美猛交ⅹxxx乱大交视频| 国产h视频在线观看视频| 无码视频网站| 丰满少妇被粗大猛烈进人高清| 欧美交a欧美精品喷水| 亚洲国产精品久久久久秋霞| 青青草原精品资源站久久| 精品亚洲国产成人av| 亚洲无码中出| 成人影片在线观看网站18| 国产91?在线播放九色潘多| 欧美日韩一二三区高在线| 一本一道波多野结衣一区二区| 亚洲成av人片在线观看天堂无码| 欧美日韩另类国产| 国产高清精彩视频自拍|