網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude Opus 4.7 來了，編程能力又炸了

2026-04-16 23:40:28　來源: Ai學(xué)習(xí)的老章

北京舉報

分享至

今天繼續(xù)聊 Claude —— Anthropic 剛剛正式發(fā)布了 Claude Opus 4.7，編程能力這次又是一次暴擊

Benchmark 一覽

下圖是 Anthropic 給出的跨領(lǐng)域 benchmark 對比，Opus 4.7 在大多數(shù)任務(wù)上超過了 Opus 4.6，以及 GPT-5.4 和 Gemini 3.1 Pro：

Claude Opus 4.7 跨領(lǐng)域 Benchmark 對比它比 Opus 4.6 強(qiáng)在哪？

Anthropic 官方說，Opus 4.7 在高級軟件工程上是 Opus 4.6 的「顯著提升」，尤其是在那些最難的任務(wù)上

這話我本來要打個折，但看了一圈測試用戶的反饋之后，我信了

幾個讓我印象深刻的數(shù)據(jù)：

Cursor ：在 93 個編程任務(wù)的 benchmark 上，任務(wù)解決率比 Opus 4.6 **提升了 13%**，包括 4 個 Opus 4.6 和 Sonnet 4.6 都搞不定的任務(wù)
Rakuten ：在 SWE-bench 上，Opus 4.7 解決的真實(shí)生產(chǎn) bug 是 Opus 4.6 的 3 倍 。
XBOW（自主滲透測試） ：視覺準(zhǔn)確性從 Opus 4.6 的 54.5% 直接干到 **98.5%**，這簡直是量變引發(fā)質(zhì)變
Notion ：工具調(diào)用準(zhǔn)確率和規(guī)劃能力提升超過 **10%**，更難得的是，它是第一個通過隱式需求測試（implicit-need tests）的模型

視覺能力：分辨率翻了 3 倍多

這次 Opus 4.7 的視覺升級幅度相當(dāng)大

之前的 Claude 模型能接受的圖片分辨率，現(xiàn)在 Opus 4.7 可以接受最長邊 2,576 像素（約 3.75 百萬像素），是之前版本的 3 倍以上

這意味著什么？

讀密集截圖的 computer-use agent，再也不會因?yàn)槲淖痔】床磺宥鲥e
從復(fù)雜圖表里提取數(shù)據(jù)，精度大幅提升
科學(xué)、法律文檔里那些需要像素級精準(zhǔn)的工作，終于能干了

來自 Solve Intelligence（生命科學(xué)專利工作流）的反饋印證了這一點(diǎn)：從化學(xué)結(jié)構(gòu)式到復(fù)雜技術(shù)圖紙，理解能力大幅躍升

注意這是模型層面的變化，不是 API 參數(shù)，圖片會自動以更高精度處理。但因?yàn)楦叻直媛蕡D片消耗 token 更多，如果你不需要那么高的精度，可以在發(fā)送前先降采樣

指令遵循：這次是認(rèn)真的

Opus 4.7 在指令遵循上大幅提升

聽起來是好事，但 Anthropic 自己也提醒了：之前給舊模型寫的 prompt，有時候會跑出意外結(jié)果——因?yàn)榕f模型對指令是「松散理解」甚至跳過某些部分，現(xiàn)在 Opus 4.7 是字面意思照單全收

所以如果你是 API 用戶，升級前最好重新審視一下你的 prompt，該精確的地方要精確，該刪掉的廢話要刪掉

新功能：xhigh 努力等級

Opus 4.7 引入了全新的 xhigh（extra high）努力等級，介于原來的 high 和 max 之間

這給用戶提供了更細(xì)粒度的控制：在硬問題上，你可以選擇在「思考質(zhì)量」和「響應(yīng)延遲」之間找到更合適的平衡點(diǎn)

在 Claude Code 里，現(xiàn)在默認(rèn)把所有計(jì)劃的努力等級提升到了 xhigh

官方建議在編程和 Agent 場景下測試時，從 high 或 xhigh 開始

下圖是不同努力等級下，token 使用量和任務(wù)得分的關(guān)系：

不同努力等級下的 token 使用量與任務(wù)得分對比網(wǎng)絡(luò)安全：先邁一步，但很謹(jǐn)慎

Anthropic 上周公布了 Project Glasswing，直面 AI 在網(wǎng)絡(luò)安全領(lǐng)域的兩面性——風(fēng)險與機(jī)遇。

Opus 4.7 是 Glasswing 框架下第一個正式落地的模型，它的網(wǎng)絡(luò)安全能力不如 Claude Mythos Preview（目前最強(qiáng)的 Anthropic 模型），Anthropic 在訓(xùn)練階段專門做了差異化處理，有意限制了部分網(wǎng)絡(luò)安全能力

同時，Opus 4.7 配備了自動檢測和攔截高危網(wǎng)絡(luò)安全請求的防護(hù)機(jī)制

真正有合法需求的安全研究人員、滲透測試工程師，可以通過 Cyber Verification Program 加入白名單

這條路子我覺得挺對的：先在能力較弱的模型上驗(yàn)證防護(hù)機(jī)制是否有效，積累經(jīng)驗(yàn)后，再逐步向更強(qiáng)的 Mythos 級別模型開放

安全性測評
Claude Opus 4.7 行為審計(jì)評分

在安全對齊方面，Opus 4.7 和 Opus 4.6 整體差不多——欺騙行為、諂媚、濫用配合率都處于低水平

部分維度（比如誠實(shí)性、對抗 prompt 注入攻擊）比 4.6 有改進(jìn)，少數(shù)地方（比如有害物質(zhì)信息的過度詳細(xì)回復(fù)）略微退步

整體結(jié)論：「大體對齊、基本可信，但還沒達(dá)到理想狀態(tài)」

Mythos Preview 依然是 Anthropic 目前對齊效果最好的模型

價格 & 可用性

好消息：價格不變，和 Opus 4.6 一樣：

輸入：**$5 / 百萬 tokens**
輸出：**$25 / 百萬 tokens**

支持平臺：

Claude 全產(chǎn)品線
Claude API（模型 ID： claude-opus-4-7 ）
Amazon Bedrock
Google Cloud Vertex AI
Microsoft Foundry

還有這些新東西一起上

隨 Opus 4.7 一起發(fā)布的還有幾個配套更新：

/ultrareview 命令 （Claude Code）：一鍵啟動深度代碼審查，像一個認(rèn)真的 reviewer 一樣幫你找 bug 和設(shè)計(jì)問題，Pro 和 Max 用戶各有 3 次免費(fèi)試用額度。
Task Budgets（公測） （API）：給開發(fā)者一個新機(jī)制，引導(dǎo) Claude 在長任務(wù)中合理分配 token 預(yù)算，避免前緊后松或前松后緊
Auto Mode 擴(kuò)展 ：Max 用戶現(xiàn)在也可以開啟 Auto Mode，讓 Claude 在長任務(wù)里自主決策權(quán)限請求，減少中斷

升級注意事項(xiàng)

如果你在生產(chǎn)上用 Opus 4.6，升級到 4.7 有兩個點(diǎn)要注意：

新 tokenizer ：同樣的輸入，token 數(shù)大約會增加 1.0–1.35 倍 ，取決于內(nèi)容類型
更高努力等級下思考更多 ：尤其是 Agent 場景的后續(xù)對話輪次，輸出 token 會增加

Anthropic 提供了遷移指南，建議先在真實(shí)流量上測一下差異

總結(jié)

Opus 4.7 的核心關(guān)鍵詞：編程更強(qiáng)、視覺更清、指令更準(zhǔn)、安全更嚴(yán)

如果你是：

Claude Code 用戶 ：直接用，默認(rèn)已升級到 xhigh 努力等級，新的 /ultrareview 也很值得試
API 開發(fā)者 ：記得重新調(diào) prompt，關(guān)注 token 用量變化，遷移指南先讀一遍
網(wǎng)絡(luò)安全從業(yè)者 ：有合法需求的走 Cyber Verification Program

最讓我感興趣的其實(shí)是這個關(guān)于「更好同事」的描述——一個會在技術(shù)討論中反駁你、幫你做出更好決定的 AI

這可能才是 AI 應(yīng)該有的樣子，不是附和你，是真的幫你。

制作不易，如果這篇文章覺得對你有用，可否點(diǎn)個關(guān)注。給我個三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.