網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，GPT-5.5 發(fā)布！Claude Code 連夜治好降智，「奧特曼癱倒」喜提續(xù)集

2026-04-24 06:50:58　來(lái)源: AppSo

廣東舉報(bào)

分享至

據(jù)外媒 Business Insider 報(bào)道，Anthropic 在私募二級(jí)市場(chǎng)的估值已突破 1 萬(wàn)億美元。作為參照，OpenAI 今年 3 月末最新一輪融資的估值，仍停留在 8520 億美元。

除了業(yè)內(nèi)老生常談的「AI 泡沫論」，這組對(duì)比數(shù)據(jù)也表明了曾經(jīng)穩(wěn)坐頭把交椅的 OpenAI，如今正在直面被追趕、被超越的壓力，但沒(méi)有讓我們等待多久，OpenAI 的反擊旋即而至。

就在剛剛，GPT-5.5 正式發(fā)布，同步亮相的還有面向更高階任務(wù)的 GPT-5.5 Pro 版本。

如果用一句話總結(jié) GPT-5.5 的核心設(shè)計(jì)思路，那就是讓用戶把一團(tuán)雜亂、多步驟的復(fù)雜任務(wù)直接拋給模型，由它自主規(guī)劃路徑、調(diào)用工具、校驗(yàn)結(jié)果、消解歧義，并一路推進(jìn)。

看似只是 0.1 的版本號(hào)迭代，在推理效率上卻判若大版本更新——同樣的 Codex 任務(wù)，GPT-5.5 消耗的 token 顯著更少，既更聰明，也更省。

吐槽了一個(gè)多月，偏偏等到 GPT-5.5 發(fā)布，Anthropic 才想起要解決降智問(wèn)題

GPT-5.5 登場(chǎng)，不講武德的屠榜

GPT-5.5 的紙面成績(jī)非常可觀。

在知名第三方評(píng)測(cè)機(jī)構(gòu) Artificial Analysis 的綜合智能指數(shù)榜單上，OpenAI 憑借 GPT-5.5 系列拿下了第一名和第二名，前六席中包攬了四席，競(jìng)爭(zhēng)對(duì)手幾乎毫無(wú)招架之力。

基準(zhǔn)測(cè)試結(jié)果顯示，在 Terminal-Bench 2.0（測(cè)試復(fù)雜命令行工作流）上，GPT-5.5 達(dá)到 82.7%，GPT-5.4 為 75.1%，Claude Opus 4.7 為 69.4%。

在 SWE-Bench Pro（評(píng)估真實(shí) GitHub 問(wèn)題解決能力）上，GPT-5.5 達(dá)到 58.6%，能在單次運(yùn)行中端到端完成更多任務(wù)，超過(guò) GPT-5.4 的 57.7%。

在 OpenAI 內(nèi)部的 Expert-SWE 評(píng)測(cè)上，任務(wù)的人類預(yù)計(jì)完成時(shí)間中位數(shù)為 20 小時(shí)，GPT-5.5 達(dá)到 73.1%，GPT-5.4 為 68.5%。且在三項(xiàng)評(píng)測(cè)上，GPT-5.5 均以更少 token 完成任務(wù)。

只不過(guò)，OpenAI 這次也玩起了腳注里的小心思，用一行小字暗戳戳質(zhì)疑 Claude Opus 4.7 部分成績(jī)的可信度。但網(wǎng)友 Deedy 對(duì)此并不買賬，在他看來(lái)，這行備注更像是轉(zhuǎn)移注意力 —— 畢竟 OpenAI 自己也沒(méi)能拿出一套更透明的公開基準(zhǔn)，正面佐證 GPT-5.5 的實(shí)力。

在智能體編碼、computer use（計(jì)算機(jī)使用）、知識(shí)工作和早期科學(xué)研究等領(lǐng)域，GPT-5.5 的提升尤為顯著。

早期測(cè)試者反饋，GPT-5.5 在理解大型代碼庫(kù)整體結(jié)構(gòu)方面明顯更強(qiáng)，能主動(dòng)預(yù)判潛在問(wèn)題，提前考慮測(cè)試和審查需求，無(wú)需額外提示。

知名評(píng)測(cè)博主、Every 創(chuàng)始人 Dan Shipper 分享了一個(gè)具體案例：他的應(yīng)用上線后出現(xiàn)問(wèn)題，自己調(diào)試數(shù)天未果，最終請(qǐng)來(lái)工程師重寫了部分系統(tǒng)。他用 GPT-5.5 重現(xiàn)這一場(chǎng)景，結(jié)果模型給出了與工程師相同的解決思路，而 GPT-5.4 則無(wú)能為力。

Cursor 聯(lián)合創(chuàng)始人 Michael Truell 表示，GPT-5.5 比 GPT-5.4 更聰明、更有韌性，工具調(diào)用更可靠，面對(duì)復(fù)雜長(zhǎng)期任務(wù)時(shí)能堅(jiān)持更久而不中途停下。

更夸張的是，一位英偉達(dá)工程師在早期體驗(yàn)后直言：「失去 GPT-5.5 的訪問(wèn)權(quán)限，感覺(jué)就像是我的肢體被截肢了一樣。」

如無(wú)意外，又一個(gè)名梗的誕生

（哈？？）不過(guò)，考慮到奧特曼看完 GPT-5 演示之后，直接「眩暈無(wú)力、癱倒在地」，而且這件事到今天也沒(méi)有一個(gè)正經(jīng)解釋，英偉達(dá)工程師這句話，好像也沒(méi)那么夸張了。

而在知識(shí)工作場(chǎng)景，GPT-5.5 也有著出色的表現(xiàn)。

在衡量模型橫跨 44 種職業(yè)知識(shí)工作能力的 GDPval 評(píng)測(cè)中，GPT-5.5 獲勝或打平比例達(dá) 84.9%，GPT-5.4 為 83.0%，Claude Opus 4.7 為 80.3%，Gemini 3.1 Pro 僅 67.3%。

在 OSWorld-Verified（測(cè)試模型能否自主操作真實(shí)計(jì)算機(jī)環(huán)境）上，GPT-5.5 達(dá)到 78.7%，GPT-5.4 為 75.0%，Claude Opus 4.7 為 78.0%。

在 Tau2-bench Telecom（測(cè)試復(fù)雜客服工作流）上，GPT-5.5 在無(wú)提示詞調(diào)整的情況下達(dá)到 98.0%，GPT-5.4 為 92.8%，差距相當(dāng)明顯。

在其他專項(xiàng)評(píng)測(cè)上，GPT-5.5 在 FinanceAgent v1.1 達(dá)到 60.0%，內(nèi)部投行建模任務(wù)達(dá)到 88.5%，OfficeQA Pro 達(dá)到 54.1%（Claude Opus 4.7 為 43.6%，Gemini 3.1 Pro 僅為 18.1%）。

在 BixBench（圍繞真實(shí)生物信息學(xué)和數(shù)據(jù)分析設(shè)計(jì)）上，GPT-5.5 達(dá)到 80.5%，GPT-5.4 為 74.0%，在已發(fā)布分?jǐn)?shù)的模型中排名第一。在 GeneBench（測(cè)試遺傳學(xué)和定量生物學(xué)的多階段數(shù)據(jù)分析）上，GPT-5.5 達(dá)到 25.0%，GPT-5.4 為 19.0%，Pro 版本達(dá)到 33.2%。這些任務(wù)通常對(duì)應(yīng)科學(xué)專家數(shù)天的工作量。

OpenAI 內(nèi)部有超過(guò) 85% 的員工每周使用 Codex，覆蓋軟件工程、財(cái)務(wù)、傳播、市場(chǎng)、數(shù)據(jù)科學(xué)和產(chǎn)品管理等部門。

財(cái)務(wù)團(tuán)隊(duì)用 GPT-5.5 審查了 24771 份 K-1 稅務(wù)文件，共計(jì) 71637 頁(yè)，最終比上一年提前兩周完成。傳播團(tuán)隊(duì)打造了一套自動(dòng)化 Slack 機(jī)器人，負(fù)責(zé)處理低風(fēng)險(xiǎn)請(qǐng)求自動(dòng)處理，市場(chǎng)團(tuán)隊(duì)的一名員工則用它自動(dòng)生成每周業(yè)務(wù)報(bào)告，每周節(jié)省 5 到 10 小時(shí)。

此外，GPT-5.5 的一大亮點(diǎn)還在于推理基礎(chǔ)設(shè)施的協(xié)同升級(jí)。

GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統(tǒng)聯(lián)合設(shè)計(jì)和訓(xùn)練。其中一項(xiàng)關(guān)鍵改進(jìn)是負(fù)載均衡和分區(qū)策略，Codex 分析了數(shù)周的生產(chǎn)流量數(shù)據(jù)，編寫了自定義啟發(fā)式算法來(lái)動(dòng)態(tài)優(yōu)化分區(qū)和負(fù)載均衡，最終將 token 生成速度提升了超過(guò) 20%。

OpenAI 還指出，GPT-5.5 本身也參與了改進(jìn)自身推理基礎(chǔ)設(shè)施的過(guò)程。

GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用戶開放，Codex 支持最高 400K 上下文窗口，并提供 1.5 倍速的 Fast 模式（費(fèi)用為標(biāo)準(zhǔn)價(jià)格的 2.5 倍）。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 用戶推出。

API 版本即將上線，標(biāo)準(zhǔn)定價(jià)為每百萬(wàn)輸入 token 5 美元、每百萬(wàn)輸出 token 30 美元，上下文窗口為 1M token。批量處理和彈性定價(jià)為標(biāo)準(zhǔn)價(jià)格的一半，優(yōu)先處理模式為標(biāo)準(zhǔn)價(jià)格的 2.5 倍。

GPT-5.5 Pro 的 API 定價(jià)為每百萬(wàn)輸入 token 30 美元、每百萬(wàn)輸出 token 180 美元。OpenAI 表示，由于 token 效率的提升，大多數(shù)用戶的實(shí)際使用成本不會(huì)有明顯增加。閉口不提 Claude Opus 4.7，卻句句都在內(nèi)涵。

OpenAI 要做 AI 時(shí)代的超級(jí)入口

沒(méi)有哪一款模型能收獲一邊倒的評(píng)價(jià)，GPT-5.5 同樣如此。網(wǎng)友 @chetaslua 用一條提示詞在 Codex 中生成了一個(gè)帶有風(fēng)效應(yīng)物理引擎的完整網(wǎng)站，物理交互和界面設(shè)計(jì)一并到位，感嘆「這是我第一次覺(jué)得 ChatGPT 可以成為解決一切問(wèn)題的首選 AI 工具」。

網(wǎng)友 @petergostev 讓模型生成了一個(gè)包含倫敦地標(biāo)和季節(jié)變化的玩具鐵路場(chǎng)景，與 GPT-5.4 的輸出對(duì)比后，他的結(jié)論是「GPT-5.5 更有野心、一致性更強(qiáng)，錯(cuò)誤更少」，并在更復(fù)雜的應(yīng)用遷移任務(wù)中讓模型連續(xù)工作數(shù)小時(shí)，沒(méi)有出現(xiàn)卡殼。

當(dāng)然，吐槽的聲音同樣存在。網(wǎng)友 @arrakis_ai 發(fā)現(xiàn)，GPT-5.5 在遇到復(fù)雜布局時(shí)有時(shí)會(huì)直接生成一張圖片了事，處理圖標(biāo)需求時(shí)會(huì)從頭硬寫 SVG 而不調(diào)用現(xiàn)成庫(kù)，同時(shí)頻繁暫停追問(wèn)用戶，執(zhí)行力反而不如從前果斷。

文筆方面，我的個(gè)人體驗(yàn)也有類似感受。GPT-5.5 確實(shí)比前代更會(huì)組織語(yǔ)言了，至少已經(jīng)能說(shuō)點(diǎn)人話，但依然有一股怪味：「我就在這里，不躲，不藏，不繞，不逃，穩(wěn)穩(wěn)地接住你」。

并且，不少網(wǎng)友也注意到，OpenAI 在基準(zhǔn)測(cè)試榜單上也動(dòng)了些營(yíng)銷的心思。

網(wǎng)友 Haider 認(rèn)為，GPT-5.5 和 Mythos 的差距沒(méi)有預(yù)想的那么懸殊，而 Mythos 定價(jià)是 GPT-5.5 的兩倍，且不公開發(fā)售。他的判斷是，下一代 GPT 趕上 Mythos 應(yīng)該問(wèn)題不大。

據(jù)外媒 Techcrunch 報(bào)道，面對(duì)記者關(guān)于「GPT-5.5 是否具備類似 Mythos 能力」的刺探時(shí)，OpenAI 技術(shù)人員 Mia Glaese 給出了一個(gè)滴水不漏卻暗藏鋒芒的回答：「我們?cè)诰W(wǎng)絡(luò)安全方面有著長(zhǎng)期且強(qiáng)有力的戰(zhàn)略，并且已經(jīng)完善了一套持久的、安全推出模型的方法。」

話外之音已經(jīng)十分明朗：?jiǎn)我坏膹?qiáng)大模型終究只是過(guò)客。真到了拼數(shù)字防御和企業(yè)級(jí)落地的深水區(qū)，OpenAI 的生態(tài)壁壘，才是 B 端客戶唯一穩(wěn)妥的安全牌。

而隨著 GPT-5.5 的登場(chǎng)，OpenAI 的野心已經(jīng)足夠清晰：他們不再滿足于做一個(gè)聰明的聊天機(jī)器人，而是要親手打造一個(gè)吞噬一切工作流的「AI 超級(jí)應(yīng)用（Super app）」。

在接受外媒采訪時(shí)，OpenAI 總裁 Greg Brockman 用了一個(gè)詞「自主性（Agentic）」來(lái)形容這次模型的進(jìn)步跨越。與前代模型 GPT-5.4 版本相比，GPT-5.5 消耗的 Token 更少，但思考速度更快、邏輯更清晰，開始展現(xiàn)出主動(dòng)解決復(fù)雜問(wèn)題的能力。

這正是邁向超級(jí)應(yīng)用的堅(jiān)實(shí)底座。

奧特曼今晚異常興奮，還更換頭像了

所謂超級(jí)應(yīng)用，便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統(tǒng)一服務(wù)。想象未來(lái)的工作流：人們不必再在瀏覽器、代碼編輯器、數(shù)據(jù)分析工具之間反復(fù)切換。只需對(duì)著這個(gè)超級(jí)應(yīng)用下達(dá)一個(gè)宏觀指令，GPT-5.5 就能自主在后臺(tái)打開網(wǎng)頁(yè)搜集資料、編寫爬蟲代碼、清洗數(shù)據(jù)，最終直接交付一份完整的分析報(bào)告。

當(dāng)然，猶如 Claude 與 Claude Code 的強(qiáng)綁定，OpenAI 也意在替 Codex 的增長(zhǎng)勢(shì)頭加一把火。最近，奧特曼表示，Codex 活躍用戶在突破 300 萬(wàn)不到兩周后便直逼 400 萬(wàn)大關(guān)，OpenAI 隨之重置速率限制，以「量大管飽」的姿態(tài)收割開發(fā)者生態(tài)。

一方面，憑借 GPT-5.5 與 GPT-Image-2 的強(qiáng)勢(shì)表現(xiàn)，正面回?fù)袅?Anthropic 在估值預(yù)期上的壓力；另一方面，則利用 Codex 的生態(tài)粘性緊鎖開發(fā)者陣地，穩(wěn)步構(gòu)筑起橫跨 C 端消費(fèi)與 B 端企業(yè)級(jí)服務(wù)的完整服務(wù)體系。

攻守之勢(shì)異也，今年以來(lái)被詬病掉隊(duì)的 OpenAI，終于重新找回兩年前的進(jìn)攻節(jié)奏，并將精力放在了踏踏實(shí)實(shí)打磨產(chǎn)品上。

附上 OpenAI 官方博客地址：

https://openai.com/index/introducing-gpt-5-5/

*封面由 AI 生成

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.