據(jù)外媒 Business Insider 報(bào)道,Anthropic 在私募二級(jí)市場(chǎng)的估值已突破 1 萬(wàn)億美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。
除了業(yè)內(nèi)老生常談的「AI 泡沫論」,這組對(duì)比數(shù)據(jù)也表明了曾經(jīng)穩(wěn)坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒(méi)有讓我們等待多久,OpenAI 的反擊旋即而至。
![]()
就在剛剛,GPT-5.5 正式發(fā)布,同步亮相的還有面向更高階任務(wù)的 GPT-5.5 Pro 版本。
如果用一句話總結(jié) GPT-5.5 的核心設(shè)計(jì)思路,那就是讓用戶把一團(tuán)雜亂、多步驟的復(fù)雜任務(wù)直接拋給模型,由它自主規(guī)劃路徑、調(diào)用工具、校驗(yàn)結(jié)果、消解歧義,并一路推進(jìn)。
看似只是 0.1 的版本號(hào)迭代,在推理效率上卻判若大版本更新——同樣的 Codex 任務(wù),GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。
![]()
吐槽了一個(gè)多月,偏偏等到 GPT-5.5 發(fā)布,Anthropic 才想起要解決降智問(wèn)題
GPT-5.5 登場(chǎng),不講武德的屠榜
GPT-5.5 的紙面成績(jī)非常可觀。
在知名第三方評(píng)測(cè)機(jī)構(gòu) Artificial Analysis 的綜合智能指數(shù)榜單上,OpenAI 憑借 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競(jìng)爭(zhēng)對(duì)手幾乎毫無(wú)招架之力。
![]()
基準(zhǔn)測(cè)試結(jié)果顯示,在 Terminal-Bench 2.0(測(cè)試復(fù)雜命令行工作流)上,GPT-5.5 達(dá)到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。
在 SWE-Bench Pro(評(píng)估真實(shí) GitHub 問(wèn)題解決能力)上,GPT-5.5 達(dá)到 58.6%,能在單次運(yùn)行中端到端完成更多任務(wù),超過(guò) GPT-5.4 的 57.7%。
![]()
在 OpenAI 內(nèi)部的 Expert-SWE 評(píng)測(cè)上,任務(wù)的人類預(yù)計(jì)完成時(shí)間中位數(shù)為 20 小時(shí),GPT-5.5 達(dá)到 73.1%,GPT-5.4 為 68.5%。且在三項(xiàng)評(píng)測(cè)上,GPT-5.5 均以更少 token 完成任務(wù)。
![]()
只不過(guò),OpenAI 這次也玩起了腳注里的小心思,用一行小字暗戳戳質(zhì)疑 Claude Opus 4.7 部分成績(jī)的可信度。但網(wǎng)友 Deedy 對(duì)此并不買賬,在他看來(lái),這行備注更像是轉(zhuǎn)移注意力 —— 畢竟 OpenAI 自己也沒(méi)能拿出一套更透明的公開基準(zhǔn),正面佐證 GPT-5.5 的實(shí)力。
![]()
在智能體編碼、computer use(計(jì)算機(jī)使用)、知識(shí)工作和早期科學(xué)研究等領(lǐng)域,GPT-5.5 的提升尤為顯著。
早期測(cè)試者反饋,GPT-5.5 在理解大型代碼庫(kù)整體結(jié)構(gòu)方面明顯更強(qiáng),能主動(dòng)預(yù)判潛在問(wèn)題,提前考慮測(cè)試和審查需求,無(wú)需額外提示。
知名評(píng)測(cè)博主、Every 創(chuàng)始人 Dan Shipper 分享了一個(gè)具體案例:他的應(yīng)用上線后出現(xiàn)問(wèn)題,自己調(diào)試數(shù)天未果,最終請(qǐng)來(lái)工程師重寫了部分系統(tǒng)。他用 GPT-5.5 重現(xiàn)這一場(chǎng)景,結(jié)果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無(wú)能為力。
Cursor 聯(lián)合創(chuàng)始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具調(diào)用更可靠,面對(duì)復(fù)雜長(zhǎng)期任務(wù)時(shí)能堅(jiān)持更久而不中途停下。
更夸張的是,一位英偉達(dá)工程師在早期體驗(yàn)后直言:「失去 GPT-5.5 的訪問(wèn)權(quán)限,感覺(jué)就像是我的肢體被截肢了一樣。」
![]()
如無(wú)意外,又一個(gè)名梗的誕生
(哈??)不過(guò),考慮到奧特曼看完 GPT-5 演示之后,直接「眩暈無(wú)力、癱倒在地」,而且這件事到今天也沒(méi)有一個(gè)正經(jīng)解釋,英偉達(dá)工程師這句話,好像也沒(méi)那么夸張了。
![]()
而在知識(shí)工作場(chǎng)景,GPT-5.5 也有著出色的表現(xiàn)。
在衡量模型橫跨 44 種職業(yè)知識(shí)工作能力的 GDPval 評(píng)測(cè)中,GPT-5.5 獲勝或打平比例達(dá) 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。
在 OSWorld-Verified(測(cè)試模型能否自主操作真實(shí)計(jì)算機(jī)環(huán)境)上,GPT-5.5 達(dá)到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。
在 Tau2-bench Telecom(測(cè)試復(fù)雜客服工作流)上,GPT-5.5 在無(wú)提示詞調(diào)整的情況下達(dá)到 98.0%,GPT-5.4 為 92.8%,差距相當(dāng)明顯。
在其他專項(xiàng)評(píng)測(cè)上,GPT-5.5 在 FinanceAgent v1.1 達(dá)到 60.0%,內(nèi)部投行建模任務(wù)達(dá)到 88.5%,OfficeQA Pro 達(dá)到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。
在 BixBench(圍繞真實(shí)生物信息學(xué)和數(shù)據(jù)分析設(shè)計(jì))上,GPT-5.5 達(dá)到 80.5%,GPT-5.4 為 74.0%,在已發(fā)布分?jǐn)?shù)的模型中排名第一。在 GeneBench(測(cè)試遺傳學(xué)和定量生物學(xué)的多階段數(shù)據(jù)分析)上,GPT-5.5 達(dá)到 25.0%,GPT-5.4 為 19.0%,Pro 版本達(dá)到 33.2%。這些任務(wù)通常對(duì)應(yīng)科學(xué)專家數(shù)天的工作量。
OpenAI 內(nèi)部有超過(guò) 85% 的員工每周使用 Codex,覆蓋軟件工程、財(cái)務(wù)、傳播、市場(chǎng)、數(shù)據(jù)科學(xué)和產(chǎn)品管理等部門。
![]()
財(cái)務(wù)團(tuán)隊(duì)用 GPT-5.5 審查了 24771 份 K-1 稅務(wù)文件,共計(jì) 71637 頁(yè),最終比上一年提前兩周完成。傳播團(tuán)隊(duì)打造了一套自動(dòng)化 Slack 機(jī)器人,負(fù)責(zé)處理低風(fēng)險(xiǎn)請(qǐng)求自動(dòng)處理,市場(chǎng)團(tuán)隊(duì)的一名員工則用它自動(dòng)生成每周業(yè)務(wù)報(bào)告,每周節(jié)省 5 到 10 小時(shí)。
此外,GPT-5.5 的一大亮點(diǎn)還在于推理基礎(chǔ)設(shè)施的協(xié)同升級(jí)。
GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統(tǒng)聯(lián)合設(shè)計(jì)和訓(xùn)練。其中一項(xiàng)關(guān)鍵改進(jìn)是負(fù)載均衡和分區(qū)策略,Codex 分析了數(shù)周的生產(chǎn)流量數(shù)據(jù),編寫了自定義啟發(fā)式算法來(lái)動(dòng)態(tài)優(yōu)化分區(qū)和負(fù)載均衡,最終將 token 生成速度提升了超過(guò) 20%。
OpenAI 還指出,GPT-5.5 本身也參與了改進(jìn)自身推理基礎(chǔ)設(shè)施的過(guò)程。
GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用戶開放,Codex 支持最高 400K 上下文窗口,并提供 1.5 倍速的 Fast 模式(費(fèi)用為標(biāo)準(zhǔn)價(jià)格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 用戶推出。
![]()
API 版本即將上線,標(biāo)準(zhǔn)定價(jià)為每百萬(wàn)輸入 token 5 美元、每百萬(wàn)輸出 token 30 美元,上下文窗口為 1M token。批量處理和彈性定價(jià)為標(biāo)準(zhǔn)價(jià)格的一半,優(yōu)先處理模式為標(biāo)準(zhǔn)價(jià)格的 2.5 倍。
GPT-5.5 Pro 的 API 定價(jià)為每百萬(wàn)輸入 token 30 美元、每百萬(wàn)輸出 token 180 美元。OpenAI 表示,由于 token 效率的提升,大多數(shù)用戶的實(shí)際使用成本不會(huì)有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內(nèi)涵。
OpenAI 要做 AI 時(shí)代的超級(jí)入口
沒(méi)有哪一款模型能收獲一邊倒的評(píng)價(jià),GPT-5.5 同樣如此。網(wǎng)友 @chetaslua 用一條提示詞在 Codex 中生成了一個(gè)帶有風(fēng)效應(yīng)物理引擎的完整網(wǎng)站,物理交互和界面設(shè)計(jì)一并到位,感嘆「這是我第一次覺(jué)得 ChatGPT 可以成為解決一切問(wèn)題的首選 AI 工具」。
![]()
網(wǎng)友 @petergostev 讓模型生成了一個(gè)包含倫敦地標(biāo)和季節(jié)變化的玩具鐵路場(chǎng)景,與 GPT-5.4 的輸出對(duì)比后,他的結(jié)論是「GPT-5.5 更有野心、一致性更強(qiáng),錯(cuò)誤更少」,并在更復(fù)雜的應(yīng)用遷移任務(wù)中讓模型連續(xù)工作數(shù)小時(shí),沒(méi)有出現(xiàn)卡殼。
![]()
當(dāng)然,吐槽的聲音同樣存在。網(wǎng)友 @arrakis_ai 發(fā)現(xiàn),GPT-5.5 在遇到復(fù)雜布局時(shí)有時(shí)會(huì)直接生成一張圖片了事,處理圖標(biāo)需求時(shí)會(huì)從頭硬寫 SVG 而不調(diào)用現(xiàn)成庫(kù),同時(shí)頻繁暫停追問(wèn)用戶,執(zhí)行力反而不如從前果斷。
![]()
文筆方面, 我的個(gè)人體驗(yàn)也有類似感受。GPT-5.5 確實(shí)比前代更會(huì)組織語(yǔ)言了,至少已經(jīng)能說(shuō)點(diǎn)人話,但依然有一股怪味:「我就在這里,不躲,不藏,不繞,不逃, 穩(wěn)穩(wěn)地接住你 」。
并且, 不少網(wǎng)友也注意到,OpenAI 在基準(zhǔn)測(cè)試榜單上也動(dòng)了些營(yíng)銷的心思。
![]()
網(wǎng)友 Haider 認(rèn)為,GPT-5.5 和 Mythos 的差距沒(méi)有預(yù)想的那么懸殊,而 Mythos 定價(jià)是 GPT-5.5 的兩倍,且不公開發(fā)售。他的判斷是,下一代 GPT 趕上 Mythos 應(yīng)該問(wèn)題不大。
![]()
據(jù)外媒 Techcrunch 報(bào)道,面對(duì)記者關(guān)于「GPT-5.5 是否具備類似 Mythos 能力」的刺探時(shí),OpenAI 技術(shù)人員 Mia Glaese 給出了一個(gè)滴水不漏卻暗藏鋒芒的回答:「我們?cè)诰W(wǎng)絡(luò)安全方面有著長(zhǎng)期且強(qiáng)有力的戰(zhàn)略,并且已經(jīng)完善了一套持久的、安全推出模型的方法。」
話外之音已經(jīng)十分明朗:?jiǎn)我坏膹?qiáng)大模型終究只是過(guò)客。真到了拼數(shù)字防御和企業(yè)級(jí)落地的深水區(qū),OpenAI 的生態(tài)壁壘,才是 B 端客戶唯一穩(wěn)妥的安全牌。
而隨著 GPT-5.5 的登場(chǎng),OpenAI 的野心已經(jīng)足夠清晰:他們不再滿足于做一個(gè)聰明的聊天機(jī)器人,而是要親手打造一個(gè)吞噬一切工作流的「AI 超級(jí)應(yīng)用(Super app)」。
在接受外媒采訪時(shí),OpenAI 總裁 Greg Brockman 用了一個(gè)詞「自主性(Agentic)」來(lái)形容這次模型的進(jìn)步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現(xiàn)出主動(dòng)解決復(fù)雜問(wèn)題的能力。
這正是邁向超級(jí)應(yīng)用的堅(jiān)實(shí)底座。
![]()
奧特曼今晚異常興奮,還更換頭像了
所謂超級(jí)應(yīng)用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統(tǒng)一服務(wù)。想象未來(lái)的工作流:人們不必再在瀏覽器、代碼編輯器、數(shù)據(jù)分析工具之間反復(fù)切換。只需對(duì)著這個(gè)超級(jí)應(yīng)用下達(dá)一個(gè)宏觀指令,GPT-5.5 就能自主在后臺(tái)打開網(wǎng)頁(yè)搜集資料、編寫爬蟲代碼、清洗數(shù)據(jù),最終直接交付一份完整的分析報(bào)告。
當(dāng)然,猶如 Claude 與 Claude Code 的強(qiáng)綁定,OpenAI 也意在替 Codex 的增長(zhǎng)勢(shì)頭加一把火。最近,奧特曼表示,Codex 活躍用戶在突破 300 萬(wàn)不到兩周后便直逼 400 萬(wàn)大關(guān),OpenAI 隨之重置速率限制,以「量大管飽」的姿態(tài)收割開發(fā)者生態(tài)。
一方面,憑借 GPT-5.5 與 GPT-Image-2 的強(qiáng)勢(shì)表現(xiàn),正面回?fù)袅?Anthropic 在估值預(yù)期上的壓力;另一方面,則利用 Codex 的生態(tài)粘性緊鎖開發(fā)者陣地,穩(wěn)步構(gòu)筑起橫跨 C 端消費(fèi)與 B 端企業(yè)級(jí)服務(wù)的完整服務(wù)體系。
攻守之勢(shì)異也,今年以來(lái)被詬病掉隊(duì)的 OpenAI,終于重新找回兩年前的進(jìn)攻節(jié)奏,并將精力放在了踏踏實(shí)實(shí)打磨產(chǎn)品上。
![]()
附上 OpenAI 官方博客地址:
https://openai.com/index/introducing-gpt-5-5/
*封面由 AI 生成
我們正在招募伙伴
簡(jiǎn)歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.