網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.5 深夜發(fā)布！它不是最好用的，但就是現(xiàn)在最強(qiáng)的 AI

2026-04-24 13:07:49　來(lái)源: 唐韌

北京舉報(bào)

分享至

昨晚我就有個(gè)預(yù)感，覺(jué)得 OpenAI 可能要放點(diǎn)大招了。

結(jié)果，我半夜起來(lái)上廁所時(shí)看了一眼手機(jī)，GPT-5.5 發(fā)布了，頓時(shí)睡意全無(wú)。

光看過(guò)去一周時(shí)間，全世界這些頂級(jí) AI 公司都是模型連發(fā)，根本應(yīng)接不暇，或許留給人類(lèi)的智力空間真的在縮小。

目前，GPT-5.5 已經(jīng)可以在 ChatGPT 和 Codex 里用了，但需要 Plus 以上的會(huì)員。

也就是說(shuō)，你至少需要花 20 美金一個(gè)月的價(jià)格才能體驗(yàn)到這個(gè)可能是目前最強(qiáng)的 AI 模型。

我第一時(shí)間用了下，感受就是它的確很強(qiáng)，但并不是我自己覺(jué)得目前最好用的。

我先說(shuō)下它到底哪里強(qiáng)，然后再給你們看幾個(gè)我自己用 GPT-5.5 做的案例。

在 OpenAI 介紹 GPT-5.5 的官網(wǎng)上，他們?cè)谀Ｐ偷紫聦?xiě)上了這么一句話(huà)「A new class of intelligence for real work」。

意思很明顯了，這是專(zhuān)為解決真實(shí)工作問(wèn)題而生的新一代智能模型。

怎么理解呢？

用大白話(huà)說(shuō)，就是 GPT-5.5 在完成工作任務(wù)上的效率比其他模型更高，而成本反而會(huì)更低。

先看官方發(fā)布的一個(gè)多領(lǐng)域測(cè)試榜單，不理解那些英文沒(méi)關(guān)系，你只要知道這里面基本涵蓋了日常工作、科研、工具使用的方方面面。

重點(diǎn)看 GPT-5.5 和 Claude Opus 4.7 的對(duì)比，因?yàn)檫@就是巔峰比拼。

可以看到，GPT 基本是完勝 Claude 的。

我就挑幾個(gè)跟我們普通打工人有關(guān)的測(cè)試來(lái)跟你們說(shuō)下，看看 GPT-5.5 到底有多強(qiáng)。

下面這個(gè)是一個(gè)叫 GDPval 的測(cè)試，它模擬的是讓 AI 在 44 個(gè)職業(yè)領(lǐng)域中完成知識(shí)型工作，GPT-5.5 的得分是 84.9%。

還原到現(xiàn)實(shí)工作場(chǎng)景中，意思就是使用這個(gè)模型來(lái)完成各領(lǐng)域的知識(shí)型工作的能力會(huì)更強(qiáng)。

比如，產(chǎn)品經(jīng)理分析需求、做競(jìng)品報(bào)告、做原型設(shè)計(jì)、分析數(shù)據(jù)，創(chuàng)作者做內(nèi)容，財(cái)務(wù)分析以及文檔寫(xiě)作、PPT設(shè)計(jì)等。

再就是 GPT-5.5 的編碼能力。

你們可能會(huì)好奇，為什么每家 AI 大廠(chǎng)發(fā)新模型是都喜歡強(qiáng)調(diào)自己的編碼能力？

其實(shí)很簡(jiǎn)單，因?yàn)榫幊掏墙鉀Q復(fù)雜問(wèn)題，這能很好考察模型的問(wèn)題分析、路徑規(guī)劃、方案執(zhí)行能力，還有就是解決問(wèn)題的成功率。

過(guò)去有些模型是很強(qiáng)，也能編程，但是需要人和它互動(dòng)調(diào)教很多次才能搞定。

現(xiàn)在的新 AI 模型，講究的是自我分析、自我規(guī)劃、自我執(zhí)行，人為的干預(yù)越少越好。

GPT-5.5 現(xiàn)在主打的 Agentic Coding 就是這個(gè)意思，說(shuō)白了就是讓 AI 自己干。

在官網(wǎng)給出的測(cè)試基準(zhǔn)里，5.5 是全面超過(guò)之前的 5.4 版本的。

當(dāng)然，還有一個(gè)原因，就是編碼工作是為 AI 付費(fèi)的一大主流場(chǎng)景。

GPT-5.5 里還有一個(gè)重要信息，就是在完成特定任務(wù)的基礎(chǔ)上，消耗 Token 和 5.4 持平，但是效率和成功率更高。

這么一來(lái)，實(shí)際消耗的 Token 是減少的，因?yàn)檫^(guò)去你可能需要多輪會(huì)話(huà)才能搞定一件事，現(xiàn)在一次就可以搞定了。

還有，GPT-5.5 的工具調(diào)用和對(duì)電腦的視覺(jué)化操作能力也是目前最強(qiáng)的。

尤其是對(duì)電腦的視覺(jué)化操作，這是未來(lái) Agent 來(lái)替我們完成實(shí)際工作的很重要的標(biāo)準(zhǔn)。

也就是說(shuō)，如果給 OpenClaw 或者 Hermes 配上 GPT-5.5 的模型，他們替你干活的能力又提升了。

說(shuō)了這些榜單和能力，接下來(lái)我們看幾個(gè)案例。

這是 OpenAI 自己做的一個(gè)案例，上傳了一張參考圖，然后讓 GPT 自己做一個(gè)基于真實(shí)數(shù)據(jù)的太空軌跡應(yīng)用，里面展示了地球、月球、獵戶(hù)座的動(dòng)效軌跡。

提示詞：Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

我覺(jué)得，這個(gè)做出來(lái)的效果還是挺強(qiáng)的。

然后再給你們看一下我自己用 GPT-5.5 做的一套高保真原型圖，而且是帶頁(yè)面交互效果的。

原始需求就是我的一句話(huà)。

提示詞：設(shè)計(jì)一套關(guān)于健康管理App的高保真原型頁(yè)面，帶交互，產(chǎn)品名字是EasyLife，核心功能包括注冊(cè)、登錄、主頁(yè)、個(gè)人身體數(shù)據(jù)顯示，包括一些圖表等。設(shè)計(jì)風(fēng)格帶圓角，整體簡(jiǎn)潔風(fēng)。

注意，在這段需求里，我既沒(méi)有說(shuō)詳細(xì)業(yè)務(wù)邏輯，也沒(méi)有描述功能模塊，甚至單一模塊的邏輯都沒(méi)說(shuō)。

丟給它自己分析、設(shè)計(jì)、執(zhí)行，然后把前端代碼也寫(xiě)好了。

這里面還有一個(gè)細(xì)節(jié)，我的原始需求里其實(shí)沒(méi)有「活動(dòng)」和「報(bào)告」兩個(gè)模塊，但它開(kāi)發(fā)出來(lái)的版本里默認(rèn)帶了，只不過(guò)頁(yè)面是空的。

我點(diǎn)擊的時(shí)候會(huì)提示該頁(yè)面暫未開(kāi)發(fā)，于是我就跟它說(shuō)了這句話(huà)。

大概一兩分鐘后，它就給了我一版完整的，就是上面你們看到的那樣。

如果看過(guò)我之前文章的讀者，或許對(duì)這個(gè)案例有點(diǎn)印象，就是我去年減脂期間用其他 AI 產(chǎn)品手搓過(guò)的一個(gè) App。

只不過(guò)當(dāng)時(shí)折騰了很久，而且出來(lái)的效果不太好，現(xiàn)在 GPT-5.5 這個(gè)效果我覺(jué)得可以直接用了。

關(guān)鍵是，沒(méi)有多輪會(huì)話(huà)，基本是一兩步就完成了。

回到我一開(kāi)始說(shuō)的，GPT-5.5 確實(shí)很強(qiáng)，或者說(shuō)就是目前最強(qiáng)的 AI 模型，但對(duì)我來(lái)說(shuō)它不是最好用的。

原因很簡(jiǎn)單，取決于你在什么場(chǎng)景下用它來(lái)干嘛？

也就是說(shuō)，你的工作流是什么。

對(duì)我來(lái)說(shuō)，內(nèi)容創(chuàng)作、產(chǎn)品設(shè)計(jì)、咨詢(xún)業(yè)務(wù)，這些是我已經(jīng)形成工作流的，所以我也用 5 個(gè)正職 AI 員工實(shí)現(xiàn)了自動(dòng)化。

這一點(diǎn)，我在昨天的文章里講了。

但是，在這些工作流里并沒(méi)有一個(gè)全能模型可以勝任所有工作。

所以，我是在不同場(chǎng)景和需求任務(wù)下讓不同的 Agent 配不同的模型使用，就像雇有不同腦子和能力的人一樣。

比如，在內(nèi)容輔助創(chuàng)作這一塊，我覺(jué)得目前最強(qiáng)的還是 Claude Opus 4.6，在 Agent 事務(wù)處理和本地化操作上，GPT-5.4 是我主要用的。

當(dāng)然，接下來(lái)我有可能切換為 GPT-5.5，但考慮性?xún)r(jià)比的話(huà)，5.4 還是更合適。

在產(chǎn)品類(lèi)工作上，我覺(jué)得 Claude 和 GPT 的表現(xiàn)其實(shí)差不太多，但 Claude 性?xún)r(jià)比就不是很高了。

我也用國(guó)產(chǎn)模型，一些事務(wù)型的工作或者 AI 團(tuán)隊(duì)調(diào)度管理類(lèi)的，我現(xiàn)在用 Kimi 和 MiniMax 比較多，還有就是 GLM。

其實(shí)不管你用什么模型，核心還是我前面說(shuō)的，有沒(méi)有自己的工作流可以讓 AI 接入。

如果只是用 AI 來(lái)查查信息，聊聊天，其實(shí)用什么區(qū)別都不大。

我知道現(xiàn)在 AI 發(fā)展很快，很多人也會(huì)焦慮，但這種情緒并沒(méi)有什么用，關(guān)鍵是要想清楚你可以用 AI 來(lái)干嘛？

每次打開(kāi)那個(gè)對(duì)話(huà)框，發(fā)現(xiàn)自己無(wú)所適從時(shí)，我覺(jué)得這才是真正值得深思的。

這個(gè)時(shí)代發(fā)展的速度只會(huì)越來(lái)越快，讓很多人焦慮的不是技術(shù)的進(jìn)展，而是自己跟不上的那個(gè)節(jié)奏。

核心問(wèn)題，在于傳統(tǒng)思維和認(rèn)知的受限，以及信息差的存在，再加上行動(dòng)能力的匱乏。

或許你們也發(fā)現(xiàn)了，我最近更新文章的頻率很高，有時(shí)候甚至是一天寫(xiě)兩篇。

不是我時(shí)間變多了，而是我把自己放在這一輪的發(fā)展進(jìn)程中，而且有了一個(gè) AI 團(tuán)隊(duì)。

我不想錯(cuò)過(guò)，所以投入。

正當(dāng)我寫(xiě)完這篇文章時(shí)，AI 圈又發(fā)生了一件大事。

DeepSeek V4，來(lái)了！

或許，我在這篇文章里剛剛才得出的一些結(jié)論，又要被推翻了。

················· 唐韌出品 ·················

安可時(shí)刻

現(xiàn)在如果你們想使用 GPT-5.5 的，可以在ChatGPT里直接用，也可以在 Codex 里用，最新模型已經(jīng)默認(rèn)是 5.5 了。

如果你們已經(jīng)有了自己的常用 AI 對(duì)話(huà)類(lèi)產(chǎn)品，比如 Youmind 這類(lèi)的，他們也會(huì)很快接入。

如果是像我一樣主要用 OpenClaw 和 Hermes 這類(lèi)智能體的，一些 API 中轉(zhuǎn)平臺(tái)也已經(jīng)在接入了，估計(jì)這兩天就能用上。

我準(zhǔn)備給其中一個(gè) AI 員工從原來(lái)的 GPT-5.4 升級(jí)為 5.5，雖然貴一點(diǎn)，但我還是會(huì)深度體驗(yàn)測(cè)試一下。

最后，如果你不知道怎么擁抱這一輪時(shí)代級(jí)的機(jī)會(huì)，可以看看我昨天的文章。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.