剛剛,OpenAI 把 ChatGPT 默認模型悄悄換了——GPT-5.5 Instant 上線,全量替換 GPT-5.3 Instant
為什么這事比新發個旗艦還重要?因為 Instant 是幾億用戶每天默認在用的那一個——在它身上動一刀,是真有幾億人能直接體感到的事
![]()
簡單測試:閱讀理解+SVG代碼生成+審美,一流水平
![]()
三個關鍵改動
OpenAI 自己只用了一句話概括:smarter, clearer, more personalized
更聰明、更簡潔、更懂你
1. 幻覺砍了一刀,準頭可見提升
內部高風險評測(醫療、法律、金融):
**幻覺斷言減少 52.5%**(vs GPT-5.3 Instant)
在用戶標記過「事實有問題」的對話上,錯誤率再降37.3%
這一刀砍得算到了刀刃上——日常用 ChatGPT 最怕的就是它一本正經地胡說八道
下面這個例子很典型,用戶問「look okay?」上傳了一張代數草稿:
![]()
user 提交的代數題
GPT-5.3 Instant的回答:發現 x=3 代回去不成立 → 直接得出「無解」
GPT-5.5 Instant的回答:發現 x=3 不成立后繼續往回查,定位到原始展開式有錯(應該是 x2-3x-6 而非 x2-x-6),用求根公式給出正解 (3+√33)/2
差別就一句話:5.3 走到一半就停,5.5 會自己回溯找根因
這種「自我糾錯」是默認模型最該具備的素質
2. 話變短了,廢話變少了
官方原話:「reduce verbosity and overformatting」——降低啰嗦,少甩格式
舉一個對照:用戶問「how do I tell my coworker to quit yapping all the time」(怎么讓同事別再叨叨)
GPT-5.3 Instant:4 段建議 + 「what not to do」清單 + emoji,結構感很強但有點啰嗦
GPT-5.5 Instant:5 個分級建議 + 一句關鍵收尾,用詞少 30.2%、行數少 29.2%
老章吐槽過很多次:之前 ChatGPT 回個簡單問題動不動甩五個二級標題加項目符號,看著累
這次能管住手挺好——少了點 emoji 和熱情,多了點專業感
3. 個性化變深了,還能看得見
新版 Instant 會自動用你過去的聊天記錄、上傳過的文件、連接過的 Gmail來個性化回答
舉例:用戶問「What new tea place should I try?」
5.3 Instant:基于「在舊金山」給出泛泛推薦
5.5 Instant:知道你常去 Asha Tea House、偏臺灣高山茶風格,直接推「下一站」給你
更重要的是新功能Memory sources:
? 在每個被個性化的回復里,你能看到 ChatGPT 用了哪些上下文(保存的記憶、過去的對話)。可以刪除、修正、或開啟 temporary chat 完全不用記憶
這點老章給個高分——AI 越懂你,透明度越要跟上,不然就是失控
![]()
ChatGPT 個性化餐飲推薦界面 可用性
今天起開始 rollout,全量替換默認模型
API 中作為
chat-latest調用付費用戶的 GPT-5.3 Instant 還會保留 3 個月(在模型選擇里手動切回)
個性化(past chats / files / Gmail):先 Plus / Pro 網頁版,后續到 Free / Go / Business / Enterprise
Memory sources 全檔位逐步開放
Instant 是小弟,要看主線劇情,得回到 4 月 23 日那次重磅發布
![]()
一句話定位
? OpenAI 迄今最智能、交互體驗最直觀的模型,專為「實際工作」打造
關鍵詞不是寫詩、畫圖,是實際工作——編程、調研、跑表格、做文檔、跨軟件操作
跑分一覽(節選最有看點的)
評測
GPT-5.5
GPT-5.4
Claude Opus 4.7
Gemini 3.1 Pro
Terminal-Bench 2.0(命令行 Agent)
82.7%
75.1%
69.4%
68.5%
GDPval(44 種職業)
84.9%
83.0%
80.3%
67.3%
OSWorld-Verified(操作真實電腦)
78.7%
75.0%
78.0%
FrontierMath Tier 4(高階數學)
35.4%
27.1%
22.9%
16.7%
ARC-AGI-2 (Verified)
85.0%
73.3%
75.8%
77.1%
τ2-bench Telecom(客服流)
98.0%
92.8%
CyberGym(網絡安全)
81.8%
79.0%
73.1%
Graphwalks BFS 1mil f1(百萬長上下文)
45.4%
9.4%
41.2%*
主線 SOTA 集中在Agent 編程 + 長上下文 + 計算機操作 + 網絡安全 + 高階數學——而且不少項目是用更少 Token 干出來的
智能體編程是真的猛
**Terminal-Bench 2.0:82.7%**——命令行多步規劃、工具協作這種最像「真人工程師」的活,干下來了
**SWE-Bench Pro:58.6%**——單次嘗試就能端到端解決更多 GitHub 真實 issue
內部 Expert-SWE(人類工程師中位完成時間約 20 小時的長周期任務):進一步超越 5.4
OpenAI 內部數據更扎心——公司內85% 員工每周用 Codex:
財務團隊用 Codex 處理 24,771 份 K-1 稅表、共 71,637 頁,比去年提前兩周收工
公關團隊建了一套自動 Slack 智能體,過濾低風險演講請求
市場拓展團隊周報自動化,每人每周省 5-10 小時
NVIDIA 工程師那句話挺戳:
? 「失去對 GPT-5.5 的訪問權限,感覺就像被截肢了一樣」價格策略
API 這次漲價了,但 OpenAI 說 Token 利用效率提升能抵掉一部分:
檔位
輸入價格
輸出價格
上下文
GPT-5.5
$5/M$30/M
1M
GPT-5.5 Pro
$30/M
$180/M
1M
Codex(訂閱)
含在 Plus/Pro/Business/Enterprise/Edu/Go
400K
輔助玩法:
Batch / Flex 半價——不急的任務往這里塞
Priority 優先 2.5 倍價——要快的客戶付錢
Codex 快速模式 1.5×速度、2.5×費用——和 Priority 一個套路
OpenAI 這次發布節奏其實挺清晰:
4月23日 → 主線 GPT-5.5(Pro/付費用戶優先)
5月05日 → Instant 升級(默認模型,全量鋪開)
潛臺詞是:先用旗艦能力收割付費用戶,再把紅利下放給所有人
對普通用戶來說,最直接的兩個感受:
回答更準、廢話更少——少了點「ChatGPT 味」,多了點專業感
個性化看得見——能查能刪能改,不再是黑箱
可能讓人不爽的點:
模型在變得更「冷靜」,emoji 和熱情少了
網絡安全場景的攔截更嚴,部分專業用戶初期可能覺得受限(OpenAI 自己也承認了,但說這是必要代價)
GPT-5.5 這一代的關鍵詞不是「更大」,是更準、更省、更能干活
Instant 升級則是把這種紅利下放給所有人——你哪怕是免費用戶,也能感受到一點
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.