網易首頁 > 網易號 > 正文申請入駐

GPT-5.5 Instant 來了，更聰明、更簡潔，也更懂你

2026-05-06 17:59:25　來源: Ai學習的老章

北京舉報

分享至

剛剛，OpenAI 把 ChatGPT 默認模型悄悄換了——GPT-5.5 Instant 上線，全量替換 GPT-5.3 Instant

為什么這事比新發個旗艦還重要？因為 Instant 是幾億用戶每天默認在用的那一個——在它身上動一刀，是真有幾億人能直接體感到的事

簡單測試：閱讀理解+SVG代碼生成+審美，一流水平

三個關鍵改動

OpenAI 自己只用了一句話概括：smarter, clearer, more personalized

更聰明、更簡潔、更懂你

1. 幻覺砍了一刀，準頭可見提升

內部高風險評測（醫療、法律、金融）：

**幻覺斷言減少 52.5%**（vs GPT-5.3 Instant）
在用戶標記過「事實有問題」的對話上，錯誤率再降37.3%

這一刀砍得算到了刀刃上——日常用 ChatGPT 最怕的就是它一本正經地胡說八道

下面這個例子很典型，用戶問「look okay？」上傳了一張代數草稿：

user 提交的代數題

GPT-5.3 Instant的回答：發現 x=3 代回去不成立 → 直接得出「無解」
GPT-5.5 Instant的回答：發現 x=3 不成立后繼續往回查，定位到原始展開式有錯（應該是 x2-3x-6 而非 x2-x-6），用求根公式給出正解 (3+√33)/2

差別就一句話：5.3 走到一半就停，5.5 會自己回溯找根因

這種「自我糾錯」是默認模型最該具備的素質

2. 話變短了，廢話變少了

官方原話：「reduce verbosity and overformatting」——降低啰嗦，少甩格式

舉一個對照：用戶問「how do I tell my coworker to quit yapping all the time」（怎么讓同事別再叨叨）

GPT-5.3 Instant：4 段建議 + 「what not to do」清單 + emoji，結構感很強但有點啰嗦
GPT-5.5 Instant：5 個分級建議 + 一句關鍵收尾，用詞少 30.2%、行數少 29.2%

老章吐槽過很多次：之前 ChatGPT 回個簡單問題動不動甩五個二級標題加項目符號，看著累

這次能管住手挺好——少了點 emoji 和熱情，多了點專業感

3. 個性化變深了，還能看得見

新版 Instant 會自動用你過去的聊天記錄、上傳過的文件、連接過的 Gmail來個性化回答

舉例：用戶問「What new tea place should I try？」

5.3 Instant：基于「在舊金山」給出泛泛推薦
5.5 Instant：知道你常去 Asha Tea House、偏臺灣高山茶風格，直接推「下一站」給你

更重要的是新功能Memory sources：

? 在每個被個性化的回復里，你能看到 ChatGPT 用了哪些上下文（保存的記憶、過去的對話）。可以刪除、修正、或開啟 temporary chat 完全不用記憶

這點老章給個高分——AI 越懂你，透明度越要跟上，不然就是失控

ChatGPT 個性化餐飲推薦界面可用性

今天起開始 rollout，全量替換默認模型
API 中作為chat-latest調用
付費用戶的 GPT-5.3 Instant 還會保留 3 個月（在模型選擇里手動切回）
個性化（past chats / files / Gmail）：先 Plus / Pro 網頁版，后續到 Free / Go / Business / Enterprise
Memory sources 全檔位逐步開放

順便重新捋一遍 GPT-5.5 主線

Instant 是小弟，要看主線劇情，得回到 4 月 23 日那次重磅發布

一句話定位

? OpenAI 迄今最智能、交互體驗最直觀的模型，專為「實際工作」打造

關鍵詞不是寫詩、畫圖，是實際工作——編程、調研、跑表格、做文檔、跨軟件操作

跑分一覽（節選最有看點的）

評測

GPT-5.5

GPT-5.4

Claude Opus 4.7

Gemini 3.1 Pro

Terminal-Bench 2.0（命令行 Agent）

82.7%

75.1%

69.4%

68.5%

GDPval（44 種職業）

84.9%

83.0%

80.3%

67.3%

OSWorld-Verified（操作真實電腦）

78.7%

75.0%

78.0%

FrontierMath Tier 4（高階數學）

35.4%

27.1%

22.9%

16.7%

ARC-AGI-2 (Verified)

85.0%

73.3%

75.8%

77.1%

τ2-bench Telecom（客服流）

98.0%

92.8%

CyberGym（網絡安全）

81.8%

79.0%

73.1%

Graphwalks BFS 1mil f1（百萬長上下文）

45.4%

9.4%

41.2%*

主線 SOTA 集中在Agent 編程 + 長上下文 + 計算機操作 + 網絡安全 + 高階數學——而且不少項目是用更少 Token 干出來的

智能體編程是真的猛

**Terminal-Bench 2.0：82.7%**——命令行多步規劃、工具協作這種最像「真人工程師」的活，干下來了
**SWE-Bench Pro：58.6%**——單次嘗試就能端到端解決更多 GitHub 真實 issue
內部 Expert-SWE（人類工程師中位完成時間約 20 小時的長周期任務）：進一步超越 5.4

OpenAI 內部數據更扎心——公司內85% 員工每周用 Codex：

財務團隊用 Codex 處理 24,771 份 K-1 稅表、共 71,637 頁，比去年提前兩周收工
公關團隊建了一套自動 Slack 智能體，過濾低風險演講請求
市場拓展團隊周報自動化，每人每周省 5-10 小時

NVIDIA 工程師那句話挺戳：

? 「失去對 GPT-5.5 的訪問權限，感覺就像被截肢了一樣」

價格策略

API 這次漲價了，但 OpenAI 說 Token 利用效率提升能抵掉一部分：

檔位

輸入價格

輸出價格

上下文

GPT-5.5

$5/M$30/M

GPT-5.5 Pro

$30/M

$180/M

Codex（訂閱）

含在 Plus/Pro/Business/Enterprise/Edu/Go

400K

輔助玩法：

Batch / Flex 半價——不急的任務往這里塞
Priority 優先 2.5 倍價——要快的客戶付錢
Codex 快速模式 1.5×速度、2.5×費用——和 Priority 一個套路

老章的看法

OpenAI 這次發布節奏其實挺清晰：

4月23日 → 主線 GPT-5.5（Pro/付費用戶優先）
5月05日 → Instant 升級（默認模型，全量鋪開）

潛臺詞是：先用旗艦能力收割付費用戶，再把紅利下放給所有人

對普通用戶來說，最直接的兩個感受：

回答更準、廢話更少——少了點「ChatGPT 味」，多了點專業感
個性化看得見——能查能刪能改，不再是黑箱

可能讓人不爽的點：

模型在變得更「冷靜」，emoji 和熱情少了
網絡安全場景的攔截更嚴，部分專業用戶初期可能覺得受限（OpenAI 自己也承認了，但說這是必要代價）

總結

GPT-5.5 這一代的關鍵詞不是「更大」，是更準、更省、更能干活

Instant 升級則是把這種紅利下放給所有人——你哪怕是免費用戶，也能感受到一點

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.