網易首頁 > 網易號 > 正文申請入駐

GPT-5.5智商145背后：大模型競賽，正在進入工程淘汰賽

2026-04-27 19:41:15　來源: 鈦媒體APP

北京舉報

分享至

文 | 舒書

什么是工程淘汰賽？

在進入正文之前，有必要先明確本文的核心概念。

所謂工程淘汰賽，是指在模型基礎能力趨同的背景下，圍繞推理成本控制、幻覺率治理、數據質量工程、Agent工具鏈可靠性、私有化交付能力、安全合規(guī)工程展開的競爭。參數不再是護城河，工程才是。

這一轉變發(fā)生在Transformer+MoE主流架構短期難以被顛覆、基礎模型能力集體拉平的周期里。當“誰能做出更聰明的模型”不再是唯一問題，“誰能把模型可靠地用起來”就成為了新的勝負手。

這與智商競賽的本質區(qū)別在于：前者比的是誰能做出更聰明的模型，后者比的是誰能把模型的能力以可控的成本和風險跑通。競賽遠未結束，但規(guī)則正在改變。

一、通用推理能力的真相：能力在提升，但需回到地面

GPT-5.5 Pro的門薩風格測試成績引發(fā)了大量討論。根據LisanBench（第三方AI能力評測平臺，測試時間2026年4月，測試數據集及方法論已公開）的測試結果：

視覺邏輯推理能力：達人類前0.1%水平
在線文本推理能力：達人類前2%水平（門薩入會線為前2%）
線下非公開文本測試：剛好踩在門薩門檻上

這意味著GPT-5.5 Pro在視覺邏輯推理上確實達到了人類頂尖水平，但在純文本推理上，雖然也是聰明人，但并非天才。兩者的差距是前0.1% vs 前2%。

需要指出的是，將人類門薩智商測試直接套用于大模型在學術上并不嚴謹。更準確的表述是在門薩風格測試中的表現。門薩的視覺推理測試（如3x3九宮格）考察的是抽象的、非語言的邏輯推理能力，包括旋轉、鏡像、疊加、增減等復雜規(guī)則的識別與應用。

需要指出的是，Claude在長上下文邏輯一致性、實時知識更新、多模態(tài)能力等方面仍明顯落后于GPT-5.5。Gemini則在工具調用穩(wěn)定性和生態(tài)成熟度上存在差距。各模型各有長短，本文聚焦幻覺率的對比，不代表全面評價。

GPT-5.5 Pro的進步主要在視覺邏輯推理維度。但這并不意味著智商競賽已經結束，而是說明能力提升的邊際收益正在變化。

二、高推理能力背后的另一面：86%的幻覺率

一個值得反復對比的數字：

GPT-5.5 Pro 幻覺率：86%

Claude Opus 4.7 幻覺率：36%

同一評測機構（Artificial Analysis AA-Omniscience）、同一測試基準、同一數據來源。差距是50個百分點。

高推理能力背后，有一個被部分討論但值得深入分析的數字。

根據第三方評測機構Artificial Analysis在其私有基準測試AA-Omniscience中發(fā)布的數據——該測試包含6000個覆蓋6大領域的問題，在無搜索條件下評估模型的知識邊界——GPT-5.5 Pro在面對不確定問題時，有86%的傾向給出錯誤答案而非承認不知道。同一測試中，Claude Opus 4.7的這一比例為36%。

這個數據的含義需要準確理解：86%不是在日常對話中的幻覺率，而是在專門設計的知識邊界探測場景中，當模型觸及知識盲區(qū)時的行為傾向。OpenAI官方聲稱的“幻覺減少”是在不同的測試場景（用戶標記的ChatGPT對話樣本）中測量的。兩者都是真實的——取決于你測量的是什么場景。

為什么GPT-5.5會出現高幻覺率？原因可歸納為三個層次：

架構與訓練內因：MoE稀疏激活可能導致專家模塊間的知識沖突；RLHF的討好偏好鼓勵模型嘗試回答而非承認不知道；超長上下文（1M tokens）中注意力可能分散，導致理解偏差。

產品路線的主動取舍：OpenAI的目標是打造一個能處理任何問題的通用推理引擎，為此它在訓練中鼓勵模型嘗試回答而非拒絕回答。Claude則選擇了相反路線：寧可沉默，不可胡說。兩種路線各有優(yōu)劣——GPT-5.5在開放域推理和復雜任務上的表現遠超Claude，但代價就是更高的幻覺風險。這是能力與可靠性之間的經典權衡。

外部輸入質量：當喂給模型的文檔數據質量低下（如PDF亂碼、表格錯位、公式為圖片），模型無法準確理解上下文，只能依靠概率去猜測——這是幻覺產生的重要外部因素。

對于一個被定位為Agent原生大腦（契合OpenAI官方Agent戰(zhàn)略路線）、賦予自主規(guī)劃和執(zhí)行任務能力的模型來說，高幻覺率是根本性挑戰(zhàn)：一個自信但錯誤的中間結論會污染整個決策鏈條；在財務、醫(yī)療等高風險場景，一次幻覺可能導致實際損失。

核心判斷：當一個模型在聰明的同時難以控制自己的自信虛構，它的商業(yè)價值需要被打上問號?？煽啃?，正在成為比推理能力更稀缺的品質。

三、競爭焦點的遷移：成本、可靠性與兩種策略

技術參數的邊際收益正在遞減。對企業(yè)級客戶來說，客服場景90分的模型已夠用，金融醫(yī)療場景客戶真正需要的是低幻覺率和高可解釋性。

與此同時，行業(yè)競爭聚焦于成本，演化出兩種策略：

截至2026年4月，中國市場的價格分層已非常清晰：

*注：以上價格均為各廠商官方公布的公有云標準定價（截至2026年4月），不含限時活動、新用戶優(yōu)惠、長上下文附加費等特殊場景。DeepSeek V4-Pro限時2.5折活動至2026年5月5日止。*

DeepSeek V4-Flash的輸出價格是Claude Opus的1/12。當推理能力差距縮小、價格差距拉大，企業(yè)客戶的選擇邏輯正在改變。

過去12個月，前沿大模型綜合性價比以每年數倍級速度迭代，推理落地成本持續(xù)快速下行。這一趨勢有多個信源支撐：

2026年3月發(fā)表于arXiv的論文《The Price of Progress》（arXiv:2511.23455v2）基于Artificial Analysis和Epoch AI的數據分析發(fā)現：前沿模型的性價比正以每年數倍級速度提升
Gartner預測（2026年3月25日新聞室發(fā)布），到2030年，1萬億參數大模型的推理成本將較2025年下降90%以上

核心判斷：競爭焦點正在從誰更聰明轉向誰能以更優(yōu)的綜合成本提供可靠的服務——包括單價、效率、幻覺率、數據準備成本等多個維度。

四、被忽視的工程挑戰(zhàn)：數據質量、工具調用與安全合規(guī)

當前關于工程能力的討論，主要集中在運行效率——如何讓模型跑得更快、更便宜。這固然重要，但還有三個同樣關鍵的維度。

4.1 數據質量工程：讓模型吃干凈的燃料

GPT-5.5被定位為Agent原生大腦，其核心能力是自主規(guī)劃和調用工具。然而，一個現實挑戰(zhàn)是：無論模型本身多強大，如果喂給它的文檔數據質量低下（如PDF表格亂碼、多欄排版混亂、公式是圖片），Agent就會基于這些垃圾輸入做出錯誤決策。

真正的工程能力，至少包括四個層次：

運行效率：分布式推理、模型量化、緩存策略
數據質量：文檔解析、多欄排版還原、表格與公式識別
可靠性保障：幻覺監(jiān)測、輸出驗證、A/B測試
安全與合規(guī)：內容風控、數據脫敏、權限隔離、合規(guī)審計——在金融、政務、企業(yè)私有化場景中，這是工程淘汰賽的核心賽道之一

4.2 工具調用可靠性：Agent的另一只腳

Agent幻覺的另一大來源是工具調用可靠性。當前Agent的核心能力是自主選擇工具、調用API、執(zhí)行操作。但在實際落地中，模型可能選錯工具、傳錯參數、陷入循環(huán)無效調用。

工具調用可靠性的工程化，涉及工具描述規(guī)范化、參數校驗機制、調用結果驗證、異常回滾策略等多個環(huán)節(jié)。這是當前Agent工程化中最容易被低估的挑戰(zhàn)。

五、OpenAI的組織調整：戰(zhàn)略收縮，還是重心轉移？

GPT-5.5的發(fā)布、Sora的關停、高管的連環(huán)離職——OpenAI近期的調整被一些人解讀為從研究型向工程型組織的范式轉移。這個判斷有道理，但需要更審慎的分析。

更準確的解讀是商業(yè)壓力下的戰(zhàn)略收縮。Sora每日算力成本約100萬美元，但長期未能實現可持續(xù)商業(yè)模式。關停它，不一定代表OpenAI放棄了研究優(yōu)先的理念，而可能只是在商業(yè)化探索受挫后的資源重配。

但這并不意味著基礎研究的價值在降低。當前的工程紅利建立在現有架構之上。一旦行業(yè)出現根本性突破，游戲規(guī)則會再次改變。一個歷史參照：2010年代的計算機視覺領域，當深度學習突破出現時，之前幾年在工程優(yōu)化上投入最多的公司并沒有成為贏家——贏家是那些在基礎研究上積累最深的組織。

更平衡的判斷：行業(yè)正從研究驅動轉向“研究+工程雙輪驅動”。研究負責突破天花板，工程負責把突破轉化為可規(guī)?；漠a品。研究員的角色正在從主角轉向基礎設施，但這并不意味著他們不再重要。

六、被忽略的戰(zhàn)場：垂直行業(yè)大模型

通用大模型的推理能力競賽正在降溫，但垂直行業(yè)的可靠性競賽才剛剛開始。

在金融領域，模型需要的是低幻覺率和可解釋性。一份財報分析報告的準確性，遠比模型的門薩分數重要。

在法律領域，模型必須基于特定判例庫和法規(guī)條文回答，不能自由發(fā)揮。任何超出授權知識庫的回答都可能是合規(guī)風險。

在醫(yī)療領域，一次幻覺可能造成嚴重后果。保守輸出比聰明輸出更重要。

這些場景的核心訴求是：領域幻覺率可控、私有數據合規(guī)、私有化部署工程。通用推理能力在這里意義有限。

這意味著，工程淘汰賽在垂直賽道上的表現形式完全不同：不是比誰的推理成本更低，而是比誰能在特定領域把幻覺率壓到可接受范圍、誰能把模型安全地部署在客戶的內網環(huán)境。

也正是在這一輪垂直化+工程化的雙重浪潮中，中國AI公司的差異化優(yōu)勢得以充分釋放。

七、中國公司的位置：優(yōu)勢與邊界

在工程化這場競賽中，中國公司有獨特優(yōu)勢，也需要正視邊界。

優(yōu)勢：存量工程能力

字節(jié)的推薦系統、阿里的雙11技術保障——這些工程肌肉可以遷移到大模型領域：高并發(fā)架構、實時數據處理、模塊化設計、自動化運維，都是中國互聯網過去十年積累的核心能力。

獨特長板：垂直領域積累

除了通用工程能力，中國廠商在垂直領域還有獨特優(yōu)勢：金融、政務、醫(yī)療等行業(yè)的私有數據積累、本地化合規(guī)經驗、中文原生的對齊能力、私有化交付的工程體系——這些都是海外巨頭短期內難以復制的壁壘。

制約：芯片生態(tài)的差距

DeepSeek在V4國產化遷移中遇到的困難，正是昇騰生態(tài)與CUDA生態(tài)差距的體現。同時需要客觀看到，國產芯片生態(tài)正在快速迭代——昇騰的CANN軟件棧持續(xù)優(yōu)化，推理框架已支持主流模型的高效部署，輕量化適配方案在多個行業(yè)場景中規(guī)模化落地。差距在縮小，但追趕仍需時間。

不確定性：成本優(yōu)勢的可持續(xù)性

當所有玩家都進入工程決勝期，成本優(yōu)勢會被迅速追趕。價格戰(zhàn)的終局往往是利潤趨零，屆時競爭將回到基礎研究、品牌、生態(tài)等綜合實力的比拼。

八、結語：推理能力競賽的邊際價值遞減，工程淘汰賽開始

GPT-5.5的發(fā)布是一個標志性事件，但它的多重數據——高推理能力、高幻覺率、價格分層——共同指向一個更復雜的現實：

這里需要澄清的是：強調工程能力成為稀缺并不意味著基礎研究不再重要。沒有基礎研究的突破，工程優(yōu)化終將觸及天花板。但在當前技術架構相對穩(wěn)定的窗口期，工程能力是決定誰能率先跑通商業(yè)化的關鍵變量。兩者是接力關系，不是替代關系。

接下來的競爭，不再是單純的誰更聰明，而是：

當文本推理能力達到人類前2%就能滿足多數場景，推理能力競賽的邊際價值正在遞減
當幻覺率差距達到50個百分點，可靠性正在成為比推理能力更稀缺的品質
當價格差距達到10倍以上，綜合成本成為企業(yè)客戶的核心考量
當數據質量和工具調用決定Agent的生死，工程化的復雜度遠超預期
當安全合規(guī)成為政企客戶的門檻，合規(guī)工程進入淘汰賽的核心賽道

誰能在可控的綜合成本下，把模型的能力可靠地用起來？

這是規(guī)則改變——從參數競賽轉向工程淘汰賽。

當高推理能力不再是稀缺品，稀缺的是讓智能變得便宜、可靠、可規(guī)?；墓こ棠芰?。

而這，既是所有AI公司的共同命題，也是中國公司的機會與挑戰(zhàn)所在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.