當所有人都在從ChatGPT涌向Claude時,一份新測試報告潑了盆冷水——這兩個"頂流"都不是最聰明的免費AI。真正的贏家讓人意外。
OmniCalculator的最新測試用可量化的數學題說話,結果Grok 4.2在邏輯和問題解決能力上拿下第一。這不是關于寫作風格或對話流暢度的比拼,是純數學硬實力的較量。
![]()
但別急著換工具。測試同時揭示了一個更復雜的現實:智商最高的,未必是最適合你的。
數學冠軍≠全能冠軍
OmniCalculator的測試設計很直接——讓AI做數學題,看誰能對。Grok 4.2在這個維度上擊敗了所有對手,包括被大量用戶追捧的Claude和ChatGPT。
這個結論的微妙之處在于它的限定詞。" smartest free AI"前面跟著"when it comes to the quantifiable math ability"。
換句話說,Grok贏的是可量化的計算賽道。它能處理復雜邏輯題,在需要精確推導的場景下表現穩定。這對程序員、數據分析師、需要驗證計算過程的用戶是實打實的優勢。
但測試報告明確劃定了邊界:這不涉及寫作風格、對話能力,或其他聊天機器人的功能維度。
一個數學尖子生,未必是最佳寫作搭檔。
Claude的真正護城河:長文本與語氣
Claude 4.6在測試中被單獨拎出來表揚的是另一項能力——處理長文檔時的連貫性和一致性。
OmniCalculator的報告指出,Claude能在長文本中保持"consistent voice throughout",不會因為上下文變長而丟失邏輯線索。這對需要分析幾十頁報告、整理大量資料的用戶是剛需。
更微妙的是它的"不確定性表達"。Claude更愿意在答案中承認"我不確定"或"這可能是",這種語氣創造了一種"measured rather than overconfident"的感知。
用戶讀到的是謹慎的、經過權衡的回答,而非斬釘截鐵的斷言。這種風格在需要深度思考的場合反而更可信——哪怕底層推理能力未必更強。
Claude近期用戶增長的驅動因素也被點明:一部分是對ChatGPT軍事AI合作的不滿,另一部分正是被這種回答質感吸引。
ChatGPT的悖論:最受歡迎,卻非最強
測試報告給ChatGPT的定位很尷尬——"still the most popular AI chatbot around",即使在用戶向Claude遷移的浪潮中。
但 popularity 和 capability 在這里出現了分離。OmniCalculator的數據顯示,在數學和邏輯測試的硬指標上,ChatGPT被Grok 4.2超越;在長文本寫作質量上,又落后于Claude 4.6。
一個值得注意的發現是"legacy models"的表現——包括早期版本的ChatGPT和Claude,在復雜問題解決場景中大約60%的時間會"revise or second-guess their own answers"。
這種自我修正的不穩定性在日常閑聊中不明顯,但在需要可靠輸出的場景下會成為隱患。較新的模型版本在這方面有所改善,但測試暗示了不同架構之間的根本差異。
ChatGPT的粘性可能來自生態鎖定、使用習慣,或Plus會員的沉沒成本,而非純粹的性能優勢。
用戶遷移的隱形門檻
測試報告附帶了一個觀察:大量用戶涌向Claude后,發現"they can't use it the same way"。
這指向了AI工具的一個核心痛點——切換成本不只是重新學習界面,而是理解不同模型的"性格"和最佳使用場景。
ChatGPT和Claude的提示詞策略并不通用。一個在ChatGPT上效果驚艷的復雜提示,可能在Claude上得到平庸回應,反之亦然。這不是模型智商的問題,是交互范式的差異。
Grok 4.2的數學優勢也有代價。xAI的產品定位更偏向" edgy "和實時信息獲取,這種品牌調性可能讓部分企業用戶猶豫。而數學能力強,是否足以抵消生態和信任層面的考量?
OmniCalculator的測試沒有回答這個問題,但提出了一個框架:把"smartest"拆解為可測量的子維度,而不是籠統的口碑排名。
免費層的殘酷真相
所有測試都限定在"free AI"范圍內。這意味著付費層的格局可能完全不同——OpenAI的o系列推理模型、Claude的Pro版本、Grok的SuperGrok訂閱,都未被納入比較。
但免費層恰恰是大多數用戶的真實戰場。測試揭示的悖論是:沒有單一模型在所有維度領先,用戶被迫在數學能力、寫作質量、長文本處理之間做權衡。
Grok 4.2的登頂是一個信號——xAI在核心推理能力上的投入正在產生可量化的回報。但這不等于建議所有人立即遷移。
測試報告的最終判斷是務實的:對普通人而言,"which AI can make it through complicated logic and math problems"遠不如長文本 coherence 和回答 tone 重要。
數學冠軍適合特定人群,而寫作質感影響每一次交互。
這個結論本身就在挑戰"最聰明AI"這個概念的實用性。智商測試的第一名,可能不是日常使用的最優解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.