網易首頁 > 網易號 > 正文申請入駐

免費AI智商排名洗牌：Grok 4.2登頂，Claude和ChatGPT讓位

2026-05-01 19:44:18　來源: 碼上閑敘

北京舉報

分享至

當所有人都在從ChatGPT涌向Claude時，一份新測試報告潑了盆冷水——這兩個"頂流"都不是最聰明的免費AI。真正的贏家讓人意外。

OmniCalculator的最新測試用可量化的數學題說話，結果Grok 4.2在邏輯和問題解決能力上拿下第一。這不是關于寫作風格或對話流暢度的比拼，是純數學硬實力的較量。

但別急著換工具。測試同時揭示了一個更復雜的現實：智商最高的，未必是最適合你的。

數學冠軍≠全能冠軍

OmniCalculator的測試設計很直接——讓AI做數學題，看誰能對。Grok 4.2在這個維度上擊敗了所有對手，包括被大量用戶追捧的Claude和ChatGPT。

這個結論的微妙之處在于它的限定詞。" smartest free AI"前面跟著"when it comes to the quantifiable math ability"。

換句話說，Grok贏的是可量化的計算賽道。它能處理復雜邏輯題，在需要精確推導的場景下表現穩定。這對程序員、數據分析師、需要驗證計算過程的用戶是實打實的優勢。

但測試報告明確劃定了邊界：這不涉及寫作風格、對話能力，或其他聊天機器人的功能維度。

一個數學尖子生，未必是最佳寫作搭檔。

Claude的真正護城河：長文本與語氣

Claude 4.6在測試中被單獨拎出來表揚的是另一項能力——處理長文檔時的連貫性和一致性。

OmniCalculator的報告指出，Claude能在長文本中保持"consistent voice throughout"，不會因為上下文變長而丟失邏輯線索。這對需要分析幾十頁報告、整理大量資料的用戶是剛需。

更微妙的是它的"不確定性表達"。Claude更愿意在答案中承認"我不確定"或"這可能是"，這種語氣創造了一種"measured rather than overconfident"的感知。

用戶讀到的是謹慎的、經過權衡的回答，而非斬釘截鐵的斷言。這種風格在需要深度思考的場合反而更可信——哪怕底層推理能力未必更強。

Claude近期用戶增長的驅動因素也被點明：一部分是對ChatGPT軍事AI合作的不滿，另一部分正是被這種回答質感吸引。

ChatGPT的悖論：最受歡迎，卻非最強

測試報告給ChatGPT的定位很尷尬——"still the most popular AI chatbot around"，即使在用戶向Claude遷移的浪潮中。

但 popularity 和 capability 在這里出現了分離。OmniCalculator的數據顯示，在數學和邏輯測試的硬指標上，ChatGPT被Grok 4.2超越；在長文本寫作質量上，又落后于Claude 4.6。

一個值得注意的發現是"legacy models"的表現——包括早期版本的ChatGPT和Claude，在復雜問題解決場景中大約60%的時間會"revise or second-guess their own answers"。

這種自我修正的不穩定性在日常閑聊中不明顯，但在需要可靠輸出的場景下會成為隱患。較新的模型版本在這方面有所改善，但測試暗示了不同架構之間的根本差異。

ChatGPT的粘性可能來自生態鎖定、使用習慣，或Plus會員的沉沒成本，而非純粹的性能優勢。

用戶遷移的隱形門檻

測試報告附帶了一個觀察：大量用戶涌向Claude后，發現"they can't use it the same way"。

這指向了AI工具的一個核心痛點——切換成本不只是重新學習界面，而是理解不同模型的"性格"和最佳使用場景。

ChatGPT和Claude的提示詞策略并不通用。一個在ChatGPT上效果驚艷的復雜提示，可能在Claude上得到平庸回應，反之亦然。這不是模型智商的問題，是交互范式的差異。

Grok 4.2的數學優勢也有代價。xAI的產品定位更偏向" edgy "和實時信息獲取，這種品牌調性可能讓部分企業用戶猶豫。而數學能力強，是否足以抵消生態和信任層面的考量？

OmniCalculator的測試沒有回答這個問題，但提出了一個框架：把"smartest"拆解為可測量的子維度，而不是籠統的口碑排名。

免費層的殘酷真相

所有測試都限定在"free AI"范圍內。這意味著付費層的格局可能完全不同——OpenAI的o系列推理模型、Claude的Pro版本、Grok的SuperGrok訂閱，都未被納入比較。

但免費層恰恰是大多數用戶的真實戰場。測試揭示的悖論是：沒有單一模型在所有維度領先，用戶被迫在數學能力、寫作質量、長文本處理之間做權衡。

Grok 4.2的登頂是一個信號——xAI在核心推理能力上的投入正在產生可量化的回報。但這不等于建議所有人立即遷移。

測試報告的最終判斷是務實的：對普通人而言，"which AI can make it through complicated logic and math problems"遠不如長文本 coherence 和回答 tone 重要。

數學冠軍適合特定人群，而寫作質感影響每一次交互。

這個結論本身就在挑戰"最聰明AI"這個概念的實用性。智商測試的第一名，可能不是日常使用的最優解。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ChatGPT 免費、豆包收費：同一道商業題的兩種解法

鈦媒體APP 2026-05-08 15:28:12
0 跟貼 0
噓，Claude正在「做夢」！睡一覺瘋狂進化，一夜暴漲6倍戰力

新智元 2026-05-07 12:07:18
13 跟貼 13

xAI解散，但Grok還沒死！馬斯克聲稱新模型正在訓練

新智元 2026-05-08 18:43:15
3 跟貼 3

不用再學AI了！生成結果包穩的Agent來了

機器之心Pro 2026-05-08 15:03:15
0 跟貼 0
卡帕西都整破防了：AI Coding沒門檻，可部署環節真嗯啊的難

量子位 2026-03-27 12:12:46
0 跟貼 0

告別冗長思維鏈！Laser用「概率疊加」重塑多模態大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0

Anthropic出手！AI的內心獨白，曝光了

量子位 2026-05-08 14:32:06
0 跟貼 0
AI像電影人一樣「看」視頻，8B小模型反超GPT-5與Gemini-3.1-Pro

機器之心Pro 2026-05-08 15:53:06
0 跟貼 0

拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
35 跟貼 35
撬開大模型黑箱！Anthropic新研究把AI思考過程公開了，隱藏動機發現率漲了4倍

智東西 2026-05-08 22:30:56
1 跟貼 1
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
每經科技CEO韓利：企業一定要在AI時代搶占大模型入口重塑品牌價值

每日經濟新聞 2026-05-08 21:05:06
0 跟貼 0
以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
小升初奧數培優專題整數乘分數的簡便計算，整數與分子互換找規律

唐老師小課堂 2026-05-07 11:34:50
1 跟貼 1
清華偶遇學霸，不花錢幫忙解決幻方難題

小芳聊奇聞 2026-05-08 00:46:18
0 跟貼 0
小升初奧數分數除法的計算，合理拆分帶分數，計算更加簡便

唐老師小課堂 2026-05-07 11:44:19
1 跟貼 1
輕松學數學，5個方框的加法挑戰！

栗飛沉 2026-05-07 05:06:23
2 跟貼 2
洗牌的最高境界，手法才是最重要的，能教教我嗎？

陳翔愛搞笑 2026-05-04 08:25:48
0 跟貼 0
如何一筆將兩個數字，成功變為等于十五《第一集》

洛軒影視 2026-05-04 17:56:06
3 跟貼 3
107高考數學全國卷（文） 10 等比數列的計算

我服子佩 2026-05-05 13:13:11
1 跟貼 1
小學數學壓軸題全解析，三步輕松搞定！

奧數輕松學 2026-05-08 16:29:14
3 跟貼 3
「ChatGPT說我在浪費生命，但它錯了」，WhatsApp前產品掌門人的清醒反擊

36氪 2025-11-27 11:59:07
0 跟貼 0
掌握數字運算，提升數學技能！

與中樂生活 2026-05-06 03:20:14
0 跟貼 0
小學數學課外拓展-6年級-第36講幾何問題（1）

維七的教育分享圈 2026-05-08 19:46:03
0 跟貼 0
Excel 的 ChatGPT 插件來了，表格自動起飛

Ai學習的老章 2026-05-06 17:58:35
1 跟貼 1
四年級比大小，計算你就輸了

郎老師趣味數學課堂 2026-05-05 20:53:32
0 跟貼 0
四年級數學，難倒全班同學

郎老師趣味數學課堂 2026-05-08 19:12:57
0 跟貼 0
算力告急、馬斯克反轉、Claude要當工程基礎設施：Anthropic這場發布會說了什么

鈦媒體APP 2026-05-07 11:04:16
15 跟貼 15
程序員用ChatGPT給狗設計疫苗，腫瘤真的縮小了，科學家都服了

DeepTech深科技 2026-03-15 18:11:33
0 跟貼 0
143數學全國2卷（文） 10 函數的奇偶性與單調性

我服子佩 2026-05-08 14:14:11
1 跟貼 1
23歲業余愛好者靠ChatGPT破解60年數學難題

量子位 2026-04-30 10:33:26
0 跟貼 0
摩斯密碼戲耍Grok：一條沒有字的推文如何卷走20萬美元加密貨幣？

財聯社 2026-05-07 17:24:05
0 跟貼 0
一頓推理猛如虎結果通通不靠譜

河北分霆 2026-05-05 22:04:54
3 跟貼 3
140數學全國2卷（文） 5 向量的運算

我服子佩 2026-05-08 14:12:41
1 跟貼 1
138數學全國2卷（文） 2 復數的計算送分題

我服子佩 2026-05-08 14:11:19
1 跟貼 1
144數學全國2卷（文） 14 等差數列通項公式

我服子佩 2026-05-08 14:14:43
1 跟貼 1
物理課變味了：1.2億學生背公式，他用1個仿真把牛頓定律"演活"

像素與芯片 2026-05-08 22:21:08
0 跟貼 0
穿越時空，現實嗎？

六六冷知識 2026-05-07 00:59:01
1 跟貼 1
當函數有了聲音，原來數學是音樂老師教的

強哥到了 2026-05-08 21:49:21
1 跟貼 1
東風猛士拖欠媒體車馬費，代理公司迪思解散群聊“跑路”！新能源車洗牌加速！

新浪財經 2026-05-08 10:42:07
22 跟貼 22

手機 / 數碼

房產 / 家居

免費AI智商排名洗牌：Grok 4.2登頂，Claude和ChatGPT讓位

SK海力士平均獎金600萬 工服成相親神器

美公布首批UFO文件 視頻公開：阿聯酋現水母狀物體

美公布首批UFO文件 視頻公開：阿聯酋現水母狀物體

他把首勝讓給隊友，然后用一年時間還清賬單

古天樂被曝隱婚生子，新娘竟是她

估值3000億 DeepSeek尋求500億元融資

MG 4X實車亮相 將于5月11日開啟盲訂

態度原創

PS未發售重磅獨占要完！同類項目崩盤 新作懸了

干細胞能讓人“返老還童”嗎

北京兒童配眼鏡指南：從看得清到管得住，守住孩子的視力第一條防線

小米超大屏旗艦殺回來了！小米17 Max入網配置全曝光，價格很香

SK海力士平均獎金600萬工服成相親神器

美公布首批UFO文件視頻公開：阿聯酋現水母狀物體

美公布首批UFO文件視頻公開：阿聯酋現水母狀物體

MG 4X實車亮相將于5月11日開啟盲訂

PS未發售重磅獨占要完！同類項目崩盤新作懸了