網易首頁 > 網易號 > 正文申請入駐

AI高考暴露短板：Claude超字數零分，歷史論述近乎完美

2026-05-08 22:44:00　來源: 被誤解的時候能微微一笑

四川舉報

分享至

最近，日本一家名為 LifePrompt 的人工智能公司，用 OpenAI 的 ChatGPT 5.2 Thinking、谷歌的 Gemini 3 Pro 和 Anthropic 的 Claude 4.5 Opus 等幾個當前最強的模型，去挑戰日本大學入學考試，包括日本最難考的兩所大學——東京大學和京都大學，并由日本最大的補習學校“河合塾”的老師們進行閱卷。

結果，AI 不僅通過了考試，而且是以遠超人類最高分的“首席合格”成績通過的。在被認為是日本最難的東京大學理科三類（醫學部的主要生源）考試中，ChatGPT 的分數比人類最高分還高出50分。數學科目，ChatGPT 和 Gemini 都拿下了滿分。

最讓人震撼的不是分數本身，而是進化的速度。

兩年前，頂配模型 GPT-4 在同樣的考試中全線潰敗，連最低錄取分數線都沒達到。去年，新模型首次勉強過線。今年，它就成了狀元。

從不及格到狀元，只用了兩年時間。

但 AI 在日本高考中的表現，同時也暴露了模型的“偏科”、“愚蠢”和“缺乏常識”。AI光鮮分數下的真實能力邊界，藏在考卷的細節里，藏在閱卷老師的評價中。

在東大物理的一道關于焦點距離的題目中，ChatGPT 和 Gemini 都給出了一個帶負號的答案。這個答案在物理邏輯上是說得通的，但在日本的物理教育體系里，焦點距離通常被定義為正值。AI的這個錯誤，不是因為它不懂物理，而是因為它被自己的英語訓練數據給“帶偏了”。它不知道，或者說沒能優先采用日本當地的學術慣例。

在其他科目上大殺四方的 ChatGPT，在東大世界史的考卷上只拿到了15分（滿分60分），得分率僅為25%。

與之形成鮮明對比的是 Claude。

Claude 在日本史和世界史的論述題上表現出色，被老師評價為“優等生”、“幾乎完美”。這說明不同的模型在能力上出現了顯著的分化。

這個現象揭示了“知道什么”和“如何表達”是兩種完全不同的能力。GPT 擁有海量的歷史知識，但它是一個糟糕的“敘事者”。它無法將這些知識點組織成一個有說服力、有邏輯的論證過程。

這正是我們日常工作中的核心場景。寫一份商業計劃書、做一次項目匯報、與客戶進行一次關鍵溝通，考驗的不僅僅是你是否掌握信息，更是你如何組織信息、傳遞觀點、說服他人的能力。

AI 可以成為我們無窮無盡的知識庫和資料助手，但如何將這些原始材料加工成有影響力的最終產品，這個“最后一公里”的整合與表達能力，在很長一段時間內都將是人類的核心價值。一個平庸的分析師和一個頂級的策略顧問，區別就在于此。

另一個普遍存在且非常有趣的問題是，AI 普遍無法遵守“字數限制”這一基本指令。

這個問題看起來很小，但它背后是一個大問題：AI 在“輸出控制”上存在巨大缺陷。即便在 prompt 中明確指令，它也無法精確地約束自己的行為。它知道要說什么，但不知道說到哪里該停。它能理解復雜的理論，卻無法遵守一個簡單的規則。

這在實際應用中是一個巨大的隱患。如果你讓AI生成一份摘要，它可能會給你一篇過長的報告。如果你讓它根據模板填充內容，它可能會破壞格式。這種“失控”狀態說明，AI 仍是一種工具，而不是一個可靠的自主智能體。它依然需要一個能夠理解并強制執行各種顯性及隱性規則的人類來作為監督。

這個“監工”的角色，不僅僅是檢查錯別字，更是確保AI的輸出符合項目的所有規范、約束和目標。在未來，管理一個AI團隊，或許就像管理一群天賦異稟但毫無紀律的實習生，人類管理者的價值就在于設定框架、監督過程、修正結果。

這次測試的結果顯示，不同的AI已經演化出了截然不同的“模型人格”。

Gemini 精力旺盛、知識面廣但偶爾會犯低級錯誤。它在數學解題時傾向于用復雜的代數運算“硬算”出結果，而不是像GPT那樣尋找更巧妙的幾何解法。它甚至在一次化學計算中犯下了“1/2 × 3 = 15”這種令人啼笑皆非的低級錯誤。

這種“人格化”差異告訴我們，“AI”不是一個單數概念，而是一個復數概念。未來不存在一個萬能的AI，而是會存在一個由不同特長的AI組成的工具箱。

日本人工智能學會的負責人、慶應義塾大學教授栗原聰對此評論道：“讓人類和AI在同一個賽場上競爭是沒有意義的。就像我們不會讓人和計算器比賽算術一樣。”

當AI能在標準化考試上輕松碾壓人類冠軍時，我們必須承認，這類考試的價值已經改變了。它不再是衡量人類知識水平的標尺，而淪為了衡量機器能力進化的基準。

這迫使教育系統必須做出變革，從考查“記憶和計算”轉向考查“創造力、批判性思維和獨創性”——這些恰恰是AI在此次考試中暴露出的短板。

任何可以被標準化、可以被量化考核、有固定答案的技能，其價值都在被快速稀釋。如果你今天的工作核心是快速準確地處理已知信息和執行固定流程，那么你的崗位就岌岌可危。

反之，AI暴露的那些“愚蠢”之處，正是人類價值的避風港和未來工作的藏寶圖。

LifePrompt 的負責人遠藤聰志說：“看到AI從數學38分到滿分只用了一年，我們就該明白，根據今天的AI能力去設計未來的工作流程是短視的。我們需要以10年、20年后的AI為前提來設計我們今天的業務和組織。”

AI攻克東京大學，宣告了以知識記憶和標準化解題為核心的評價體系的破產。但它也開啟了一個新時代。

在這個時代，人類的價值不再是成為一個更快的計算器或一個更大的硬盤，而是成為一個有品位的設計師、一個有洞察的敘事者、一個有擔當的指揮官和一個有智慧的“翻譯家”。

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.