很多人以為,AI最怕的是不會。
錯了。
這次最有意思的地方是:AI不是不會。它在數(shù)學(xué)上能滿分,在英語上能拿到90%左右,可一到世界史論述題,直接掉到25%。
![]()
這就不是“知識不夠”的問題了。
它背過的歷史材料,可能比絕大多數(shù)人一輩子讀過的都多。可它還是寫不好一篇真正有結(jié)構(gòu)、有取舍、有前后呼應(yīng)的歷史論述。
這件事,對普通人很重要。
LifePrompt 的測評里,ChatGPT 在東大、京大入學(xué)考試中已經(jīng)非常嚇人。東大理科三類總分超過合格者最高分,數(shù)學(xué)還拿了滿分。
![]()
這才是重點。
AI不是不知道工業(yè)革命,不知道殖民主義,不知道民族國家。它的問題是:它不知道這一段該服務(wù)于哪一個總論點,不知道哪些材料該刪,不知道第七段要怎么回到第一段埋下的問題。
換句話說,它不是輸在知識量。
它輸在“組織知識”。
![]()
說人話就是:一個系統(tǒng)的不確定性越高,熵越高。
拿這個框架看 AI 成績單,就清楚了。
數(shù)學(xué)題是低熵任務(wù)。
一道題只要條件夠清楚,規(guī)則夠明確,正確路徑會慢慢收斂。你不會因為第一段寫了英國紡織業(yè),第二段突然要不要轉(zhuǎn)去非洲殖民地而糾結(jié)。
可歷史論述題是高熵任務(wù)。
這就是難點。
AI很擅長做“下一步最合理”的事。
OpenAI 對 token 的解釋也提到,大語言模型會學(xué)習(xí) token 之間的統(tǒng)計關(guān)系,并擅長生成序列中的下一個 token。
![]()
這在低熵任務(wù)里很強。
因為下一步最合理,往往就是全局正確。
但在高熵任務(wù)里,麻煩來了。
它像一個很勤快的員工,每一步都不離譜。
但它不一定知道,整個項目到底要往哪里去。
ConStory-Bench 這個長故事評測就專門看 LLM 在 8000 到 10000 詞的長敘事里能不能維持一致性。研究者發(fā)現(xiàn),當(dāng)前模型仍會出現(xiàn)系統(tǒng)性的事實追蹤錯誤、時間推理錯誤和敘事一致性問題。
![]()
這就解釋了為什么 AI 做選擇題、算數(shù)學(xué)題、寫模板郵件很厲害,但一到長篇論述、商業(yè)策略、復(fù)雜公關(guān),就容易看著順,其實散。
因為這些任務(wù)真正考的不是“你知道多少”。
考的是:你能不能在大量可能性里選一條路,并且堅持到底。
以后工作里,低熵任務(wù)會越來越便宜。
數(shù)據(jù)錄入、格式整理、模板合同、標準報告、代碼小修小補、固定流程客服,這些東西只要規(guī)則明確,AI就會越來越強。
但高熵任務(wù)不會這么快消失。
比如:老板問你一個新業(yè)務(wù)要不要做。客戶突然翻臉,怎么談。一個產(chǎn)品賣不動,問題到底在價格、渠道、定位,還是用戶根本不信你。公司要轉(zhuǎn)型,第一步先動誰,第二步保誰,第三步怎么解釋給團隊聽。
這些問題沒有唯一答案。
它們有很多“看起來都可以”的答案。
真正值錢的能力,是你能選一個,講清楚,推下去,并承擔(dān)后果。
這就叫全局敘事能力。
什么總論點、分論點、論據(jù)、過渡、首尾呼應(yīng),聽起來像形式主義。
但今天回頭看,這套訓(xùn)練突然變重要了。
它訓(xùn)練的是:在一個沒有標準答案的問題里,建立結(jié)構(gòu),控制材料,維持前后一致。
這正是 AI 現(xiàn)在最容易翻車的地方。
AI在低熵任務(wù)里無敵,在高熵任務(wù)里仍然會失控。
未來普通人用 AI,不是跟它比誰算得快、誰背得多。
那你肯定輸。
真正的辦法是,把低熵任務(wù)交給 AI,把高熵判斷留給自己。
讓 AI 查資料、列選項、改格式、補細節(jié)。
但最后那條主線,必須你來定。
訓(xùn)練的是一個人面對復(fù)雜世界時,最難被機器替代的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.