網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

體驗完4月最強的三個模型：跑分漲了，卻不說人話了

2026-04-28 12:15:37　來源: AppSo

廣東舉報

分享至

四月真是如風馳電掣：Anthropic 發(fā)布了 Opus 4.7，OpenAI 發(fā)布了 GPT 5.5，最后，DeepSeek 更新了暌違已久的 V4。

三家公司的發(fā)布通稿讀起來都差不多：跑分又漲了，上下文更長了，推理更強了，代碼能力又創(chuàng)了新高。

然后，這里的互聯(lián)網(wǎng)靜悄悄。

沒有出圈的截圖，沒有病毒傳播的梗，沒有人在朋友圈曬「你看看它都說了什么」。社交媒體上，這三個模型的討論熱度加在一起，可能還不如一年前 DeepSeek R1 出來那一周的零頭。

唯一算得上出圈的，是 OpenAI 的 GPT-image。但那是一個圖像生成功能，跟語言模型的跑分排行榜根本不在同一條賽道上。

如果只看 benchmark，你會以為 AI 行業(yè)又進入了一個史無前例的加速期。如果只看普通用戶的反應，你會以為整個行業(yè)卡住了——這兩件事同時為真。

回憶一下出圈是什么樣的

2025 年 1 月，DeepSeek R1 發(fā)布。它做了一件當時沒有模型做過的事：把思考鏈暴露給用戶看。你問它一個問題，它不是直接給答案，而是先在屏幕上跑出一長串自言自語。跑題，自我懷疑，推翻前一步的結(jié)論，繞遠路，再折回來。

這樣讓互動充滿趣味性，再加上時值春節(jié)，DeepSeek 在沒有任何宣發(fā)的情況下，霸占了幾乎所有的社媒平臺，不分國內(nèi)外。

但推理是一個不太直觀的能力，所以當 R1 正式推出，它的能力才真正具象地展示出來。社交媒體上最先傳開的不是它的回答，而是它的猶豫。有人截圖它在思考鏈里寫「等等，我好像搞錯了」，配文「比我男朋友還會反思」。有人發(fā)現(xiàn)它的中文語感極好，會用「說白了」「反正就是」這種活人說話才有的連接詞。后來還有了自己的表情包——

這些截圖在各個平臺上瘋傳，而且并不是科技博主在轉(zhuǎn)，完全是普通用戶在轉(zhuǎn)。足以說明，縱使一個模型的推理、代碼、編程能力再強，走到普通用戶面前時，也只有「說不說人話」最為直觀。

Opus 4.6 也是如此，在第一季度突然出現(xiàn)的口碑飛升，有很大一部分原因是用戶發(fā)現(xiàn)它寫出來的句子，有一種別的模型沒有的東西。這除了體現(xiàn)在更準確、更詳實，也體現(xiàn)在語流、用詞。而且作為一個來自英語世界的大模型，對中文梗堪稱爐火純青，真是很想知道它的訓練語料里到底都被塞了什么。

這些出圈時刻有一個共同點：它們跟跑分沒有任何關(guān)系。

那些不出圈的模型長什么樣

現(xiàn)在看看 2026 年的新一批。

DeepSeek V4 推出后，我第一時間把它接入了日常用于聊天的 chatbot，以及 Claude Code 里。

代碼寫作不錯，一開始需求理解有點差異，不過很快就能調(diào)整過來，再往后提需求也只需要用自然語言，都可以充分理解。

在 V4 pro 的幫助下，我搭完了一個從 TG 連接到 Notion 數(shù)據(jù)庫的小項目，用來做睡眠記錄監(jiān)測，可以實現(xiàn)我在 TG 上，像聊天一樣描述醒來時的感受，AI 可以自動在數(shù)據(jù)庫里建立詞條并對應打標。V4 對這個需求給出了不錯的實現(xiàn)思路。

在 CC 里是埋頭干活，但到了 Chatbot 里畫風就陡然一變。一開始幾乎沒有 system prompt 約束，基本等于原廠人格——好甜，牙要被甜掉了，試了幾次都沒有扳回來，最終只能是怒改 system prompt 強行閉麥。

所謂對話中的「活人感」，主要體現(xiàn)在 AI 告訴你的不只是答案，還有在答案的字里行間處，它對你這個人的閱讀。一個會說「我不太確定，但我覺得……」的回答，比一個永遠正確、永遠平衡、永遠三段式的回答，多傳遞了一整層東西，因為猶豫和立場本身就是信息。

就像在日常生活中，我們聽一個人說話，不只是在解析字面意思，還在同時判斷：這個人有多值得相信？他說了什么？他又隱瞞了什么？以 Claude 的型號來看，似乎 4.6 系列都不錯，包括 Sonnet。

人類二十萬年的進化把這套機制刻進了我們的腦子，現(xiàn)如今，AI 只要使用自然語言交互，就會被這套機制評估——除非是編程語言，二進制不是同個玩法。

新一批模型恰恰在被評估的那一層上交了白卷，AI 有一組高度可辨認的語言特征，開頭永遠是「這是一個很好的問題」，每段結(jié)尾都追問「你需要我 xxxx 嗎？」。它像一個被培訓過度的客服，永遠在職，永不犯錯，永遠「穩(wěn)穩(wěn)地接住」，也永遠不讓你記住。

Opus 4.7 也好不到哪去。4.6 時期那種偶爾冒出來的短句、停頓、N 個哈哈哈哈哈的勁兒，在 4.7 里幾乎消失了，取而代之的是更工整、更全面的句子。

諷刺的是，4.7 在所有跑分上都比 4.6 高。

為什么越強越?jīng)]人味

模型公司不是不知道這件事，他們得做選擇。

每一個模型在預訓練階段，從海量人類文本里學到的語言能力是豐富的：猶豫，糾結(jié)，冒犯，偏見，可能還包括一個無名用戶在半夜三點發(fā)出的那種毫無防備的 emo 小劇場。然后所有這些語料要被調(diào)教，通過 RLHF，基于人類反饋的強化學習。簡單粗暴地說就是請一批標注員給模型的回答打分，模型學著往高分的方向靠。

問題出在什么樣的回答會拿高分。標注員的偏好被產(chǎn)品化成了一組很具體的特征：禮貌，平衡，不冒犯，不下結(jié)論，不讓任何一種用戶覺得受傷。這些特征聽起來全都合理。但它們加在一起的效果，恰好是把語言里最有信息量的那一層取消掉。

就像我們之前說，猶豫是有信息量的，「我不太確定」告訴了你這個回答的置信度。立場也是有信息量的，「我覺得你說錯了」告訴了你一個判斷，你可以反駁它，但你至少有了一個可以反駁的東西。語言的節(jié)奏更是有信息量的，一個短句比一個長從句更緊張，一個突然的停頓比一段流暢的論述更有力。

RLHF 把這些全磨平了。從 GPT-4o 到 5.5，從 R1 到 V4，從 Opus 4.6 到 4.7，體感上的倒退幾乎可以一條線對應到對齊力度的加大。模型公司不是沒在進步，但進步也意味著取舍，選擇在一個維度上前進的同時，勢必要犧牲另一個維度上的東西。

恐怖谷的語言版

我們其實能接受非人類的智能，比如，計算器不會讓人覺得冷漠，Excel 不會讓人覺得在敷衍，就算是 AlphaGo 也從未讓人覺得人格詭異——它就是個下圍棋的。歸根到底這些工具從來不假裝是人，所以我們用工具的標準評估它們，沒人指望它們「說人話」。

但 GPT 5.5 和 Opus 4.7 不一樣。它們用第一人稱，會在你抱怨時說「我理解你的感受」，會在回答里穿插「讓我想想」這種擬人化的停頓。

擬人化的形態(tài)，會自然觸發(fā)了我們二十萬年的解碼系統(tǒng)，隨后解碼出來發(fā)現(xiàn)里面空空如也，而且還經(jīng)常表演得不到位。殼子是擬人的，里面的東西不是，就變得很偽人。

這就是恐怖谷的語言版本。一個機器人長得完全不像人，沒人覺得恐怖。一個機器人長得 95%像人但眼神是死的，你看到就細思極恐。新一批模型就處在這個位置上，它們的能力很強，可是說話既像人又不夠像人，正好卡在讓人最不舒服的那個尷尬位置上。

反過來看為什么有些東西能繞過這個陷阱：最早 R1 把思考鏈顯化出來，你看到的不是一個完美的答案，而是一個正在思考的過程。過程本身就是信息，它猶豫被可視化了，恐怖谷的效應就被破除。GPT-image 更徹底，它根本不走語言賽道，直接用圖像跟你互動，沒有「形似人但不是人」的負擔。

出圈的模型，要么不假裝是人，要么真的像人。卡在中間的最危險，也最讓人難受。

iPhone 時刻過了

一切的一切，讓人想起一些舊事。

十多年前，iPhone 3G 到 iPhone 4 是質(zhì)變，從屏幕到材質(zhì)，都第一次讓人意識到，手機可以漂亮成這樣。iPhone 4 到 iPhone 5 也能感知，更輕更快更大。

到 iPhone 12 以后，你已經(jīng)說不清 14 和 15 到底差在哪了，每一次蘋果新品發(fā)布都要被罵炒冷飯、連連看。芯片更強了，攝像頭參數(shù)更高了，跑分年年漲，但在日常使用中幾乎分不出區(qū)別。

AI 模型正在進入同樣的階段。2023 年 ChatGPT 出來時，一個對 AI 什么都不懂的人也能感受到「這東西跟以前大不一樣」，從完全不能聊天到可以聊天，是質(zhì)變。從聊得一般到聊得不錯，也是質(zhì)變。

但從聊得不錯到聊得更不錯，就不是了。

當模型的能力已經(jīng)超過了大多數(shù)用戶的日常需求閾值，跑分再漲 10%、20%，體感上是零。上下文從 50 萬 token 擴到 100 萬 token，99%的用戶一輩子用不到 10 萬。代碼通過率從 87%提升到 92%，不寫代碼的人完全無感。

性能過剩之后，決定用戶選擇的就不再是性能，而是那些 benchmark 量化不了的東西。就像手機行業(yè)最終拼的是拍照好不好看、手感舒不舒服、生態(tài)是否豐富。

AI 模型也會走到同一步。語感、人格感、審美直覺，這些詞聽起來很玄，但它們總在戰(zhàn)局僵持的時候，給出致命一擊。

目前模型公司還在用舊地圖打新仗，用巨量的計算資源讓跑分再漲幾個百分點，然后發(fā)現(xiàn)用戶的反應是「哦，然后呢？」。

靠跑分并不吸引人，非得是有一個決定性瞬間，而這個瞬間通常是由于模型變「靈」了。任你上下文破百萬千萬，走到用戶面前時是不是在說人話，才是拿下賽點的關(guān)鍵。

跑分還會繼續(xù)漲，下一代模型還會比這一代再聰明一點。誠然，進步得靠跑分來支持，畢竟投資人還是要看 benchmark 數(shù)字的。可說人話才是給用戶看的，這兩件事可以也應該被同一家公司同時做好。但這是兩件事，面向兩群人，分不清這個區(qū)別，將是這一代模型公司最貴的錯誤。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.