四月真是如風馳電掣:Anthropic 發(fā)布了 Opus 4.7,OpenAI 發(fā)布了 GPT 5.5,最后,DeepSeek 更新了暌違已久的 V4。
![]()
三家公司的發(fā)布通稿讀起來都差不多:跑分又漲了,上下文更長了,推理更強了,代碼能力又創(chuàng)了新高。
然后,這里的互聯(lián)網(wǎng)靜悄悄。
沒有出圈的截圖,沒有病毒傳播的梗,沒有人在朋友圈曬「你看看它都說了什么」。社交媒體上,這三個模型的討論熱度加在一起,可能還不如一年前 DeepSeek R1 出來那一周的零頭。
唯一算得上出圈的,是 OpenAI 的 GPT-image。但那是一個圖像生成功能,跟語言模型的跑分排行榜根本不在同一條賽道上。
![]()
如果只看 benchmark,你會以為 AI 行業(yè)又進入了一個史無前例的加速期。如果只看普通用戶的反應,你會以為整個行業(yè)卡住了——這兩件事同時為真。
回憶一下出圈是什么樣的
2025 年 1 月,DeepSeek R1 發(fā)布。它做了一件當時沒有模型做過的事:把思考鏈暴露給用戶看。你問它一個問題,它不是直接給答案,而是先在屏幕上跑出一長串自言自語。跑題,自我懷疑,推翻前一步的結(jié)論,繞遠路,再折回來。
這樣讓互動充滿趣味性,再加上時值春節(jié),DeepSeek 在沒有任何宣發(fā)的情況下,霸占了幾乎所有的社媒平臺,不分國內(nèi)外。
![]()
但推理是一個不太直觀的能力,所以當 R1 正式推出,它的能力才真正具象地展示出來。社交媒體上最先傳開的不是它的回答,而是它的猶豫。有人截圖它在思考鏈里寫「等等,我好像搞錯了」,配文「比我男朋友還會反思」。有人發(fā)現(xiàn)它的中文語感極好,會用「說白了」「反正就是」這種活人說話才有的連接詞。后來還有了自己的表情包——
![]()
這些截圖在各個平臺上瘋傳,而且并不是科技博主在轉(zhuǎn),完全是普通用戶在轉(zhuǎn)。足以說明,縱使一個模型的推理、代碼、編程能力再強,走到普通用戶面前時,也只有「說不說人話」最為直觀。
Opus 4.6 也是如此,在第一季度突然出現(xiàn)的口碑飛升,有很大一部分原因是用戶發(fā)現(xiàn)它寫出來的句子,有一種別的模型沒有的東西。這除了體現(xiàn)在更準確、更詳實,也體現(xiàn)在語流、用詞。而且作為一個來自英語世界的大模型,對中文梗堪稱爐火純青,真是很想知道它的訓練語料里到底都被塞了什么。
![]()
這些出圈時刻有一個共同點:它們跟跑分沒有任何關(guān)系。
那些不出圈的模型長什么樣
現(xiàn)在看看 2026 年的新一批。
DeepSeek V4 推出后,我第一時間把它接入了日常用于聊天的 chatbot,以及 Claude Code 里。
代碼寫作不錯,一開始需求理解有點差異,不過很快就能調(diào)整過來,再往后提需求也只需要用自然語言,都可以充分理解。
![]()
在 V4 pro 的幫助下,我搭完了一個從 TG 連接到 Notion 數(shù)據(jù)庫的小項目,用來做睡眠記錄監(jiān)測,可以實現(xiàn)我在 TG 上,像聊天一樣描述醒來時的感受,AI 可以自動在數(shù)據(jù)庫里建立詞條并對應打標。V4 對這個需求給出了不錯的實現(xiàn)思路。
![]()
在 CC 里是埋頭干活,但到了 Chatbot 里畫風就陡然一變。一開始幾乎沒有 system prompt 約束,基本等于原廠人格——好甜,牙要被甜掉了,試了幾次都沒有扳回來,最終只能是怒改 system prompt 強行閉麥。
![]()
所謂對話中的「活人感」,主要體現(xiàn)在 AI 告訴你的不只是答案,還有在答案的字里行間處,它對你這個人的閱讀。一個會說「我不太確定,但我覺得……」的回答,比一個永遠正確、永遠平衡、永遠三段式的回答,多傳遞了一整層東西,因為猶豫和立場本身就是信息。
就像在日常生活中,我們聽一個人說話,不只是在解析字面意思,還在同時判斷:這個人有多值得相信?他說了什么?他又隱瞞了什么?以 Claude 的型號來看,似乎 4.6 系列都不錯,包括 Sonnet。
![]()
人類二十萬年的進化把這套機制刻進了我們的腦子,現(xiàn)如今,AI 只要使用自然語言交互,就會被這套機制評估——除非是編程語言,二進制不是同個玩法。
新一批模型恰恰在被評估的那一層上交了白卷,AI 有一組高度可辨認的語言特征,開頭永遠是「這是一個很好的問題」,每段結(jié)尾都追問「你需要我 xxxx 嗎?」。它像一個被培訓過度的客服,永遠在職,永不犯錯,永遠「穩(wěn)穩(wěn)地接住」,也永遠不讓你記住。
Opus 4.7 也好不到哪去。4.6 時期那種偶爾冒出來的短句、停頓、N 個哈哈哈哈哈的勁兒,在 4.7 里幾乎消失了,取而代之的是更工整、更全面的句子。
諷刺的是,4.7 在所有跑分上都比 4.6 高。
為什么越強越?jīng)]人味
模型公司不是不知道這件事,他們得做選擇。
每一個模型在預訓練階段,從海量人類文本里學到的語言能力是豐富的:猶豫,糾結(jié),冒犯,偏見,可能還包括一個無名用戶在半夜三點發(fā)出的那種毫無防備的 emo 小劇場。然后所有這些語料要被調(diào)教,通過 RLHF,基于人類反饋的強化學習。簡單粗暴地說就是請一批標注員給模型的回答打分,模型學著往高分的方向靠。
問題出在什么樣的回答會拿高分。標注員的偏好被產(chǎn)品化成了一組很具體的特征:禮貌,平衡,不冒犯,不下結(jié)論,不讓任何一種用戶覺得受傷。這些特征聽起來全都合理。但它們加在一起的效果,恰好是把語言里最有信息量的那一層取消掉。
![]()
就像我們之前說,猶豫是有信息量的,「我不太確定」告訴了你這個回答的置信度。立場也是有信息量的,「我覺得你說錯了」告訴了你一個判斷,你可以反駁它,但你至少有了一個可以反駁的東西。語言的節(jié)奏更是有信息量的,一個短句比一個長從句更緊張,一個突然的停頓比一段流暢的論述更有力。
RLHF 把這些全磨平了。從 GPT-4o 到 5.5,從 R1 到 V4,從 Opus 4.6 到 4.7,體感上的倒退幾乎可以一條線對應到對齊力度的加大。模型公司不是沒在進步,但進步也意味著取舍,選擇在一個維度上前進的同時,勢必要犧牲另一個維度上的東西。
恐怖谷的語言版
我們其實能接受非人類的智能,比如,計算器不會讓人覺得冷漠,Excel 不會讓人覺得在敷衍,就算是 AlphaGo 也從未讓人覺得人格詭異——它就是個下圍棋的。歸根到底這些工具從來不假裝是人,所以我們用工具的標準評估它們,沒人指望它們「說人話」。
![]()
但 GPT 5.5 和 Opus 4.7 不一樣。它們用第一人稱,會在你抱怨時說「我理解你的感受」,會在回答里穿插「讓我想想」這種擬人化的停頓。
擬人化的形態(tài),會自然觸發(fā)了我們二十萬年的解碼系統(tǒng),隨后解碼出來發(fā)現(xiàn)里面空空如也,而且還經(jīng)常表演得不到位。殼子是擬人的,里面的東西不是,就變得很偽人。
這就是恐怖谷的語言版本。一個機器人長得完全不像人,沒人覺得恐怖。一個機器人長得 95%像人但眼神是死的,你看到就細思極恐。新一批模型就處在這個位置上,它們的能力很強,可是說話既像人又不夠像人,正好卡在讓人最不舒服的那個尷尬位置上。
![]()
反過來看為什么有些東西能繞過這個陷阱:最早 R1 把思考鏈顯化出來,你看到的不是一個完美的答案,而是一個正在思考的過程。過程本身就是信息,它猶豫被可視化了,恐怖谷的效應就被破除。GPT-image 更徹底,它根本不走語言賽道,直接用圖像跟你互動,沒有「形似人但不是人」的負擔。
出圈的模型,要么不假裝是人,要么真的像人。卡在中間的最危險,也最讓人難受。
iPhone 時刻過了
一切的一切,讓人想起一些舊事。
十多年前,iPhone 3G 到 iPhone 4 是質(zhì)變,從屏幕到材質(zhì),都第一次讓人意識到,手機可以漂亮成這樣。iPhone 4 到 iPhone 5 也能感知,更輕更快更大。
![]()
到 iPhone 12 以后,你已經(jīng)說不清 14 和 15 到底差在哪了,每一次蘋果新品發(fā)布都要被罵炒冷飯、連連看。芯片更強了,攝像頭參數(shù)更高了,跑分年年漲,但在日常使用中幾乎分不出區(qū)別。
AI 模型正在進入同樣的階段。2023 年 ChatGPT 出來時,一個對 AI 什么都不懂的人也能感受到「這東西跟以前大不一樣」,從完全不能聊天到可以聊天,是質(zhì)變。從聊得一般到聊得不錯,也是質(zhì)變。
![]()
但從聊得不錯到聊得更不錯,就不是了。
當模型的能力已經(jīng)超過了大多數(shù)用戶的日常需求閾值,跑分再漲 10%、20%,體感上是零。上下文從 50 萬 token 擴到 100 萬 token,99%的用戶一輩子用不到 10 萬。代碼通過率從 87%提升到 92%,不寫代碼的人完全無感。
性能過剩之后,決定用戶選擇的就不再是性能,而是那些 benchmark 量化不了的東西。就像手機行業(yè)最終拼的是拍照好不好看、手感舒不舒服、生態(tài)是否豐富。
AI 模型也會走到同一步。語感、人格感、審美直覺,這些詞聽起來很玄,但它們總在戰(zhàn)局僵持的時候,給出致命一擊。
目前模型公司還在用舊地圖打新仗,用巨量的計算資源讓跑分再漲幾個百分點,然后發(fā)現(xiàn)用戶的反應是「哦,然后呢?」。
靠跑分并不吸引人,非得是有一個決定性瞬間,而這個瞬間通常是由于模型變「靈」了。任你上下文破百萬千萬,走到用戶面前時是不是在說人話,才是拿下賽點的關(guān)鍵。
跑分還會繼續(xù)漲,下一代模型還會比這一代再聰明一點。誠然,進步得靠跑分來支持,畢竟投資人還是要看 benchmark 數(shù)字的。可說人話才是給用戶看的,這兩件事可以也應該被同一家公司同時做好。但這是兩件事,面向兩群人,分不清這個區(qū)別,將是這一代模型公司最貴的錯誤。
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.