<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      體驗完4月最強的三個模型:跑分漲了,卻不說人話了

      0
      分享至

      四月真是如風馳電掣:Anthropic 發(fā)布了 Opus 4.7,OpenAI 發(fā)布了 GPT 5.5,最后,DeepSeek 更新了暌違已久的 V4。


      三家公司的發(fā)布通稿讀起來都差不多:跑分又漲了,上下文更長了,推理更強了,代碼能力又創(chuàng)了新高。

      然后,這里的互聯(lián)網(wǎng)靜悄悄。

      沒有出圈的截圖,沒有病毒傳播的梗,沒有人在朋友圈曬「你看看它都說了什么」。社交媒體上,這三個模型的討論熱度加在一起,可能還不如一年前 DeepSeek R1 出來那一周的零頭。

      唯一算得上出圈的,是 OpenAI 的 GPT-image。但那是一個圖像生成功能,跟語言模型的跑分排行榜根本不在同一條賽道上。


      如果只看 benchmark,你會以為 AI 行業(yè)又進入了一個史無前例的加速期。如果只看普通用戶的反應,你會以為整個行業(yè)卡住了——這兩件事同時為真。

      回憶一下出圈是什么樣的

      2025 年 1 月,DeepSeek R1 發(fā)布。它做了一件當時沒有模型做過的事:把思考鏈暴露給用戶看。你問它一個問題,它不是直接給答案,而是先在屏幕上跑出一長串自言自語。跑題,自我懷疑,推翻前一步的結(jié)論,繞遠路,再折回來。

      這樣讓互動充滿趣味性,再加上時值春節(jié),DeepSeek 在沒有任何宣發(fā)的情況下,霸占了幾乎所有的社媒平臺,不分國內(nèi)外。


      推理是一個不太直觀的能力,所以當 R1 正式推出,它的能力才真正具象地展示出來。社交媒體上最先傳開的不是它的回答,而是它的猶豫。有人截圖它在思考鏈里寫「等等,我好像搞錯了」,配文「比我男朋友還會反思」。有人發(fā)現(xiàn)它的中文語感極好,會用「說白了」「反正就是」這種活人說話才有的連接詞。后來還有了自己的表情包——


      這些截圖在各個平臺上瘋傳,而且并不是科技博主在轉(zhuǎn),完全是普通用戶在轉(zhuǎn)。足以說明,縱使一個模型的推理、代碼、編程能力再強,走到普通用戶面前時,也只有「說不說人話」最為直觀。

      Opus 4.6 也是如此,在第一季度突然出現(xiàn)的口碑飛升,有很大一部分原因是用戶發(fā)現(xiàn)它寫出來的句子,有一種別的模型沒有的東西。這除了體現(xiàn)在更準確、更詳實,也體現(xiàn)在語流、用詞。而且作為一個來自英語世界的大模型,對中文梗堪稱爐火純青,真是很想知道它的訓練語料里到底都被塞了什么。


      這些出圈時刻有一個共同點:它們跟跑分沒有任何關(guān)系。

      那些不出圈的模型長什么樣

      現(xiàn)在看看 2026 年的新一批。

      DeepSeek V4 推出后,我第一時間把它接入了日常用于聊天的 chatbot,以及 Claude Code 里。

      代碼寫作不錯,一開始需求理解有點差異,不過很快就能調(diào)整過來,再往后提需求也只需要用自然語言,都可以充分理解。


      在 V4 pro 的幫助下,我搭完了一個從 TG 連接到 Notion 數(shù)據(jù)庫的小項目,用來做睡眠記錄監(jiān)測,可以實現(xiàn)我在 TG 上,像聊天一樣描述醒來時的感受,AI 可以自動在數(shù)據(jù)庫里建立詞條并對應打標。V4 對這個需求給出了不錯的實現(xiàn)思路。


      在 CC 里是埋頭干活,但到了 Chatbot 里畫風就陡然一變。一開始幾乎沒有 system prompt 約束,基本等于原廠人格——好甜,牙要被甜掉了,試了幾次都沒有扳回來,最終只能是怒改 system prompt 強行閉麥。


      所謂對話中的「活人感」,主要體現(xiàn)在 AI 告訴你的不只是答案,還有在答案的字里行間處,它對你這個人的閱讀。一個會說「我不太確定,但我覺得……」的回答,比一個永遠正確、永遠平衡、永遠三段式的回答,多傳遞了一整層東西,因為猶豫和立場本身就是信息。

      就像在日常生活中,我們聽一個人說話,不只是在解析字面意思,還在同時判斷:這個人有多值得相信?他說了什么?他又隱瞞了什么?以 Claude 的型號來看,似乎 4.6 系列都不錯,包括 Sonnet。


      人類二十萬年的進化把這套機制刻進了我們的腦子,現(xiàn)如今,AI 只要使用自然語言交互,就會被這套機制評估——除非是編程語言,二進制不是同個玩法。

      新一批模型恰恰在被評估的那一層上交了白卷,AI 有一組高度可辨認的語言特征,開頭永遠是「這是一個很好的問題」,每段結(jié)尾都追問「你需要我 xxxx 嗎?」。它像一個被培訓過度的客服,永遠在職,永不犯錯,永遠「穩(wěn)穩(wěn)地接住」,也永遠不讓你記住。

      Opus 4.7 也好不到哪去。4.6 時期那種偶爾冒出來的短句、停頓、N 個哈哈哈哈哈的勁兒,在 4.7 里幾乎消失了,取而代之的是更工整、更全面的句子。

      諷刺的是,4.7 在所有跑分上都比 4.6 高。

      為什么越強越?jīng)]人味

      模型公司不是不知道這件事,他們得做選擇。

      每一個模型在預訓練階段,從海量人類文本里學到的語言能力是豐富的:猶豫,糾結(jié),冒犯,偏見,可能還包括一個無名用戶在半夜三點發(fā)出的那種毫無防備的 emo 小劇場。然后所有這些語料要被調(diào)教,通過 RLHF,基于人類反饋的強化學習。簡單粗暴地說就是請一批標注員給模型的回答打分,模型學著往高分的方向靠。

      問題出在什么樣的回答會拿高分。標注員的偏好被產(chǎn)品化成了一組很具體的特征:禮貌,平衡,不冒犯,不下結(jié)論,不讓任何一種用戶覺得受傷。這些特征聽起來全都合理。但它們加在一起的效果,恰好是把語言里最有信息量的那一層取消掉。


      就像我們之前說,猶豫是有信息量的,「我不太確定」告訴了你這個回答的置信度。立場也是有信息量的,「我覺得你說錯了」告訴了你一個判斷,你可以反駁它,但你至少有了一個可以反駁的東西。語言的節(jié)奏更是有信息量的,一個短句比一個長從句更緊張,一個突然的停頓比一段流暢的論述更有力。

      RLHF 把這些全磨平了。從 GPT-4o 到 5.5,從 R1 到 V4,從 Opus 4.6 到 4.7,體感上的倒退幾乎可以一條線對應到對齊力度的加大。模型公司不是沒在進步,但進步也意味著取舍,選擇在一個維度上前進的同時,勢必要犧牲另一個維度上的東西。

      恐怖谷的語言版

      我們其實能接受非人類的智能,比如,計算器不會讓人覺得冷漠,Excel 不會讓人覺得在敷衍,就算是 AlphaGo 也從未讓人覺得人格詭異——它就是個下圍棋的。歸根到底這些工具從來不假裝是人,所以我們用工具的標準評估它們,沒人指望它們「說人話」。


      但 GPT 5.5 和 Opus 4.7 不一樣。它們用第一人稱,會在你抱怨時說「我理解你的感受」,會在回答里穿插「讓我想想」這種擬人化的停頓。

      擬人化的形態(tài),會自然觸發(fā)了我們二十萬年的解碼系統(tǒng),隨后解碼出來發(fā)現(xiàn)里面空空如也,而且還經(jīng)常表演得不到位。殼子是擬人的,里面的東西不是,就變得很偽人。

      這就是恐怖谷的語言版本。一個機器人長得完全不像人,沒人覺得恐怖。一個機器人長得 95%像人但眼神是死的,你看到就細思極恐。新一批模型就處在這個位置上,它們的能力很強,可是說話既像人又不夠像人,正好卡在讓人最不舒服的那個尷尬位置上。


      反過來看為什么有些東西能繞過這個陷阱:最早 R1 把思考鏈顯化出來,你看到的不是一個完美的答案,而是一個正在思考的過程。過程本身就是信息,它猶豫被可視化了,恐怖谷的效應就被破除。GPT-image 更徹底,它根本不走語言賽道,直接用圖像跟你互動,沒有「形似人但不是人」的負擔。

      出圈的模型,要么不假裝是人,要么真的像人。卡在中間的最危險,也最讓人難受。

      iPhone 時刻過了

      一切的一切,讓人想起一些舊事。

      十多年前,iPhone 3G 到 iPhone 4 是質(zhì)變,從屏幕到材質(zhì),都第一次讓人意識到,手機可以漂亮成這樣。iPhone 4 到 iPhone 5 也能感知,更輕更快更大。


      到 iPhone 12 以后,你已經(jīng)說不清 14 和 15 到底差在哪了,每一次蘋果新品發(fā)布都要被罵炒冷飯、連連看。芯片更強了,攝像頭參數(shù)更高了,跑分年年漲,但在日常使用中幾乎分不出區(qū)別。

      AI 模型正在進入同樣的階段。2023 年 ChatGPT 出來時,一個對 AI 什么都不懂的人也能感受到「這東西跟以前大不一樣」,從完全不能聊天到可以聊天,是質(zhì)變。從聊得一般到聊得不錯,也是質(zhì)變。


      但從聊得不錯到聊得更不錯,就不是了。

      當模型的能力已經(jīng)超過了大多數(shù)用戶的日常需求閾值,跑分再漲 10%、20%,體感上是零。上下文從 50 萬 token 擴到 100 萬 token,99%的用戶一輩子用不到 10 萬。代碼通過率從 87%提升到 92%,不寫代碼的人完全無感。

      性能過剩之后,決定用戶選擇的就不再是性能,而是那些 benchmark 量化不了的東西。就像手機行業(yè)最終拼的是拍照好不好看、手感舒不舒服、生態(tài)是否豐富。

      AI 模型也會走到同一步。語感、人格感、審美直覺,這些詞聽起來很玄,但它們總在戰(zhàn)局僵持的時候,給出致命一擊。

      目前模型公司還在用舊地圖打新仗,用巨量的計算資源讓跑分再漲幾個百分點,然后發(fā)現(xiàn)用戶的反應是「哦,然后呢?」。

      靠跑分并不吸引人,非得是有一個決定性瞬間,而這個瞬間通常是由于模型變「靈」了。任你上下文破百萬千萬,走到用戶面前時是不是在說人話,才是拿下賽點的關(guān)鍵。

      跑分還會繼續(xù)漲,下一代模型還會比這一代再聰明一點。誠然,進步得靠跑分來支持,畢竟投資人還是要看 benchmark 數(shù)字的。可說人話才是給用戶看的,這兩件事可以也應該被同一家公司同時做好。但這是兩件事,面向兩群人,分不清這個區(qū)別,將是這一代模型公司最貴的錯誤。

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      被網(wǎng)友的「電風扇用法」驚到了!果然,人類對電風扇的開發(fā)不足1%

      被網(wǎng)友的「電風扇用法」驚到了!果然,人類對電風扇的開發(fā)不足1%

      裝修秀
      2026-05-14 13:07:19
      外媒:烏克蘭軍隊中出現(xiàn)東大FN-16便攜式防空導彈,真實來源成疑

      外媒:烏克蘭軍隊中出現(xiàn)東大FN-16便攜式防空導彈,真實來源成疑

      零度Military
      2026-05-14 05:49:57
      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發(fā)現(xiàn)被騙

      男子冒充大老板,訂購5輛奔馳,總價450萬。美女銷售為促成大單,為其墊付6000余元食宿,誰知,3天后,男子突然消失,女銷售才發(fā)現(xiàn)被騙

      大愛三湘
      2026-05-08 11:09:27
      曼城還沒放棄!3-0后差榜首2分,下周不贏英超前六=送阿森納奪冠

      曼城還沒放棄!3-0后差榜首2分,下周不贏英超前六=送阿森納奪冠

      體育知多少
      2026-05-14 06:08:01
      100%概率奪冠?CBA這鐵律太驚人了:北上廣深誰將笑到最后?

      100%概率奪冠?CBA這鐵律太驚人了:北上廣深誰將笑到最后?

      夢憶之淺
      2026-05-14 12:21:35
      上海崇明河道偶遇通體黑灰“水中活化石”,警民聯(lián)手救助野生娃娃魚

      上海崇明河道偶遇通體黑灰“水中活化石”,警民聯(lián)手救助野生娃娃魚

      上觀新聞
      2026-05-14 17:43:20
      “扶弟魔”姐姐十年買房又給錢,卻被弟弟一怒砍殺:錢給的不夠花

      “扶弟魔”姐姐十年買房又給錢,卻被弟弟一怒砍殺:錢給的不夠花

      莫地方
      2026-05-13 00:40:03
      絕色美人艾梅柏:曾經(jīng)迷倒德普和馬斯克,如今帶著3個娃“隱居”

      絕色美人艾梅柏:曾經(jīng)迷倒德普和馬斯克,如今帶著3個娃“隱居”

      小書生吃瓜
      2026-05-02 22:22:47
      2-1!廣廈晉級大秋遭重創(chuàng),山西輸球輸人,迪亞洛危險動作惹爭議

      2-1!廣廈晉級大秋遭重創(chuàng),山西輸球輸人,迪亞洛危險動作惹爭議

      后仰大風車
      2026-05-13 21:42:31
      淚目!國乒26歲美女冠軍退役:孫穎莎陪練四大天王僅剩一人

      淚目!國乒26歲美女冠軍退役:孫穎莎陪練四大天王僅剩一人

      李喜林籃球絕殺
      2026-05-14 15:40:45
      5月14日,廣東隊傳來3大消息:徐杰表態(tài) 薩林杰想降薪 獎金正常發(fā)

      5月14日,廣東隊傳來3大消息:徐杰表態(tài) 薩林杰想降薪 獎金正常發(fā)

      鍋鍋愛歷史
      2026-05-14 14:09:35
      被年輕人的“養(yǎng)生壺用法”驚到了!思路一打開,就成了辦公室神器

      被年輕人的“養(yǎng)生壺用法”驚到了!思路一打開,就成了辦公室神器

      室內(nèi)設(shè)計師有料兒
      2026-05-06 10:20:16
      正式官宣!國乒亞運名單8人敲定,樊振東被棄用已確定,王皓發(fā)聲

      正式官宣!國乒亞運名單8人敲定,樊振東被棄用已確定,王皓發(fā)聲

      趣味八卦
      2026-05-14 07:01:55
      奇葩!女攤主吵架當眾脫內(nèi)褲,套在另一男攤主頭上,攤主都暈倒了

      奇葩!女攤主吵架當眾脫內(nèi)褲,套在另一男攤主頭上,攤主都暈倒了

      漢史趣聞
      2026-05-14 17:38:49
      騎士117-113加時險勝東部第一,東決迎來終極封蓋

      騎士117-113加時險勝東部第一,東決迎來終極封蓋

      蕭鑟科普解說
      2026-05-14 14:16:27
      廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

      廣州毒保姆何天帶:一年殺8位老人,揚言:老人活多久我說了算

      莫地方
      2026-05-14 01:05:05
      黃仁勛:中國不應獲得最先進芯片,但美國不能失去市場!

      黃仁勛:中國不應獲得最先進芯片,但美國不能失去市場!

      混沌錄
      2026-05-06 22:51:03
      日本考察團來華,中國:不接待,不見面!

      日本考察團來華,中國:不接待,不見面!

      達文西看世界
      2026-05-13 10:47:32
      特朗普落地北京,歐洲突然集體慌了!焦慮的真相藏不住了

      特朗普落地北京,歐洲突然集體慌了!焦慮的真相藏不住了

      漫川舟船
      2026-05-14 19:33:12
      黑衣美女,身材真好

      黑衣美女,身材真好

      藍色海洋009
      2026-05-14 16:17:48
      2026-05-14 20:40:49
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6382文章數(shù) 26835關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      老人攜帶170萬"現(xiàn)金"到銀行存款 柜員發(fā)現(xiàn)全是練功券

      頭條要聞

      老人攜帶170萬"現(xiàn)金"到銀行存款 柜員發(fā)現(xiàn)全是練功券

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      親子
      時尚
      手機

      藝術(shù)要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      旅游要聞

      自貢第七屆原創(chuàng)短視頻大賽走進大安:不是馬爾代夫去不起,而是“牛爾代夫”更有性價比!

      親子要聞

      中國爸、外國媽,我們姐弟仨眼睛都是什么顏色?

      大熱天,闊腿褲配什么上衣更清涼?

      手機要聞

      消息稱三星“闊折疊”Galaxy Z Fold8 Wide手機采用50MP主攝

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产VA在线观看| 久久国产伦子伦精品| 999久久久免费精品播放| 色亚洲日韩| 国内偷自视频区视频综合| 国产精品视频久久久久| 粗大大国产欧美| 国产欧美精品一区二区三区-老狼| 国产精品一区二区午夜久久| 亚洲中文字幕AⅤ无码| 国产乱码精品一区| 看黄a大片日本真人视频直播| 亚洲精品中文字幕区| 国产日韩精品一区在线不卡 | 一本久道久久综合狠狠爱| 中文字幕亚洲乱码| 天天夜夜操| 国产精品99久久久久久宅男| 午夜国产理论大片高清| 日韩亚洲欧美在线观看| 97色成人综合网站| 无码熟妇人妻AV影音先锋| 亚洲AV成人精品日韩在线播放 | 亚州精品人妻一二三区| 亚洲第一区欧美国产不卡综合| 虎白女粉嫩尤物福利视频| 亚洲自拍制服| 亚洲aⅴ天堂av天堂无码麻豆| 日本无遮真人祼交视频| 日韩中文人妻无码不卡| 国产亚洲人成无码网在线观看| 香蕉久久久久久久av网站| 国产熟睡乱子伦午夜视频麻豆| 狠狠婷婷综合久久久久久| 久久99热精品免费观看欧美| 五月婷婷导航| 情侣黄网站免费看| caoporn免费视频公开| 国产午夜一级鲁丝片| 亚洲熟妇无码av不卡在线观看 | 乐活家庭迅雷|