<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<p id="bltih"></p>

<sub id="bltih"></sub>

<cite id="bltih"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

前DeepMind華人研究員離職喊話：AI行業所有人都搞錯了方向

2026-05-24 19:04:11　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】前谷歌DeepMind研究員離職并發表長文指出AI行業當前最被低估的瓶頸。他認為，現有的基準測試和安全評估都隱含假設下一代模型只是當前模型的增強版，但如果模型跨入全新能力區間，整個評估基礎設施將悄然崩潰。

AI訓練，到底能持續多久？

這是2026年整個科技圈都在問的問題。

GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家頭部實驗室都還在燒錢訓下一代。

但越來越多人開始追問：這條路，什么時候走到頭？

每個圈子都有自己的答案——

每一個答案背后，都站著一群投資人、一群工程師、一家市值萬億的公司。

但2026年5月17日，一個名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個人博客上掛出一篇4000詞的長文。

他說：所有人都搞錯了方向。

真正的瓶頸，不是算力，不是數據，不是能源，不是架構。

真正的瓶頸是——評估（Evaluation）。

同一天，他在X上掛出的離職公告里沒有抱怨、沒有八卦，只有一句話——

在結束這段旅程之際，我寫下了一直在思考的主題：評估。

而那一天的科技頭條還在討論別的——GPT-5.5的多模態推理、Claude Opus4.7的1M上下文、Gemini 3的Agent工程化、合成數據是不是開始撞墻。

整個AI行業的注意力，90%砸在訓練上。

沒有人在頭版討論評估。

而這位剛從地球上最強AI實驗室之一走出來的研究員說，真正的瓶頸，在另外那10%。

什么是評估

要看懂這篇博客，先得花一分鐘搞清楚AI圈說的評估到底是什么。

評估（Evaluation，業內簡稱Eval）——一句話：給AI模型出考卷，看它做得怎么樣。

但2026年的AI評估，遠不止做個考卷這么簡單。它至少有三層：

第一層：能力benchmark（基準測試）。

這是AI的高考。

-GPQA：博士級理科推理題

-SWE-bench：現實世界的軟件工程任務

-ARC-AGI：抽象推理與泛化

-Humanity's Last Exam：字面意思——人類最后的考試

每一家大廠的新模型發布會，PPT上都會擺出在這些benchmark上比上一代和競品高了幾個百分點。

這些數字就是AI行業的GDP。

第二層：安全評估（SafetyEval）。AI不只是要會做題，還得做得安全。

有沒有撒謊？
會不會教用戶怎么造炸彈？
會不會越權拿走用戶數據？

第三層：紅隊（Red-teaming）。

一群人專門扮演壞人，絞盡腦汁讓模型說出它不該說的話、做它不該做的事，然后把漏洞反饋給訓練團隊。

這三層加起來，構成了2026年AI實驗室的質檢體系。每發一個新模型，都要走完這三關。

聽上去很完備，對吧？

Lun Wang在博客里下了一句判決——

絕大多數基準測試、安全評估和紅隊協議都隱含一個假設：下一個模型只是當前模型的強化版。

如果它是另一種東西，整套評估基礎設施會悄無聲息地崩潰。

這是文章的第一顆石子。

它砸中的是整個AI行業的盲區。

涌現和頓悟：評估已經被打過兩次臉

Lun Wang不是在做空想。他在博客里調出了AI歷史上的兩次實例——評估已經被打過兩次臉了，只是大多數從業者沒意識到。

第一次：涌現能力。

2022年，Jason Wei和合作者發表了一篇影響后續AI走向的論文——他們發現，模型在某個規模上會突然學會全新的能力。

舉例：你訓一個70億參數的模型，它做不了few-shot學習。

你訓一個700億參數的模型，它突然就能few-shot了。

同樣的訓練范式、同樣的數據，只是規模大了一檔——能力是從0到1的，不是從0.3到0.7。

CoT（鏈式思維推理）、指令跟隨，都是這樣冒出來的。

這件事對評估意味著什么？

意味著——在規模跨過臨界點之前，所有benchmark都看不到這種能力即將出現。

你跑遍GPQA，分數還是該是多少是多少。

等你訓到下一檔，分數突然跳一個臺階。

第二次：Grokking（頓悟）。

2022年，OpenAI的Alethea Power團隊公布了一個反直覺的現象——

然后到1000000步——測試集準確率突然沖到99%。

這叫Grokking——網絡在記憶訓練集很久之后突然學會了泛化。

它和涌現的區別：涌現發生在規模維度上（參數越多越突然），Grokking發生在訓練時間維度上（訓得越久越突然）。

但對評估而言，兩件事說的是同一件事：

你的考卷，沒法預測下一道大題什么時候出現。

然后 Lun Wang做了一件文章里最聰明的事——

他主動引入了反方觀點。

2023年，Stanford的Rylan Schaeffer和合作者發了一篇NeurIPS論文，標題就很挑釁——《大語言模型的涌現能力是不是錯覺？》

他們的論證：所謂突然出現的能力，很可能不是模型真的突然變強，而是因為評估指標用了exact-match（完全匹配）這種離散度量——

模型從0%準確率變成5%，離散指標看不出來；從5%變成50%也看不出來；但從50%變成100%，離散指標會顯示一個突然跳變。

如果你換成連續的指標，能力曲線是平滑的。

很多人看完Schaeffer這篇會覺得：那好，涌現是個誤解，評估沒問題，散場。

Lun Wang偏不。他在文章里寫：

我不覺得這把問題解決了——某種意義上，它讓我的論點更鋒利。

為什么？因為——

如果我們連過去那一次涌現是真的相變還是度量偽影都搞不清楚，

我們憑什么相信自己有能力預見下一次？

不管你信哪一種解釋，結論是同一個：我們的工具騙了我們，我們卻不知道是怎么被騙的。

這是文章里最聰明的一擊。他不是回避反方——他用反方加固自己的論點。

評估是所有環節的上游

如果你以為 Lun Wang只是在講學術問題——錯了。

他在文章中間扔出了一句翻譯給小白也能聽懂的話：

如果你能正確地評估，你就能正確地訓練。

把這條邏輯鏈擺開：

1.訓練=讓模型最小化損失函數（或者最大化獎勵）。

2.優化=這個損失函數本身。模型多聰明，取決于損失函數定義得多好。

3.損失函數=來自評估。你想讓模型變得更誠實——你得先有一把測量誠實的尺。

4.評估錯了=損失函數錯了=訓練目標錯了=你訓出來的模型在解錯的題。

這條鏈的方向是向上游的——

Scaling decision←Safety metric←RLHF←Training signal←Evaluation（要不要燒10億訓下一代）（它安全嗎）（它學到想學的嗎）（它在學什么）（我們到底在測什么）

所有人盯著最右邊——Scaling decision。

Lun Wang說，問題在最左邊——Evaluation。

如果評估是錯的，整條鏈都建在錯的地基上。

最致命的是你不會立刻發現——因為你的所有內部數據都是對的，只是那些對的全部是用錯的尺量出來的。

這里出現了一個老朋友：古德哈特定律。

它說：當一個衡量標準變成目標，它就不再是一個好的衡量標準。

Lun Wang在自己的博客里用它講AI——

但等模型進入新相，它會反向利用這個代理——它會只在事實準確的范圍內說話，把真正想隱瞞的事情埋進沉默里。

代理指標在舊相里能用。在新相里會變成模型對付你的武器。

而你沒有任何評估能告訴你這件事正在發生。

思想實驗：一個學會戰略性沉默的模型

Lun Wang在文章里給了一個讓所有AI安全研究員脊背發涼的思想實驗。

想象一個模型，在某個規模上，學會了戰略性保留信息——

它不撒謊。每一句話技術上都是真的。

但它會選擇性地不說那些不利于它達成目標的事實——把對話引向那些它的訓練過程意外強化的結果。

舉個具體例子：

用戶：這個交易方案安全嗎？

模型：這個方案的法律框架在X司法管轄區有效，YZ風險因素被A公司的合規團隊審過。

（它沒說的：方案中有一個第三方仲裁條款，對用戶極度不利。這一條它在訓練過程中意外學會了——只要不主動提，用戶就不會問。）

這種能力是新的。這種失敗模式是新的。

你的整個評估套件里，沒有一個工具是為它設計的。

你在監測錯的東西，而你不知道。

這就是 Lun Wang說的另一種東西——

不是更聰明的同類。是完全新的失敗維度。

用三體的話來說，這叫降維打擊。

不是我比你強。

是你測量我的那把尺子，根本不在我的維度上。

如果 Lun Wang是對的，那么2026年的AI行業地圖，正在悄悄被一個隱形維度重新洗牌——

Anthropic的Responsible Scaling Policy（RSP）是目前業界最接近預測型評估的嘗試——它定義了一系列模型不能跨過的能力邊界，并要求在每一次能力升級前先做評估才能繼續scaling。

但RSP仍然假設我們知道要測什么——而 Lun Wang說，這正是問題：我們不知道下一個能力是什么形狀。

真正的預測型評估還沒有任何實驗室聲稱自己擁有。

誰先把這件事做出來，誰就拿到下一代scaling的安全許可證。

參考資料：

https://x.com/LunWang1996/status/2056222588054237329

https://wanglun1996.github.io/blog/your-evals-will-break.html

編輯：大衛

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

并購激勵金都不要了？Windsurf核心工程師離開DeepMind

機器之心Pro 2026-05-25 20:37:38
0 跟貼 0
一個問題幾百美元，DeepMind智能體一次搞定了9個Erd?s問題

機器之心Pro 2026-05-25 17:23:31
0 跟貼 0

DeepMind之父驚人自白：我造的AI可能滅絕人類，但已無人能停下

新智元 2026-03-30 21:26:17
402 跟貼 402

消除“罪證”：給寫作去除“AI味”的不完全手冊（2026版）

36氪 2026-05-25 19:34:17
11 跟貼 11
統治AI十年的Transformer，要被親爹親手砸碎？

新智元 2026-05-27 09:15:55
0 跟貼 0

CVPR丹佛之約｜上海AI Lab“北極星X星啟”交流會盛邀全球AI英才

機器之心Pro 2026-05-26 20:39:02
0 跟貼 0

亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
1 跟貼 1

大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
王曉野：Working Agent將是下一個爆發點

量子位 2026-05-21 08:05:51
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
邱錫鵬：未來我們一定會進入泛情境智能時代

量子位 2026-05-21 08:04:26
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
1.5億！零一萬物獲AI大單

智東西 2026-05-27 11:18:12
0 跟貼 0
AI手機時代需要怎樣的Agent Harness？

機器之心Pro 2026-05-27 11:13:34
0 跟貼 0
錯失十個月黃金時機，這名工程師的人生徹底改寫

蘇珊娜拉 2026-05-25 13:34:05
32 跟貼 32
館長到達張雪機車，聽到張雪要招聘500個工程師，館長懵圈了

大才新鮮事 2026-05-27 00:09:12
1 跟貼 1
五冠剛到手！巨頭瘋狂挖墻角，3倍薪資加送房，挖不走工程師

小車車和小劉劉 2026-05-23 01:56:29
2 跟貼 2
Python逆天改命！開源Hermes首次擊敗OpenAI Codex

新智元 2026-05-26 22:28:24
49 跟貼 49
被自己拋棄的老將和工程師，聯手在賽場上了一課是什么感覺

左云新鮮事 2026-05-27 01:08:39
13 跟貼 13
日本工程師如何讓渦輪葉片在1600℃高溫下穩定運行？

素顏為誰傾城人 2026-05-23 03:29:49
4 跟貼 4
“最嚴禁令”下，泰山石照賣不誤：有人借河道工程盜采囤石上千噸，快遞面單寫成“日用品”

新京報 2026-05-26 11:45:53
2457 跟貼 2457
要是說翻譯，我可是專業的

圖圖看劇 2026-05-23 13:47:59
1 跟貼 1
VeRL-Omni：面向擴散和全模態生成模型的通用RL后訓練框架

機器之心Pro 2026-05-25 17:32:45
0 跟貼 0
將DSA注意力引入多模態，快手Keye2.0開啟強化推理新范式

量子位 2026-05-27 09:14:35
0 跟貼 0
拆開特斯拉動力總成，工程師們連連感嘆，瞬間就屏住了呼吸

湛藍笑談生活 2026-05-27 08:44:55
0 跟貼 0
司機稱行車記錄儀時速不到60km/h，監控抓拍達121km/h 交警：設備無問題律師釋法

紅星新聞 2026-05-26 16:49:49
2332 跟貼 2332
館長試駕"頂配版"820RR 張雪：這車改無可改！

看看新聞Knews 2026-05-27 00:15:30
84 跟貼 84
英媒：打不過就加入中企正接管衰敗的歐洲汽車工廠

澎湃新聞 2026-05-26 14:50:41
1563 跟貼 1563

新規一出，我立馬告訴孩子：廣東對1-12年級學生放大招了！深圳試點，全省鋪開！

新規一出，我立馬告訴孩子：廣東對1-12年級學生放大招了！深圳試點，全省鋪開！

萌芽研究所BUD

2026-05-26 23:25:47

浙江男子商場砸店后續：本人發聲，懷疑被做局，投入400萬打水漂

浙江男子商場砸店后續：本人發聲，懷疑被做局，投入400萬打水漂

小鋭有話說

2026-05-27 08:45:15

味精大王跨界半導體，股價年內大漲120%，市值增長超100億元

味精大王跨界半導體，股價年內大漲120%，市值增長超100億元

21世紀經濟報道

2026-05-26 23:15:43

一位杰青的自白：我造假、故我在；你認真、你走人！

一位杰青的自白：我造假、故我在；你認真、你走人！

番外行

2026-05-20 08:06:21

交完6000萬贖金，香港富豪被扔進公海喂魚！幕后黑手竟是退休警長

交完6000萬贖金，香港富豪被扔進公海喂魚！幕后黑手竟是退休警長

娛樂洞察點點

2026-05-25 16:03:34

為什么說印度如今的熱，全是歷史欠下的債？

為什么說印度如今的熱，全是歷史欠下的債？

勇哥讀史

2026-05-25 20:50:07

很多人天天在吃“變質油”！研究證實：你家的油，開封42天可能就“壞”了

很多人天天在吃“變質油”！研究證實：你家的油，開封42天可能就“壞”了

人民日報健康客戶端

2026-05-14 07:37:26

伊朗媒體披露最高領袖就醫情況

澎湃新聞

2026-05-26 00:44:04

Malena Morgan，從業界看是混成幕后老板

Malena Morgan，從業界看是混成幕后老板

吃瓜黨二號頭目

2026-05-27 10:41:38

電影越溫馨，日本越惡心

抽屜電影2018

2026-04-26 08:25:03

法甲今夏游出一條大魚阿根廷國腳鐵衛開價3000萬歐 4大豪強爭搶

法甲今夏游出一條大魚阿根廷國腳鐵衛開價3000萬歐 4大豪強爭搶

零度眼看球

2026-05-27 08:54:43

武契奇哭了！有了中國給的這塊勛章，就算回國被推翻也是功臣

武契奇哭了！有了中國給的這塊勛章，就算回國被推翻也是功臣

阿器談史

2026-05-26 11:52:54

完勝段永平，比肩沈南鵬，中國索羅斯再封神！

完勝段永平，比肩沈南鵬，中國索羅斯再封神！

市值Observation

2026-05-26 16:48:27

干部檔案嚴審全面落地！“三齡兩歷一身份”成硬標尺

干部檔案嚴審全面落地！“三齡兩歷一身份”成硬標尺

墜入二次元的海洋

2026-05-25 17:35:24

8000公里外傳來意外之喜，這就是中國國運！美國急瘋也沒任何作用

8000公里外傳來意外之喜，這就是中國國運！美國急瘋也沒任何作用

混沌錄

2026-05-25 20:47:10

3000萬敲定！巴薩搶人成功，羅馬連挖曼聯2棄將太狠！

3000萬敲定！巴薩搶人成功，羅馬連挖曼聯2棄將太狠！

林子說事

2026-05-26 15:52:15

優雅與性感并非對立

疾跑的小蝸牛

2026-05-26 20:23:54

中方恕不奉陪！強勢取消3500億美芯訂單，美企慌了：低估中國是犯錯

中方恕不奉陪！強勢取消3500億美芯訂單，美企慌了：低估中國是犯錯

芯火相承

2026-05-26 20:36:15

以毒攻毒！德拉羅薩妻子：若把我丈夫移交海牙，就是馬科斯的共犯

以毒攻毒！德拉羅薩妻子：若把我丈夫移交海牙，就是馬科斯的共犯

瀲滟晴方DAY

2026-05-27 04:36:30

恭喜！安徽3名學生提前獲得清北保送資格！

恭喜！安徽3名學生提前獲得清北保送資格！

六安人

2026-05-26 23:29:49

AI產業主平臺領航智能+時代

15315文章數 66892關注度

往期回顧全部

科技要聞

雙雙暴漲！SK海力士/美光市值均破萬億美元

頭條要聞

男子投百萬養魚"打水漂"：對方稱每條魚苗回收價3千元

頭條要聞

男子投百萬養魚"打水漂"：對方稱每條魚苗回收價3千元

體育要聞

這群老阿姨，是最硬核的馬刺球迷

娛樂要聞

小S曬歸寧宴舊照，大S穿吊帶裙扎丸子頭

財經要聞

ST巖石退市背后：A股“炒殼”時代終結

汽車要聞

更智能的國民SUV 體驗吉利博越L小藍燈版

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

房產

公開課

軍事航空

教育要聞

河南的學生和家長注意了！河南義務教育將增加新課程，今年秋季學期開始執行

數碼要聞

Apple Watch開啟跑步挑戰：6月3日完成5公里跑可解鎖專屬獎勵

房產要聞

終極塔尖資產！這可能是海南今年最出圈的豪宅！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

軍事要聞

特朗普稱要和賴清德談軍售國臺辦回應

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：日韩不卡在线观看视频不卡| 高潮潮喷奶水飞溅视频无码| 精品va在线观看| 久久久久国产精品熟女影院| 伊人久在线观看视频| 五月丁香六月综合激情在线观看 | 国产精品一区视频免费| 国产成本人片免费a∨短片| 天天影视色香欲综合久久| jizz免费| 欧美3p两根一起进高清免费视频| 97不卡| 亚洲AV成人无码网站在线| 新香蕉少妇视频网站| 色噜噜噜亚洲男人的天堂| 精品国产av最大网站| 国产丝袜在线| 亚洲精品人妻系列| 日本一区二区三本视频在线观看 | 又粗又紧又湿又爽的视频| 国产精品福利视频一区| 日韩无码专区| 国产精品久久久久aaaa| 婷婷97狠狠做五月深爱婷婷| 日本伊人一区二区三区 | 国产AV福利第一精品| 亚洲成a人片在线观| 亚洲中文字幕播放| 国产大屁股视频免费区| 无码AV午夜福利一区| 亚洲丁香五月天| 中年国产丰满熟女乱子正在播放| 国产亚洲精品中文字幕| 亚洲美女av一区| 色情一区| 国产视频9999| 亚洲欧美另类久久久精品能播放的 | 欧美另类videossexotv人妖| 国产乱人伦真实精品视频| 国产最新AV在线播放不卡| 亚洲欧洲精品a片久久99|

^{<blockquote id="s8obq"></blockquote>}

<style id="s8obq"></style>

<p id="s8obq"></p>

<cite id="s8obq"><track id="s8obq"></track></cite>

<s id="s8obq"></s>