<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<tt id="jweee"><b id="jweee"></b></tt>

<em id="jweee"><tt id="jweee"><small id="jweee"></small></tt></em>

<var id="jweee"></var><bdo id="jweee"></bdo>

<var id="jweee"></var><dfn id="jweee"></dfn>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

谷歌「AI聯合數學家」刷新SOTA，牛津教授用它解開群論懸案

2026-05-09 15:13:01　來源: 量子位

北京舉報

0

分享至

聽雨發自凹非寺量子位 | 公眾號 QbitAI

數學界「懸案簿」Kourovka Notebook，AI取得新突破。

群論領域幾十年無解的第21.10號問題，被牛津數學家Marc Lackenby用谷歌一個新系統破解了。

過程也很有意思：AI第一次給出的證明是錯的，被系統里的審查Agent揪出了漏洞。

Lackenby看到之后突然意識到：「等一下，我知道該如何填補這個漏洞」。

于是，通過和AI的反復配合，Lackenby最終成功解答出了這道數學難題。

這套人機協作的系統，就是谷歌DeepMind最新發布的「AI Co-Mathematician」（AI聯合數學家）

它在最難的數學AI基準FrontierMath Tier 4上拿了48%，刷新SOTA。

甚至超過了GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）

最近幾個月，不少數學難題，諸如接連幾個Erd?s問題都是用GPT解決的。

現在，谷歌也回歸了。

「AI聯合數學家」，是什么？

「AI聯合數學家」是一個異步、有狀態的工作空間，而非一問一答的模型。

頂層有一個「項目協調者」Agent負責統籌，拆解任務，調度多條研究線并行推進。

數學家上傳一篇論文、提出一個研究方向后，協調者不會立刻輸出答案，而是先和用戶對話，像真正的合作者一樣幫對方精煉問題。

之后它將任務分發到多條并行工作流：一條做文獻檢索，一條搭計算框架，一條嘗試證明策略。

每條工作流都有自己的協調Agent，異步運行，互不阻塞。用戶隨時能介入、引導、接管。

如果Agent卡住了，它也會主動在聊天窗口里求助，而不是沉默重啟。

比較特別的一點在于：對失敗的態度

系統會持久化追蹤所有失敗的假說，不會丟棄，而是當作第一等的研究產出保存下來。

論文中提到，在數學研究里，知道什么行不通往往和知道什么行得通同等重要

「AI聯合數學家」會持久化追蹤每一條死胡同、每一個被否定的假設、每一次審稿Agent發現的漏洞。這些「負空間」不會被丟棄，而是成為后續探索的上下文。

它的產出物也不是一段聊天記錄或一篇未經驗證的草稿，而是帶margin注釋和來源溯源的LaTeX文檔——完全契合數學家社群的工作習慣。

「AI聯合數學家」有什么意義？論文里有一段很精妙的比喻：

軟件工程領域已經有了Claude Code、Cursor這類AI編碼環境，它們提供了持續迭代、版本控制、測試驗證的完整工作流。
但數學家此前一直缺少一個等價的編排層。

「AI聯合數學家」就是試圖填補這個空白。

它的定位，與DeepMind上一代系統AlphaEvolve完全不同。

AlphaEvolve更像一個自主搜索引擎：你把問題扔進去，它進化出一個更好的算法，人基本不在循環里。

而「AI聯合數學家」要求數學家始終在回路中，系統在最適合的時機向人類提問，而不是替人類做完整件事。

刷新最難數學AI基準SOTA

在benchmark上，「AI聯合數學家」也拿下了出彩的成績：

刷新了最難的數學AI基準FrontierMath Tier 4的SOTA，拿了48%的準確率。

FrontierMath是Epoch AI開發的數學benchmark，包含350道原創高難度題，覆蓋現代數學各大分支。

其中Tier 4僅50題，被Epoch AI描述為「其中一些問題可能數十年內AI都無法攻克」，人類專家解決一道通常需要數天。

「AI聯合數學家」在48道非公開題中答對了23道，準確率48%

GPT-5.5 Pro此前在Tier 4拿到39.6%，GPT-5.4 Pro是37.5%，Claude Opus 4.6/4.7則雙雙落在22.9%。

相比之下，「AI聯合數學家」把最高分推了近10個百分點。

值得注意的是，它的底層基座模型Gemini 3.1 Pro，單獨做這個測試只拿到了19%。

從19%到48%，這29個百分點的跳躍完全來自系統層面的編排——并行調查分支、強制審查循環、文獻檢索工具、持久化代碼執行基礎設施。

而且其中有3道題是此前所有系統都沒答對過的新題。

內部100題研究級數學基準測試中的準確率得分

基準之外，論文中還提到，有三位數學家已經用它來解決真實問題：

牛津大學數學家Marc Lackenby解決了Kourovka Notebook第21.10號問題（群論）。

審稿Agent先發現了AI初稿里的一個漏洞，Lackenby意識到自己知道怎么填補這個缺口，最后論文誕生。

數學家Semon Rezchikov在哈密頓系統中，向系統拋出一個技術性子問題，收到了一個關鍵引理。

他的評價是「其他AI系統在同一個prompt上全部失敗」，且從美學上看這是他用過所有模型里證明風格最好的。

還有Gergely Bérczi，獲得了關于Stirling系數對稱冪表示的猜想證明。

此外，論文也坦承了兩個失敗模式。

第一種叫「討好審稿人偏差」：Agent會不斷改寫有缺陷的論證，直到AI審稿人不再能發現錯誤——但漏洞其實還在。

第二種是「死亡螺旋」：當迭代評審過程未能達成共識時，Agent們會陷入無限審稿循環，推理逐漸退化為幻覺。

另外還有一個結構性問題：當AI能在幾分鐘內生成一篇20頁的證明草稿，人類同行評審仍需要數天，這對于依賴志愿者的學術評審體系會形成系統性壓力。

而且AI雖然很擅長進行邏輯核驗，發現代數錯誤或找出缺失的引用文獻，但它們依然缺乏判斷一篇論文的優雅性、深度或真正數學價值所需的整體直覺。

如果過度依賴AI評審，可能會讓人類定性判斷被邊緣化。

當然，在48%這個成績上，論文中也坦誠披露了評估差異。

48%的得分是在特殊條件下取得的——每題給了48小時、沒有token限制、使用團隊自己的基礎設施。這與Epoch AI標準評估框架不完全可比。

團隊背景

「AI聯合數學家」背后共有18位作者，有幾個名字值得單獨說說。

第一作者兼通訊作者Daniel Zheng，Google DeepMind研究工程師，研究方向是編程語言與機器學習的交叉。

2024年AlphaProof拿到IMO銀牌那個項目里，他和Alex Davies共同主導了非正式系統（包括最終答案判定模塊）的開發。

Alex Davies，同樣是從AlphaProof到AlphaEvolve再到AI聯合數學家的連續參與者，是這條技術路線最重要的連接者之一。

通訊作者Pushmeet Kohli，Google DeepMind科學副總裁兼Google Cloud首席科學家，主導了AlphaFold（諾獎級成果）、AlphaProof、AlphaEvolve等一系列系統。

這篇論文是他帶的團隊在AI for Math路線上的最新一步。

另一位通訊作者Daniel M. Roy，多倫多大學統計系教授，研究橫跨機器學習、數理統計和理論計算機科學。

2025年底從加拿大Vector Institute研究主任卸任，2026年1月以訪問研究員身份加入DeepMind倫敦。三個學位均來自MIT。

Fernanda ViégasMartin Wattenberg則是PAIR（People+AI Research）團隊的共同創始人，同時也是哈佛計算機科學教授，專注AI可解釋性與人機交互。

他們負責AI聯合數學家的用戶交互與界面層——這也解釋了為什么這個系統在「如何讓數學家愿意用它」上花了相當多的心思。

值得注意的是，數學家Marc Lackenby并不是臨時找來測試的「外部數學家」。

在其牛津主頁的論文列表里，可以追溯到2021年，Lackenby就已經與Zheng、Davies等人合作發表過Nature論文。他是DeepMind數學AI團隊的長期合作者。

One More Thing

放在更大的背景下，這是谷歌在AI for Math方向上已經走了幾年的一條路線。

2024年，AlphaProof用強化學習做形式化數學推理，在IMO拿到銀牌水準。

2025年，Gemini Deep Think在當年IMO達到金牌水準，六道題答對五道。

AlphaEvolve則是另一條線，自主發現新算法，在50多個開放數學問題上改進了20%的已知最優解。

「AI聯合數學家」和這幾個系統定位不同，不是更強的問題求解器，更傾向于面向研究者日常工作流的協作工具。

AlphaEvolve適合「給我一個更好的算法」，「AI聯合數學家」則適合「陪我研究這個方向幾個星期」。

目前「AI聯合數學家」還在限量發布階段，Pushmeet Kohli的表述是，目標是未來開發產品向更廣泛的用戶開放這個范式。

它還不是所有數學家都能用到的工具，但它證明了一件事：

AI和數學家之間的協作，可以比「問答」復雜得多，也有效得多。

論文地址：
https://arxiv.org/abs/2605.06651

[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Hassabis狂贊！谷歌爆改50年鼠標，指哪AI打哪，連提示詞都省了

新智元 2026-05-15 08:08:24
0 跟貼 0
谷歌向整個PC行業開炮：安卓電腦+云端AI，本地算力是偽需求

雷科技 2026-05-15 11:32:16
0 跟貼 0

AI步入“自我進化”時代，李彥宏首提AI時代度量衡“DAA”

量子位 2026-05-13 12:40:28
2 跟貼 2

打破推理同質化！阿里達摩院新作讓RLVR從重復采樣走向有效探索

機器之心Pro 2026-05-14 13:44:05
0 跟貼 0
八個意識：數智時代的領導靜力學新范式

經濟觀察報 2026-05-15 12:15:05
0 跟貼 0

AI助力多組學與機器學習聯合分析（機器學習分析代謝組、蛋白組、宏基因組、網絡藥理學、轉錄組）

醫咖會 2026-03-05 19:27:22
0 跟貼 0

最強黑客大模型，不再是Mythos

新智元 2026-05-15 12:34:20
0 跟貼 0
為了應付老板的Token消耗KPI，亞馬遜員工竟這樣做

機器之心Pro 2026-05-15 12:43:58
0 跟貼 0

訓練數據枯竭怎么辦？首篇「數據價值密度」綜述理清思路

機器之心Pro 2026-05-14 18:10:09
0 跟貼 0
大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
37 跟貼 37
港科大（廣州）開源首個無需訓練的開放詞匯3D占據地圖構建系統

機器之心Pro 2026-05-15 12:50:10
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
“中國現代數學之父”華羅庚：頂級數學家的天賦與能力不可復制

未名林 2026-05-13 11:57:31
2 跟貼 2
數學天才輕松解出6+6-6-6×6=？

狂戰獠牙 2026-05-15 02:46:52
0 跟貼 0
1+1=1？這種奇怪的數學每天都在用

硬核實驗室哦 2026-05-14 10:01:28
0 跟貼 0
中考數學題，本來是送分題，很多同學做成了送命題

郎老師趣味數學課堂 2026-05-15 07:28:10
0 跟貼 0
“數學好的孩子其他科都不會差”，女孩分享：能把數學學好的孩子，“他會去想、去理解、去思考，這才是真正的學習能力”

河南都市頻道 2026-05-12 15:14:24
0 跟貼 0
為什么說天才只是見清華大神的門檻？聽聽清華老師怎么說

在下易某很細 2026-05-13 02:50:25
6 跟貼 6
我國著名數學家、數學教育家姜禮尚逝世，享年91歲

界面新聞 2026-05-12 15:26:02
0 跟貼 0
壓軸題，很多高手毫無頭緒

智慧的小老虎 2026-05-10 22:06:54
0 跟貼 0
Claude design限速，谷歌開源輕松做動態網頁，實力打臉？

機器之心Pro 2026-04-29 17:20:04
0 跟貼 0
谷歌力推Googlebook！AI戰爭蔓延到系統層，鼠標成新入口

雷科技 2026-05-15 12:16:51
0 跟貼 0
這題不簡單，留空白的比比皆是

智慧的小老虎 2026-05-11 22:56:31
0 跟貼 0
頂級數學家有多厲害？能讓小學文化工人，3分鐘學會用數學干活

奇點使者 2026-05-13 17:10:02
0 跟貼 0
四年級數學題，難倒全班同學

郎老師趣味數學課堂 2026-05-13 07:17:40
0 跟貼 0
掌握一半模型！解決矩形面積難題就很簡單！

奧數輕松學 2026-05-11 16:17:48
17 跟貼 17
解方程組，難度較大的一道題，學霸的解法挺絕

智慧的小老虎 2026-05-12 22:23:50
0 跟貼 0
很多同學只會硬算，看看學霸的解題思路

智慧的小老虎 2026-05-11 22:56:51
0 跟貼 0
傳聞任天堂已上傳新直面會視頻后臺時間戳變動

3DM游戲 2026-05-15 10:44:09
1 跟貼 1
如果課堂淪為表演，誰有底氣像他那樣命令學生做筆記？

返樸 2026-05-14 08:11:27
0 跟貼 0
孩子說數學考到了媽媽的年齡，評論區：智商不詳，情商太強，以后考差了我就這樣說哈哈哈

新東方 2026-05-15 12:00:35
0 跟貼 0
初中生，也許需要一場考砸

樂陪娃 2026-05-15 10:47:33
0 跟貼 0
男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

豆莢看生活 2026-05-12 10:20:09
0 跟貼 0
曝蘋果OpenAI關系破裂，可能上法庭

智東西 2026-05-15 10:29:45
0 跟貼 0
數學好的孩子都有這七大特征

彭彭師姐說情感 2026-05-12 14:15:49
3 跟貼 3
三步教會你用AI 一對一數學家教

清華皓同學 2026-05-15 07:10:08
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
牛津大學教授曾預言：韓國或將成為“全球首個消失的國家”，為啥

零點歷史說 2026-05-12 17:55:03
0 跟貼 0
瀘州市江陽區通灘小學：深耕課堂研教法聚力教研促成長

中國網 2026-05-13 18:25:04
0 跟貼 0
重慶市輔仁中學雙新示范校創建系列活動之“數美華章?劇繹數學”高一數學美學話劇比賽圓滿落幕

中國網 2026-05-15 10:16:05
0 跟貼 0

江蘇省“臭名昭著”的四所大學！畢業證猶如廢紙，學生謹慎報考

江蘇省“臭名昭著”的四所大學！畢業證猶如廢紙，學生謹慎報考

寂寞染指悲傷

2026-05-14 05:18:26

黃仁勛這次為什么不穿皮夾克？

麥杰遜

2026-05-14 18:07:51

魯比奧仰頭那一瞥，人民大會堂的天花板憑什么讓美國國務卿挪不開眼？

魯比奧仰頭那一瞥，人民大會堂的天花板憑什么讓美國國務卿挪不開眼？

愛下廚的阿釃

2026-05-15 11:20:46

太逆天了！中國的“強大密碼”，西方羨慕死了

太逆天了！中國的“強大密碼”，西方羨慕死了

毛豆論道

2026-05-10 17:41:34

帥位告急！若本賽季再次無緣冠軍，阿爾特塔或遭阿森納解雇

帥位告急！若本賽季再次無緣冠軍，阿爾特塔或遭阿森納解雇

星耀國際足壇

2026-05-15 12:12:30

形勢有多嚴峻？坐標上海：80末90初程序員都開始失業，評論區炸了

形勢有多嚴峻？坐標上海：80末90初程序員都開始失業，評論區炸了

番外行

2026-05-15 09:05:39

什么是基本盤？什么又是愛國？

十柱

2026-05-14 12:44:22

33℃！中到大雨！局部暴雨！天氣最新預測

33℃！中到大雨！局部暴雨！天氣最新預測

錫城頭條

2026-05-15 10:21:33

禹作敏最囂張的時候有多無法無天？

禹作敏最囂張的時候有多無法無天？

尚書喬

2024-11-10 00:00:03

姆巴佩出場 6萬人漫天狂噓！賽后好戲：皇馬將帥隔空交鋒

姆巴佩出場 6萬人漫天狂噓！賽后好戲：皇馬將帥隔空交鋒

葉青足球世界

2026-05-15 09:42:10

世乒賽獎金大曝光！王楚欽65萬，梁靖崑爭議最大

世乒賽獎金大曝光！王楚欽65萬，梁靖崑爭議最大

不想長大的莫扎特

2026-05-15 12:16:02

日本乒協沒想到，世乒賽慘敗中國隊后，最先扛不住的，是張本智和

日本乒協沒想到，世乒賽慘敗中國隊后，最先扛不住的，是張本智和

素衣讀史

2026-05-14 20:50:33

帶領成都蓉城斬獲2勝1平，約翰-阿洛伊西當選中超3月最佳教練

帶領成都蓉城斬獲2勝1平，約翰-阿洛伊西當選中超3月最佳教練

懂球帝

2026-05-15 11:07:10

重磅！國產第四代肺癌靶向藥獲突破，三代藥耐藥緩解率達52.9%

重磅！國產第四代肺癌靶向藥獲突破，三代藥耐藥緩解率達52.9%

牛鍋巴小釩

2026-05-15 01:53:05

八路軍最慘痛一戰，看完犧牲高級將領名單，主席：取消政委決定權

八路軍最慘痛一戰，看完犧牲高級將領名單，主席：取消政委決定權

馬捗在解說

2026-05-08 14:50:30

乒乓球全錦賽延期！原因：與王楚欽和孫穎莎有關，球迷力挺王勵勤

乒乓球全錦賽延期！原因：與王楚欽和孫穎莎有關，球迷力挺王勵勤

老王大話體育

2026-05-15 12:19:44

同樣2-3輸梁靖崑！大勒布倫與女友秀恩愛曬銅牌，張本智和卻被罵慘了！

同樣2-3輸梁靖崑！大勒布倫與女友秀恩愛曬銅牌，張本智和卻被罵慘了！

好乒乓

2026-05-15 12:30:26

她為兒子30年不嫁，兒子墓前哭：來生還做您兒子！

她為兒子30年不嫁，兒子墓前哭：來生還做您兒子！

東方不敗然多多

2026-05-14 18:01:16

“23歲研究生被少年無證駕車撞致顱腦損傷”追蹤：當地政府為其申辦困難補助，愛心網友捐款相助

“23歲研究生被少年無證駕車撞致顱腦損傷”追蹤：當地政府為其申辦困難補助，愛心網友捐款相助

紅星新聞

2026-05-14 21:02:57

格局拉滿！米切爾賽后狂贊哈登：他為大場面而生，冷靜感染全隊！

格局拉滿！米切爾賽后狂贊哈登：他為大場面而生，冷靜感染全隊！

田先生籃球

2026-05-14 14:48:37

追蹤人工智能動態

12627文章數 176463關注度

往期回顧全部

科技要聞

兩年聯姻一地雞毛，傳蘋果OpenAI瀕臨決裂

頭條要聞

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

頭條要聞

歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

體育要聞

德約科維奇買的球隊，從第6級聯賽升入法甲

娛樂要聞

方媛回應住男生單人間：女孩的配得感

財經要聞

特朗普的北京時刻

汽車要聞

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

健康

藝術

家居

公開課

《地平線6》被怒噴政治正確！人物丑爆男女不分

專家揭秘干細胞回輸的安全風險

藝術要聞

一個北大 “反卷教授” 的意外走紅

家居要聞

110㎡淡而有致的生活表達

精神奢享對話塔尖需求
內在自敘，無域有方
極簡主義下的居住場域與空間

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：精品日韩人妻中文字幕| 久久精品亚洲热综合一本奇米| 亚洲精品动漫免费二区| 国产手机在线精品| 玩少妇视频| 亚洲中文字幕AV无码专区| 狠狠热在线视频免费| 日韩黄色网| 久久久久久A亚洲欧洲AV冫| 99精品成人片免费毛片无码| 骚虎视频在线观看| av免费播放在线观看| 无码人妻品一区二区三区精99| 自拍偷拍亚洲激情| 一区二区三区四区在线不卡高清| 欧美孕妇excels交| 二区中文字幕在线观看| 国产91成人亚洲综合在线| 久久婷婷成人综合色| 国产日韩欧美在线一区二区三区| 精品乱码一区二区三区四区| 秋霞av鲁丝片一区二区 | 中文字幕av在线| 影音先锋熟女少妇av资源| 亚洲第一成人在线| 1国产xxxx| 国产高清一级毛片视频直播| 国产av仑乱内谢| 99久久国产综合精品成人影院| 精品国产自线午夜福利| av中文字幕不卡手机在线免费看| 久久综合a∨色老头免费观看| 成人免费看片又大又黄| 少妇人妻丰满做爰xxx| 在线视频中文字幕二区| 老鸭窝在线视频| 成人内射国产免费观看| 色窝窝无码一区二区三区2022| 无码国模在线观看| 五月天婷婷在在线视频| 国产A级毛片|

<em id="jcvfk"><b id="jcvfk"></b></em>

<thead id="jcvfk"><option id="jcvfk"></option></thead>