<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌造出AI數學家,48%碾壓全場!牛津教授用它破解60年未解之謎

      0
      分享至


      新智元報道

      編輯:犀牛 所羅門

      【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。

      人類數學家,終于等來了自己的「超級隊友」!

      就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。


      有玩意兒多猛?

      在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

      刷新所有AI系統的歷史最高紀錄!


      作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。

      更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


      其中有3道題,是此前所有被測系統都沒能攻克的。

      Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。


      不是更聰明的模型

      而是更聰明的「編排」

      AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。

      整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。

      這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。


      沒錯,這里有一個專職的審稿人智能體

      每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。

      這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

      更關鍵的是,整個工作臺是異步、有狀態的。

      它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。

      就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。


      DeepMind論文中舉了幾個讓人印象深刻的案例:

      • 面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

      • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;

      • 在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

      牛津教授實戰:攻克60年老本子里的開放問題

      數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?

      牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。


      他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

      這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

      Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

      第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。

      關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。

      于是他補上了關鍵的一步,問題迎刃而解。

      這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事

      AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。

      這是一種全新的協作范式。

      類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

      審稿人會被「討好」,系統會「轉圈」

      DeepMind團隊也沒有回避系統的失敗模式。

      第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

      當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

      錯誤沒有消失,只是變得更隱蔽。

      這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。

      第二個問題叫「死亡螺旋「」(death spirals)。

      在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。

      最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

      這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

      AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

      但那道靈光一閃的創造性火花,目前看來只能來自人類。

      數學研究的范式正在改變

      這篇論文的真正意義,可能不在于48%這個數字本身。

      系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。

      AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

      為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。

      DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。

      AI co-mathematician就是這一論斷的直接體現。

      數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

      而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。


      這個「黃金搭檔」時代,已經來了。

      參考資料:

      https://x.com/pushmeet/status/2052812585804685322

      https://arxiv.org/abs/2605.06651

      https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

      https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一敗再敗,從泰國到中國,中國選手屢屢決賽落敗,連奪四亞軍

      一敗再敗,從泰國到中國,中國選手屢屢決賽落敗,連奪四亞軍

      網球之家
      2026-05-11 23:59:12
      當年喊出“不是你撞的,干嘛去扶”的法官,17年后,過的咋樣了?

      當年喊出“不是你撞的,干嘛去扶”的法官,17年后,過的咋樣了?

      天天熱點見聞
      2026-05-11 04:47:11
      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      “漢坦病毒”來勢洶洶,建議:每家備好6樣東西,關鍵時刻能救命

      觀星賞月
      2026-05-12 03:27:08
      樓市陷入“賣不動,買不起”怪圈,如何打破僵局?曹德旺一語道破

      樓市陷入“賣不動,買不起”怪圈,如何打破僵局?曹德旺一語道破

      貓叔東山再起
      2026-05-11 10:40:10
      不顧央視警告,和劉濤傳出緋聞的楊爍,走到這一步真不“冤”

      不顧央視警告,和劉濤傳出緋聞的楊爍,走到這一步真不“冤”

      小蘭聊歷史
      2026-05-12 02:42:37
      破防了!湖北十堰母牛被賣宰殺,公牛追車兩里哀嚎不肯放

      破防了!湖北十堰母牛被賣宰殺,公牛追車兩里哀嚎不肯放

      社會日日鮮
      2026-05-11 04:53:24
      鏡報:費內巴切為薩拉赫準備三年合同,年薪總額達5200萬英鎊

      鏡報:費內巴切為薩拉赫準備三年合同,年薪總額達5200萬英鎊

      懂球帝
      2026-05-11 20:48:26
      慕尼黑1860球迷在德丙聯賽唱歌嘲諷孔帕尼,調侃拜仁歐冠出局

      慕尼黑1860球迷在德丙聯賽唱歌嘲諷孔帕尼,調侃拜仁歐冠出局

      懂球帝
      2026-05-12 00:46:30
      比亞迪2026款海鷗正式上市,售價6.99-9.79萬元

      比亞迪2026款海鷗正式上市,售價6.99-9.79萬元

      財經汽車
      2026-05-11 20:38:00
      魯梅尼格談弗里克:只要在巴薩待得夠久,他會帶隊贏得歐冠

      魯梅尼格談弗里克:只要在巴薩待得夠久,他會帶隊贏得歐冠

      懂球帝
      2026-05-12 02:21:05
      張本智和回應驚天逆轉:決勝局領先被翻盤,不是崩盤是成長的代價

      張本智和回應驚天逆轉:決勝局領先被翻盤,不是崩盤是成長的代價

      洲洲影視娛評
      2026-05-11 23:13:35
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      普京萬沒想到!5000名駐德美軍撤離后,特朗普準備將調到俄家門口

      普京萬沒想到!5000名駐德美軍撤離后,特朗普準備將調到俄家門口

      愛吃醋的貓咪
      2026-05-11 21:28:54
      北京首鋼全力出擊!拒絕廣東宏遠大逆轉,激活威廉姆斯,央視直播

      北京首鋼全力出擊!拒絕廣東宏遠大逆轉,激活威廉姆斯,央視直播

      體壇瞎白話
      2026-05-11 15:04:55
      菲律賓政壇突發!投票前夜重磅發聲,直接力保副總統莎拉!

      菲律賓政壇突發!投票前夜重磅發聲,直接力保副總統莎拉!

      生活在農村的濤友
      2026-05-11 14:49:49
      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      能不能撩動一個已婚女人,從來不是看你會不會說話、會不會討好

      能不能撩動一個已婚女人,從來不是看你會不會說話、會不會討好

      加油丁小文
      2026-05-12 05:00:04
      人未來,車先到!北京街頭疑似特朗普車隊現身

      人未來,車先到!北京街頭疑似特朗普車隊現身

      阿龍聊軍事
      2026-05-11 19:59:00
      曝央視真砸34億元購2屆世界杯轉播權!只愿出5億?假的:侮辱人呢

      曝央視真砸34億元購2屆世界杯轉播權!只愿出5億?假的:侮辱人呢

      風過鄉
      2026-05-11 19:33:11
      國乒女隊奪冠57萬,獎金分配:莎莎20萬王曼昱14萬蒯曼6萬

      國乒女隊奪冠57萬,獎金分配:莎莎20萬王曼昱14萬蒯曼6萬

      劉笤說體壇
      2026-05-11 09:07:41
      2026-05-12 05:32:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15185文章數 66863關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      旅游
      本地
      手機
      房產
      公開課

      旅游要聞

      打卡同色系風景 帶火城市微旅行

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      蘋果iOS/iPadOS 15.8.8正式版發布

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国内精品久久久久久影院| 国产亚洲精品aaaaaaa片| 日韩一区二区三区不卡片| 亚洲熟妇久久国产精品| 综合网在线| 激情五月日韩中文字幕| 国产精品乱伦| 亚洲日韩一区二区三区| 亚洲精品麻豆一二三区| 91孕妇精品一区二区三区| 国产午夜亚洲精品福利| 熟女亚州综合| 亚洲五月婷婷| 国语偷拍视频一区二区三区| 国产精品亚洲精品爽爽| 丰满老熟女毛片| 亚洲美女AV免费一区| 中文人妻熟妇乱又伦精品| 亚洲熟妇色XXXXX欧美老妇Y| 亚洲另类激情专区小说图片| 无码人妻丰满熟妇精品区| 狠狠人妻久久久久久综合果冻| 国产精品自在线拍国产电影| 中文字幕日韩精品有码视频| 日韩一区二区三区精彩视频| 牛牛AV| 人妻色综合| 成人A片视频| 亚洲精品久久久久久久久毛片直播| 亚洲精品美女一区二区| 永久免费看mv亚洲| 蜜桃视频免费版在线观看| 国产片AV不卡在线观看国语| a毛片基地免费大全| 久久精品人人做人人爽| 中文字幕卡二和卡三的视频| 国产综合视频一区二区三区| 放荡的美妇在线播放| 国产乱人激情h在线观看| 久久久国产精品VA麻豆| 日韩欧美中文|