![]()
機器之心編輯部
又有 9 個埃爾德什(Erd?s)問題被 AI 解決了,這次是 DeepMind 團隊實現的。
上周日,大模型科研領域再次傳來里程碑事件:DeepMind 的大模型在一次「測試」中,直接解決了 9 個開放的 Erd?s 問題。這次 AI 不僅自動解題,還進行了自動驗證,隨后其解法通過了人工審查。這次研究是數學界和 AI 界已知的首次針對開放式研究級數學問題進行的大規模形式化證明搜索評估。
現在,AI 不再只是在做奧數題了,現在它們已稱得上是正經的「科研人員」。
![]()
- 論文:Advancing Mathematics Research with AI-Driven Formal Proof Search
- 論文鏈接:https://arxiv.org/abs/2605.22763v1
最近一段時間,大語言模型(LLM)在數學推理方面展現出了卓越的能力,但其固有的不穩定性限制了其在數學研究中的實際應用價值。一種緩解該問題的方法是利用 LLM 生成基于 Lean 等語言的正式證明。DeepMind 對該方法解決「開放性問題」的能力進行了首次大規模評估,其智能體自主解決了 353 個 Erd?s 開放性問題中的 9 個,且解決每個問題的成本僅為數百美元;此外,它還證明了 OEIS 數據庫中 492 個猜想中的 44 個,目前正被應用于組合學、優化理論、圖論、代數幾何及量子光學等領域的研究中。
這些研究發現不僅充分展示了人工智能輔助正式證明搜索技術的強大潛力,同時也為實現此類能力的智能體架構設計提供了重要的啟示。
「Erd?s 問題」通常不是指某一道單一的數學題,而是指由 20 世紀最具影響力的匈牙利數學家保羅·埃爾德什(Paul Erd?s)一生中提出的大量數學問題與猜想。他留下了數百個經典的數學難題,主要集中在數論、組合數學和幾何等領域。
現代組合學與數論的許多分支,正是在嘗試解決這些問題的過程中建立起來的。從素數間隙到偏差理論,可以說這些問題塑造了整個學科領域。
那么,DeepMind 的 AI 是如何破解這些問題的?
方法
DeepMind 此次推出的框架名為AlphaProof Nexus。它的核心邏輯是:將大模型天馬行空的「創造力」與 Lean 編譯器絕對嚴謹的「判別力」結合起來。
![]()
配備 AlphaProof 的智能體的輸入/輸出示例(應用于 Erd?s #125 問題)。
在這個框架下,人類數學家只需輸入一個帶有占位符(把證明部分留空,寫上 sorry 占位符,即待證明部分)的代碼草圖,并用特殊的標記(如 EVOLVE-BLOCK 或 EVOLVE-VALUE)圈出范圍,告訴 AI 哪些地方可以動,接下來就讓智能體接管后續工作。解決問題的宏觀戰略規劃、微觀邏輯推導、引理創建甚至參數微調,全部交由 AI 閉環自主完成。
研究團隊設計了兩種核心的智能體架構,而這兩種架構的對比,揭示了當前 AI 發展的一個重要趨勢:
- 基礎智能體:思考 - 嘗試循環
這是一種簡約的架構。系統啟動多個無共享狀態的子智能體獨立運行。每個子智能體內部是一個多輪交互循環:底層模型(Gemini 3.1 Pro)通過「思考鏈」推理,調用搜索和替換工具修改代碼草圖。每次修改后,Lean 編譯器會立即進行驗證;如果報錯,模型就利用報錯信息進行自我反思和修正,不斷循環,直到所有證明漏洞被填補。
- 全功能智能體:引入 AlphaProof
除了上述的基礎循環,研究人員還引入了受 AlphaEvolve 啟發的多智能體演化算法。他們讓另一個大模型(Gemini 3.0 Flash)充當「裁判」,對生成的證明草圖進行清晰度、合理性和新穎性的 Elo 評分,從而引導系統在龐大的可能性庫中進行優勝劣汰的采樣。此外,該架構還能調用專門針對奧數級別問題進行過強化學習訓練的 AlphaProof 作為輔助求解工具。
![]()
全功能 AlphaProof Nexus 智能體的設計。
直覺上,全功能智能體應該全面碾壓基礎架構。但事后分析顯示,極其簡單的「基礎智能體」同樣成功解出了所有 9 道埃爾德什難題。研究團隊明確指出,隨著底層大模型(如 Gemini 3.1 Pro)自身智能密度的不斷躍升,簡單的智能體交互循環正在展現出驚人的效能。這預示著,在絕對客觀的編譯器反饋錨定下,工業界可能會逐漸從構建高度特化、復雜的訓練系統,轉向直接利用通用大模型的原生推理能力。
哪 9 個 Erd?s 問題?
![]()
問題 12 (i) —— 避免整除的密集整數集(1970 年提出)
該問題探討是否存在一個包含無窮多個正整數的集合,在這個集合中,沒有任何一個數字可以整除另外兩個更大數字的和。同時,這個集合在整個正整數范圍內還要保持足夠的「密集度」(滿足特定的下密度下限)。AI 通過巧妙融合中國剩余定理與避免特定算術級數的構造法,給出了肯定的證明。
問題 12 (ii) —— 避免整除的更高密度極限(1970 年提出)
這是上一題的加強版,要求構造的集合在滿足「不整除」條件的同時,擁有逼近極限的超高密度。AI 運用 Behrend 風格的構造法,在極其苛刻的約束下找到了滿足條件的無窮集合,從而一舉終結了這兩個長達半個多世紀的懸案。
問題 125 —— 不同進制數字集合的加和密度(1996 年提出)
想象兩個特殊的數字集合:一個只用 0 和 1 構成的三進制數字組成,另一個只用 0 和 1 構成的四進制數字組成。將這兩個集合里的數字兩兩相加形成一個新集合,這個新集合的數字分布頻率(下密度)是否大于零?AI 利用丟番圖逼近原理,證明了隨著數字規模的擴大,其分布密度會不斷被稀釋,最終嚴格證明其下密度為零。
問題 138(變體)—— 顏色與數列的間隔極限(1981 年提出)
這個問題與范德瓦爾登數有關,它描述的是在對連續整數進行染色時,為了保證一定能找到同色的等差數列,所需整數序列的最小長度。AI 采用貪心染色擴展算法結合局部矛盾分析,證明了隨著等差數列長度要求的增加,這些范德瓦爾登數之間的間隔會趨于無窮大。
問題 152 —— 西頓集中的孤立點(1994 年提出)
西頓集是一種特殊的數字集合,其中任意兩對數字的和都不相等。問題探討當這種集合足夠大時,其兩兩相加得到的新集合中,是否包含大量的「孤立點」(即該數字的相鄰數字不在該集合中)。AI 通過對內部點、偏移鄰居等進行細致的邊界分析,給出了證明。
問題 741 (i) —— 集合拆分后的加和密度(1994 年提出)
如果一個集合與自身相加產生的新集合在自然數中占據了可觀的比例(具備正的上密度),那么我們能否把原來的集合一分為二,使得這兩半各自與自身相加產生的新集合,依然都能占據可觀的比例?AI 給出了肯定的答案。
問題 741 (ii) —— 集合拆分與間隙界限(1994 年提出)
與上一題相關,AI 證明了存在一種極其特殊的「二階基」集合,這種集合包含了一種「禁區」結構。無論你如何將它一分為二,這兩個子集各自相加生成的新集合中,至少有一個必定會出現無限擴大的數字斷層(無法保持有界間隙)。
問題 846 —— 平面點集的幾何悖論(1992 年提出)
這是一個關于平面幾何的奇妙問題。AI 證明了存在這樣一種無限擴展的平面點集:你從中任意挑出有限個點,總能發現其中有很大一部分是不共線的(即沒有三個點在同一條直線上)。然而,整個無限集合卻無論如何也無法被拆分成有限個「絕對沒有三點共線」的子集。
問題 26(延伸變體)—— 整數倍數密度的極值(1995 年提出)
這探討了整數倍數在自然數系中的分布規律。AI 通過精妙的迭代構造(利用不斷增加的素數序列),證明了存在一種特定的正整數序列,當你把這個序列中的所有數字都加上任意一個相同的正整數偏移量后,這些新數字生成的所有倍數,其在自然數中的占比永遠會被嚴格限制在一個上限(小于四分之三)之下。
在 DeepMind 的實踐中,大模型在不同問題上的計算開銷差異巨大,絕大多數問題的平均成本在幾十美元到幾百美元之間,最「便宜」的問題僅需 7.5-15 美元。
看起來也沒比 AI 寫代碼貴太多?
我們知道,上個星期 OpenAI 剛剛宣布使用內部通用推理模型推翻了數學界近 80 年的「平面單位距離猜想」(Erd?s Unit Distance Problem),再加上此次 DeepMind 提交的成果,一系列進步標志著大模型的能力和應用范式正在發生改變。
現在 AI 能夠解決的問題,已是真正的數學開放性未知領域,它們面對人類數學家也沒有探索完成的「無人區」,正在自主創造新知識。
科學發現的速度正在快速走向指數化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.