2月11日,陶哲軒在UCLA(加州大學(xué)洛杉磯分校),發(fā)表首場主題演講《機(jī)器輔助與數(shù)學(xué)研究的未來》:
![]()
作者摘要:
近年來,多種機(jī)器輔助的數(shù)學(xué)輔助方式迅速成熟,尤其是在形式證明助手、大語言模型、在線協(xié)作平臺及其相互作用方面。我們回顧了這些發(fā)展,并推測它們將如何影響未來的數(shù)學(xué)研究實踐。
核心要點筆記(極簡版)
- 數(shù)學(xué)很保守
教材、黑板、小團(tuán)隊合作,兩百年來變化很小。
- AI 帶來三大突破
規(guī)模化研究、大眾可參與、形式化驗證過濾錯誤。
- 埃爾德什問題集現(xiàn)狀
AI 成功率約 1%–2%
能解決關(guān)注人少、中等難度問題
暫時啃不動頂級難題
- 未來模式
人類主攻深度思想
AI 負(fù)責(zé)檢索、計算、批量嘗試、形式化
社區(qū) + 工具 + 驗證 = 新數(shù)學(xué)
- 長期判斷
AI 會變成標(biāo)配工具,而非取代數(shù)學(xué)家
跨學(xué)科合作(數(shù)學(xué) × 物理 × 生物)也將因此受益
以下正文為完整演講內(nèi)容(含Q&A問答環(huán)節(jié))
作者:陶哲軒(Terence Tao) & SAIR基金會 2026-2-11
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號)2026-2-15
陶哲軒演講全文
嗯,我們能建立的所有這些新聯(lián)系……我覺得 IPAM(加州大學(xué)洛杉磯分校純數(shù)學(xué)與應(yīng)用數(shù)學(xué)研究所)這個平臺的核心就是搭建交流與聯(lián)結(jié),而今天這場活動,正是探討一個非常重要話題的絕佳場合。
好的,那我接下來要講的是數(shù)學(xué)正在如何發(fā)生改變。過去幾年里,大家能明顯感受到一股熱潮:AI人工智能和各類工具在數(shù)學(xué)以及其他領(lǐng)域的能力越來越強(qiáng)。但我認(rèn)為,真正的變革,是從今年才真正開始落地的。
說實話,數(shù)學(xué)這門學(xué)科早就該迎來一些革新了。因為在很多方面,我們是一個極度保守的領(lǐng)域——不是政治意義上的保守,而是研究與教學(xué)方式上的保守。
我給大家舉兩個例子。
![]()
差不多 201 年前,柯西寫過一本專著,奠定了復(fù)分析的基礎(chǔ),比如大家熟知的柯西公式。這本書是用法語寫的,不是拉丁語——(笑聲)——但除此之外,它和你今天看到的教材幾乎一模一樣。我們現(xiàn)在教數(shù)學(xué)的方式,只在次要細(xì)節(jié)上有變化。一個研究復(fù)分析的研究生,基本上能完全看懂那本兩百年前的書。
還有,我們至今仍極度依賴黑板。數(shù)學(xué)幾乎是唯一一個還在大量使用黑板的學(xué)科,甚至到了攝影師都把黑板當(dāng)成一種藝術(shù)形式的地步。事實上,杰西卡·溫就出過一本很精美的畫冊,專門拍攝數(shù)學(xué)家的黑板,把它當(dāng)作一種別處看不到的獨特藝術(shù)。(笑聲)
所以我們這個領(lǐng)域確實有點與眾不同。
![]()
再比如,我們的合作程度非常低,至少直到最近都是如此。哪怕和其他自然科學(xué)比也是這樣。這里有一張十年前的圖表,統(tǒng)計的是數(shù)學(xué)、化學(xué)、物理論文的合著人數(shù)。幾十年來,數(shù)學(xué)論文的合作者一直停留在 1~2 人;而其他學(xué)科早就意識到,現(xiàn)代研究需要廣泛協(xié)作、多元團(tuán)隊。我們在這方面明顯落后,沒能跟上科學(xué)規(guī)模化、產(chǎn)業(yè)化的趨勢。
這背后是有原因的,不只是因為數(shù)學(xué)家“不愛社交”。(笑聲)
首先,數(shù)學(xué)的入門門檻極高,很多問題甚至需要數(shù)學(xué)博士才能理解題意。
其次,我們對證明的嚴(yán)謹(jǐn)性要求極高。我們希望每一步都絕對正確。如果 10 個人合作,只要有一個人不可靠、給出的論證站不住腳,要么所有人都得逐一核對——這非常繁瑣——要么整個工作流程就無法規(guī)模化。
黑板在兩三個人討論時非常棒,和思維同頻的人一起在黑板上推導(dǎo)問題,體驗堪稱絕佳。
但如果是 20 人、50 人,分布在不同國家,你就沒法靠一塊黑板、甚至靠 Zoom 真正解決一個復(fù)雜問題。
所以,數(shù)學(xué)不像其他學(xué)科那樣與時俱進(jìn),是有客觀原因的。
但我認(rèn)為,隨著技術(shù)發(fā)展,這一切即將改變。
過去一兩年,我們終于開始出現(xiàn)大規(guī)模合作項目。
我喜歡打一個比方:
在實驗科學(xué)里,有兩種研究模式:
一種是個案研究——盯著一個對象,做深度、細(xì)致的分析。這很像傳統(tǒng)數(shù)學(xué):盯著一個問題、一個概念,仔細(xì)鉆研。
另一種是群體普查——研究上千個樣本,做數(shù)據(jù)分析、統(tǒng)計,看比例、看規(guī)律。
而在數(shù)學(xué)里,我們一直做不到第二種,因為直到最近,我們都沒有工具能系統(tǒng)地研究“一大批問題”。
![]()
現(xiàn)在,我們終于可以開始廣泛參與了。
在其他科學(xué)里,早就有公民科學(xué):業(yè)余愛好者可以收集蝴蝶、觀測彗星、采集水樣……哪怕數(shù)據(jù)沒那么完美、有噪聲,依然能用。
而直到不久前,數(shù)學(xué)還做不到這一點,除了找大素數(shù)等少數(shù)項目能吸引愛好者參與。
但現(xiàn)在,數(shù)學(xué)也可以了。
我們開始出現(xiàn)這樣的項目:貢獻(xiàn)者不只是職業(yè)數(shù)學(xué)家,還有研究生、中學(xué)生、計算機(jī)行業(yè)、科技行業(yè)的愛好者,利用業(yè)余時間參與。
越來越多人能用有趣的方式為數(shù)學(xué)做出貢獻(xiàn)。
當(dāng)然,還有人工智能。
AI 發(fā)展得極快,現(xiàn)在已經(jīng)能實時助力這些項目,帶來的效率提升遠(yuǎn)大于它帶來的麻煩。我們已經(jīng)跨過了這個臨界點。
而讓這一切真正運轉(zhuǎn)起來的,還有一個秘密武器:
形式化驗證。
自動檢驗論證是否正確的技術(shù)取得了巨大進(jìn)步。
哪怕來自 AI、大眾或大規(guī)模項目的貢獻(xiàn)并不完全可靠,我們也有辦法過濾掉不可信的內(nèi)容,留下優(yōu)質(zhì)成果。這一點帶來了顛覆性改變。
我這幾年多次講過類似內(nèi)容,以前通常會列舉 AI、神經(jīng)網(wǎng)絡(luò)在單點問題上取得的進(jìn)展。
但正如我所說,我們現(xiàn)在進(jìn)入了規(guī)模化時代。
所以今天我只重點講一個“群體研究”案例,我把它叫做一次樣本普查——就是最近在社交網(wǎng)絡(luò)上很火的:
![]()
埃爾德什問題集。
![]()
https://www.erdosproblems.com
它是第一批能讓我們系統(tǒng)用上所有這些新工具的大規(guī)模問題庫,可以清晰看出哪些方法有效、優(yōu)勢和局限在哪里。
![]()
保羅·埃爾德什(Paul Erd?s, 1913—1996)
保羅·埃爾德什是 20 世紀(jì)一位極其多產(chǎn)的數(shù)學(xué)家,發(fā)了 1500 多篇論文,至今可能仍是紀(jì)錄保持者。他幾乎和所有人都合作過。(笑聲)他特別喜歡提問題,我 10 歲見過他,他當(dāng)場就丟給我一個問題,我們一起研究,雖然沒解決,但后來被別人解決了。
![]()
他最有名的特點之一,就是不斷提出問題,有些還設(shè)了現(xiàn)金獎勵。大部分獎金不高,幾十美元,但有少數(shù)問題影響極大。
![]()
比如其中一個問題,他懸賞了 5000 美元,至今仍是開放問題。我本人也研究過它的一些方向,很多階段性成果都發(fā)在了頂級期刊。
埃爾德什很擅長提出這種好問題:non-trivial(非平凡),也不是完全不可能,剛好處在只要有進(jìn)展就很有價值的邊界上。
他把這類問題叫作橡子:需要深刻、精妙的新洞見,最終能長成參天大樹。
但他提了大約一千多個問題,不都是“橡子”。
有些后來發(fā)現(xiàn)簡單得離譜。
![]()
比如他問過一個階乘方程有沒有解,看上去像個經(jīng)典數(shù)論問題。幾十年后人們用計算機(jī)一搜就發(fā)現(xiàn):無解,有非常直接的反例。
![]()
https://www.erdosproblems.com/399
他自己也知道這類問題,把它們叫作棉花糖:只是一口小甜點,短暫有趣一下。
所以這一千多個問題難度差異極大。
這里我要先澄清一個誤區(qū):
![]()
最近社交媒體上,有些 AI 公司宣傳“我們解決了 5 個、6 個埃爾德什問題”,仿佛數(shù)學(xué)家的工作就是天天解這種題。
我必須先說明:解題只是數(shù)學(xué)研究的一部分。
我們更關(guān)心理解概念、溝通、簡化、建立理論。解題的意義,往往不在于問題本身有多少應(yīng)用,而在于解題過程中會發(fā)現(xiàn)新方法。
比如等差數(shù)列相關(guān)問題,直接催生了整個加性組合領(lǐng)域。
但不管怎么說,這一千個問題,有解的、未解的,在計算機(jī)科學(xué)家眼里,非常像一個基準(zhǔn)測試集。
它不是官方基準(zhǔn),但非常誘人:你可以拿新 AI 工具來測——能解多少個?
它成了一個很好的數(shù)據(jù)集,用來快照式評估當(dāng)前工具的水平,還能做對比實驗:哪種 AI 用法更有效?只看一兩個成功案例看不出來,但一千個問題就可以做數(shù)據(jù)分析。
當(dāng)然,這里也有不少炒作。我直接說結(jié)論:
![]()
目前 AI 并沒有在數(shù)學(xué)家最關(guān)心的那些頂級難題上取得突破。
它解決的,大多是關(guān)注度不足的問題:只在論文里出現(xiàn)過一兩次,幾乎沒有后續(xù)文獻(xiàn),沒人認(rèn)真深挖。
但 AI 可以規(guī)模化,所以它能幫我們清理掉一大批被人類忽略的“低垂果實”。
即便如此,AI 的能力提升絕不是純炒作,是肉眼可見的真實進(jìn)步。
對我來說,這些進(jìn)展真正展示的是:
數(shù)學(xué)可以有一種互補的新模式。
傳統(tǒng)上,人類小團(tuán)隊花數(shù)月攻克難題,我們會繼續(xù)這么做。
但同時,我們可以讓 AI 去規(guī)模化掃蕩一千個問題,把所有簡單可解的先解決掉:把 20 種技巧自動套用到一萬個問題上,看哪些能直接攻破——這就是現(xiàn)在 AI 能做到的。
我們還能做統(tǒng)計。
從去年 9 月起,我們開始追蹤數(shù)據(jù):
![]()
這一千多個問題里,目前還有 699 個未解決;已解決大約 480 個,數(shù)量一直在穩(wěn)步上升。AI 大約從某個節(jié)點開始大幅貢獻(xiàn);還有一次激增是因為文獻(xiàn)檢索工具出現(xiàn),AI 從舊文獻(xiàn)里挖出了一堆早已被解決但沒被統(tǒng)計進(jìn)來的答案。
最近幾周增速有所放緩,可能是因為有新的基準(zhǔn)出現(xiàn),吸引了大量注意力。
同時,我們還在把很多證明形式化,用 Lean 語言進(jìn)行機(jī)器驗證。
很多進(jìn)步現(xiàn)在看起來平平無奇,但半年前還覺得很震撼,就像當(dāng)年的網(wǎng)頁搜索:剛出現(xiàn)時驚為天人,現(xiàn)在習(xí)以為常。
![]()
現(xiàn)在的深度研究工具,可以讓 AI 檢索海量文獻(xiàn),跨語言、跨領(lǐng)域,找到幾十年前某篇論文里的相似結(jié)論,稍微修改就能解決當(dāng)前問題。
我們終于有了語義檢索,這是我們多年想要的能力。
AI 偶爾會編造參考文獻(xiàn),但至少文獻(xiàn)檢索可以手動核對。
就這樣,二三十個埃爾德什問題被解決。
![]()
現(xiàn)在用 AI 生成代碼、做數(shù)值實驗也極其簡單。
更重要的是形式化速度大幅提升:
以前把非形式證明轉(zhuǎn)成可機(jī)器檢查的形式證明要花幾周,現(xiàn)在幾小時就能完成。
這對和 AI 合作至關(guān)重要,因為 AI 生成的幾頁證明常常夾雜錯誤,沒人有時間逐行看,但自動轉(zhuǎn)成形式證明后,能不能通過一目了然,我們就能處理大量 AI 輸出的證明。
我自己最近一篇論文也用到了 AI:用它驗證結(jié)論、畫專業(yè)級圖表,比自己寫 Python 快得多。
哪怕只做這些輔助工作,AI 已經(jīng)非常優(yōu)秀。
![]()
這就是形式化證明的樣子,有點像數(shù)學(xué)和 Python 的混合體。對專家來說有點冗長、不夠優(yōu)雅,但只要能編譯過,我們就滿意了。優(yōu)雅可以以后再優(yōu)化。
![]()
我們能取得這么多進(jìn)展,還有一個關(guān)鍵:社區(qū)。
Thomas Bloom 非常努力地建立了社區(qū)、論壇和規(guī)則。
我們既不極端捧 AI,也不極端反 AI。
論壇允許 AI 生成的解法,但有明確規(guī)則:
必須披露、必須總結(jié)、必須對內(nèi)容負(fù)責(zé)、不能刷屏、長內(nèi)容放鏈接。
這套合理的規(guī)則運行得很好,避免了被低質(zhì) AI 內(nèi)容淹沒,傳統(tǒng)數(shù)學(xué)家和 AI 輔助研究者之間有了建設(shè)性交流。
![]()
我快速舉兩個真實的人機(jī)協(xié)作案例:
第一個是問題 367,嚴(yán)格來說還沒完全解決,它有兩個不等式。
AI 證明了其中一個,另一個仍開放。
![]()
https://www.erdosproblems.com/367
過程是:
一位參與者做數(shù)值實驗,得到一個構(gòu)造,但需要證明一個恒等式;
![]()
我登錄論壇,沒手推,直接把問題給了 Gemini,它用稍復(fù)雜的工具證明了缺失步驟;
我把證明簡化解釋在論壇;
![]()
第三個人把證明喂給 AI 自動形式化工具,轉(zhuǎn)成 Lean 代碼,驗證通過。
![]()
這就是典型的人機(jī)協(xié)作鏈條。
第二個例子,也是最后一個:
問題 1026,我們完全解決了。
![]()
https://www.erdosproblems.com/1026
它可以理解成一個硬幣游戲:
愛麗絲把硬幣分成 n 堆,鮑勃只能選單調(diào)遞增或單調(diào)遞減的堆,要讓自己拿到最多硬幣;愛麗絲要讓自己損失最少。
![]()
問題是:這個游戲的公平價格是多少?也就是 c(n) 是多少?這就是埃爾德什的問題。
論壇里有人用線性規(guī)劃算出小 n 的情況,提出猜想:
如果堆數(shù)是平方數(shù) k2,最優(yōu)比例是 1/k。
![]()
后來用深度檢索發(fā)現(xiàn),這個猜想 1980 年就有人提過,只是我們不知道。
兩個月沒進(jìn)展,直到有人把猜想喂給自動證明工具,居然證出來了。
AI 把硬幣問題巧妙轉(zhuǎn)化成了小正方形填大正方形的問題,我們都很意外。
![]()
后來發(fā)現(xiàn) 1959 年有過類似技巧,2016 年也有人用別的方法解決過平方情況。
所以這不是全新的開放問題突破,但方法很有創(chuàng)造性。
但它只解決了平方數(shù)情況,那非平方數(shù)呢?
線性規(guī)劃到后來規(guī)模指數(shù)爆炸,算不動。
![]()
我用另一個 AI 工具 AlphaEvolve,算出直到 n=16 的最優(yōu)或近似最優(yōu)分堆方式,觀察規(guī)律,給出 c(n) 的猜想;
合作者又把猜想簡化;
![]()
再后來有人發(fā)現(xiàn),這個函數(shù)和另一個正方形裝箱問題里的函數(shù)幾乎一樣,而那個問題兩年前剛被解決。
把這些拼在一起,我們最終完整解決了問題 1026,并且已經(jīng)形式化驗證。
這是非常迷人的人機(jī)協(xié)作過程。
總結(jié)
![]()
AI 已經(jīng)讓數(shù)學(xué)以前所未有的規(guī)模、速度展開新可能,參與者也空前廣泛。
最重要的是:當(dāng)你有一套系統(tǒng)化的問題或任務(wù)數(shù)據(jù)集,很多好事就會發(fā)生。
計算機(jī)科學(xué)早就懂這一點,但數(shù)學(xué)家以前不夠重視數(shù)據(jù)集。
現(xiàn)在,有了好的任務(wù)集,有大量工具,有很多非職業(yè)數(shù)學(xué)家愿意嘗試,就會出現(xiàn)各種意想不到的進(jìn)展。
AI 顯著降低了數(shù)學(xué)的入門門檻。
有些問題甚至是高中生在 AI 輔助下解決的,而且能用 Lean 嚴(yán)格驗證。
另一點至關(guān)重要:驗證機(jī)制。
大家都見過不加驗證的 AI 會帶來什么。
AI 本身已經(jīng)很強(qiáng),但人機(jī)協(xié)作的潛力才更大,尤其適合長尾應(yīng)用。
對于最難的那幾個頂級難題,目前還不清楚怎么直接應(yīng)用這套方法;
但如果是一千個中等難度問題,AI 非常強(qiáng)大。
我的分享就到這里,謝謝大家。
(掌聲)
![]()
問答環(huán)節(jié)
問:您最后說 AI 的應(yīng)用非常場景化。五年、十年后還會是這樣嗎?
答:技術(shù)上可能仍然是場景化的,但我們會學(xué)會怎么正確使用它。
可以類比維基百科:剛出現(xiàn)時,學(xué)生直接抄到作業(yè)里,老師想禁止。后來大家明白:維基百科不是用來給最終答案的,而是起點、參考文獻(xiàn),需要自己判斷。
現(xiàn)在沒人禁止維基百科,因為我們懂了用法。
AI 會走同樣的路。
五年后,學(xué)界會形成成熟文化,知道 AI 能做什么、不能做什么,不再需要糾結(jié)“好 AI”、“壞 AI”的問題。
問:那些很難的著名問題,比如你證明的那個定理,AI 能解決嗎?
答:目前還不能。
有人把一千個問題挨個喂給 AI,成功率大約 1%~2%,已經(jīng)很驚人。
但目前解決的,都是研究較少、解法較短、比較標(biāo)準(zhǔn)的問題。
對于需要艱深獨創(chuàng)方法的難題,AI 還沒有給出過人類從未見過的全新思路。這是我們當(dāng)前的狀態(tài)。
問:那提出猜想呢?
答:好問題。
這個網(wǎng)站目前不接受外來新猜想。
但猜想是潛在的重要方向。
問題有明確“解/未解”,有評分目標(biāo),AI 很擅長優(yōu)化。
但猜想有用/沒用,很難評分。隨機(jī)生成猜想很容易,生成有用的猜想很難。
短期來看,更可能的模式是:
人類提出猜想,AI 來評判、嘗試證偽、用例子檢驗、給出反饋。
AI 自主提出高質(zhì)量猜想,暫時還做不到,但會是重要方向。
問:你說 AI 幫助數(shù)學(xué)解決中等難度問題,那它對數(shù)學(xué)和物理、生物等學(xué)科的交叉有幫助嗎?
答:目前跨學(xué)科合作依然很難,往往只有同校剛好有重疊方向的人才會合作。
如果能讓數(shù)學(xué)家更多參與應(yīng)用數(shù)學(xué),會非常棒。
我們下個月就有活動,把物理學(xué)家和數(shù)學(xué)家聚在一起做這件事。
AI 應(yīng)該會有幫助,比如解釋基礎(chǔ)概念:我和物理學(xué)家合作,我不懂量子場論,讓 AI“用數(shù)學(xué)家能懂的方式講給我聽”,這很有用。
不過有一點區(qū)別:
數(shù)學(xué)之所以能很好地用 AI,是因為我們有嚴(yán)格驗證,能過濾錯誤。
換到其他學(xué)科,驗證沒有這么嚴(yán)密,但依然有空間。
更廣泛的參與,也包括讓數(shù)學(xué)家參與物理、化學(xué)、生物項目。
好的,再次感謝大家。
參考資料
https://www.youtube.com/watch?v=SuTxpKggY30
https://sair.foundation/event/ai-for-science-kickoff-2026/
2026AI科學(xué)盛典——圓桌討論《AI與高等教育變革》會議全文
2026AI科學(xué)盛典——圓桌討論《AI與數(shù)學(xué)》會議全文
2026AI科學(xué)盛典——諾貝爾獎得主巴里·巴里什(Barry Barish)主題演講全文《LIGO:十年新科學(xué)》
https://www.erdosproblems.com/367
https://www.erdosproblems.com/26
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.