2026AI科學(xué)盛典——菲爾茲獎得主陶哲軒主題演講全文《機(jī)器輔助與數(shù)學(xué)研究的未來》

2026-02-15 17:37:02　來源: 科學(xué)的歷程

湖北舉報

分享至

2月11日，陶哲軒在UCLA（加州大學(xué)洛杉磯分校），發(fā)表首場主題演講《機(jī)器輔助與數(shù)學(xué)研究的未來》：

作者摘要：
近年來，多種機(jī)器輔助的數(shù)學(xué)輔助方式迅速成熟，尤其是在形式證明助手、大語言模型、在線協(xié)作平臺及其相互作用方面。我們回顧了這些發(fā)展，并推測它們將如何影響未來的數(shù)學(xué)研究實踐。
核心要點筆記（極簡版）

數(shù)學(xué)很保守
教材、黑板、小團(tuán)隊合作，兩百年來變化很小。
AI 帶來三大突破
規(guī)模化研究、大眾可參與、形式化驗證過濾錯誤。
埃爾德什問題集現(xiàn)狀
- AI 成功率約 1%–2%
- 能解決關(guān)注人少、中等難度問題
- 暫時啃不動頂級難題
未來模式
- 人類主攻深度思想
- AI 負(fù)責(zé)檢索、計算、批量嘗試、形式化
- 社區(qū) + 工具 + 驗證 = 新數(shù)學(xué)
長期判斷
- AI 會變成標(biāo)配工具，而非取代數(shù)學(xué)家
- 跨學(xué)科合作（數(shù)學(xué) × 物理 × 生物）也將因此受益

以下正文為完整演講內(nèi)容（含Q&A問答環(huán)節(jié)）

作者：陶哲軒（Terence Tao） & SAIR基金會 2026-2-11

譯者：zzllrr小樂（數(shù)學(xué)科普公眾號）2026-2-15

陶哲軒演講全文

嗯，我們能建立的所有這些新聯(lián)系……我覺得 IPAM（加州大學(xué)洛杉磯分校純數(shù)學(xué)與應(yīng)用數(shù)學(xué)研究所）這個平臺的核心就是搭建交流與聯(lián)結(jié)，而今天這場活動，正是探討一個非常重要話題的絕佳場合。

好的，那我接下來要講的是數(shù)學(xué)正在如何發(fā)生改變。過去幾年里，大家能明顯感受到一股熱潮：AI人工智能和各類工具在數(shù)學(xué)以及其他領(lǐng)域的能力越來越強(qiáng)。但我認(rèn)為，真正的變革，是從今年才真正開始落地的。

說實話，數(shù)學(xué)這門學(xué)科早就該迎來一些革新了。因為在很多方面，我們是一個極度保守的領(lǐng)域——不是政治意義上的保守，而是研究與教學(xué)方式上的保守。

我給大家舉兩個例子。

差不多 201 年前，柯西寫過一本專著，奠定了復(fù)分析的基礎(chǔ)，比如大家熟知的柯西公式。這本書是用法語寫的，不是拉丁語——（笑聲）——但除此之外，它和你今天看到的教材幾乎一模一樣。我們現(xiàn)在教數(shù)學(xué)的方式，只在次要細(xì)節(jié)上有變化。一個研究復(fù)分析的研究生，基本上能完全看懂那本兩百年前的書。

還有，我們至今仍極度依賴黑板。數(shù)學(xué)幾乎是唯一一個還在大量使用黑板的學(xué)科，甚至到了攝影師都把黑板當(dāng)成一種藝術(shù)形式的地步。事實上，杰西卡·溫就出過一本很精美的畫冊，專門拍攝數(shù)學(xué)家的黑板，把它當(dāng)作一種別處看不到的獨特藝術(shù)。（笑聲）

所以我們這個領(lǐng)域確實有點與眾不同。

再比如，我們的合作程度非常低，至少直到最近都是如此。哪怕和其他自然科學(xué)比也是這樣。這里有一張十年前的圖表，統(tǒng)計的是數(shù)學(xué)、化學(xué)、物理論文的合著人數(shù)。幾十年來，數(shù)學(xué)論文的合作者一直停留在 1～2 人；而其他學(xué)科早就意識到，現(xiàn)代研究需要廣泛協(xié)作、多元團(tuán)隊。我們在這方面明顯落后，沒能跟上科學(xué)規(guī)模化、產(chǎn)業(yè)化的趨勢。

這背后是有原因的，不只是因為數(shù)學(xué)家“不愛社交”。（笑聲）

首先，數(shù)學(xué)的入門門檻極高，很多問題甚至需要數(shù)學(xué)博士才能理解題意。

其次，我們對證明的嚴(yán)謹(jǐn)性要求極高。我們希望每一步都絕對正確。如果 10 個人合作，只要有一個人不可靠、給出的論證站不住腳，要么所有人都得逐一核對——這非常繁瑣——要么整個工作流程就無法規(guī)模化。

黑板在兩三個人討論時非常棒，和思維同頻的人一起在黑板上推導(dǎo)問題，體驗堪稱絕佳。

但如果是 20 人、50 人，分布在不同國家，你就沒法靠一塊黑板、甚至靠 Zoom 真正解決一個復(fù)雜問題。

所以，數(shù)學(xué)不像其他學(xué)科那樣與時俱進(jìn)，是有客觀原因的。

但我認(rèn)為，隨著技術(shù)發(fā)展，這一切即將改變。

過去一兩年，我們終于開始出現(xiàn)大規(guī)模合作項目。

我喜歡打一個比方：

在實驗科學(xué)里，有兩種研究模式：

一種是個案研究——盯著一個對象，做深度、細(xì)致的分析。這很像傳統(tǒng)數(shù)學(xué)：盯著一個問題、一個概念，仔細(xì)鉆研。

另一種是群體普查——研究上千個樣本，做數(shù)據(jù)分析、統(tǒng)計，看比例、看規(guī)律。

而在數(shù)學(xué)里，我們一直做不到第二種，因為直到最近，我們都沒有工具能系統(tǒng)地研究“一大批問題”。

現(xiàn)在，我們終于可以開始廣泛參與了。

在其他科學(xué)里，早就有公民科學(xué)：業(yè)余愛好者可以收集蝴蝶、觀測彗星、采集水樣……哪怕數(shù)據(jù)沒那么完美、有噪聲，依然能用。

而直到不久前，數(shù)學(xué)還做不到這一點，除了找大素數(shù)等少數(shù)項目能吸引愛好者參與。

但現(xiàn)在，數(shù)學(xué)也可以了。

我們開始出現(xiàn)這樣的項目：貢獻(xiàn)者不只是職業(yè)數(shù)學(xué)家，還有研究生、中學(xué)生、計算機(jī)行業(yè)、科技行業(yè)的愛好者，利用業(yè)余時間參與。

越來越多人能用有趣的方式為數(shù)學(xué)做出貢獻(xiàn)。

當(dāng)然，還有人工智能。

AI 發(fā)展得極快，現(xiàn)在已經(jīng)能實時助力這些項目，帶來的效率提升遠(yuǎn)大于它帶來的麻煩。我們已經(jīng)跨過了這個臨界點。

而讓這一切真正運轉(zhuǎn)起來的，還有一個秘密武器：

形式化驗證。

自動檢驗論證是否正確的技術(shù)取得了巨大進(jìn)步。

哪怕來自 AI、大眾或大規(guī)模項目的貢獻(xiàn)并不完全可靠，我們也有辦法過濾掉不可信的內(nèi)容，留下優(yōu)質(zhì)成果。這一點帶來了顛覆性改變。

我這幾年多次講過類似內(nèi)容，以前通常會列舉 AI、神經(jīng)網(wǎng)絡(luò)在單點問題上取得的進(jìn)展。

但正如我所說，我們現(xiàn)在進(jìn)入了規(guī)模化時代。

所以今天我只重點講一個“群體研究”案例，我把它叫做一次樣本普查——就是最近在社交網(wǎng)絡(luò)上很火的：

埃爾德什問題集。

https://www.erdosproblems.com

它是第一批能讓我們系統(tǒng)用上所有這些新工具的大規(guī)模問題庫，可以清晰看出哪些方法有效、優(yōu)勢和局限在哪里。

保羅·埃爾德什（Paul Erd?s, 1913—1996）

保羅·埃爾德什是 20 世紀(jì)一位極其多產(chǎn)的數(shù)學(xué)家，發(fā)了 1500 多篇論文，至今可能仍是紀(jì)錄保持者。他幾乎和所有人都合作過。（笑聲）他特別喜歡提問題，我 10 歲見過他，他當(dāng)場就丟給我一個問題，我們一起研究，雖然沒解決，但后來被別人解決了。

他最有名的特點之一，就是不斷提出問題，有些還設(shè)了現(xiàn)金獎勵。大部分獎金不高，幾十美元，但有少數(shù)問題影響極大。

比如其中一個問題，他懸賞了 5000 美元，至今仍是開放問題。我本人也研究過它的一些方向，很多階段性成果都發(fā)在了頂級期刊。

埃爾德什很擅長提出這種好問題：non-trivial（非平凡），也不是完全不可能，剛好處在只要有進(jìn)展就很有價值的邊界上。

他把這類問題叫作橡子：需要深刻、精妙的新洞見，最終能長成參天大樹。

但他提了大約一千多個問題，不都是“橡子”。

有些后來發(fā)現(xiàn)簡單得離譜。

比如他問過一個階乘方程有沒有解，看上去像個經(jīng)典數(shù)論問題。幾十年后人們用計算機(jī)一搜就發(fā)現(xiàn)：無解，有非常直接的反例。

https://www.erdosproblems.com/399

他自己也知道這類問題，把它們叫作棉花糖：只是一口小甜點，短暫有趣一下。

所以這一千多個問題難度差異極大。

這里我要先澄清一個誤區(qū)：

最近社交媒體上，有些 AI 公司宣傳“我們解決了 5 個、6 個埃爾德什問題”，仿佛數(shù)學(xué)家的工作就是天天解這種題。

我必須先說明：解題只是數(shù)學(xué)研究的一部分。

我們更關(guān)心理解概念、溝通、簡化、建立理論。解題的意義，往往不在于問題本身有多少應(yīng)用，而在于解題過程中會發(fā)現(xiàn)新方法。

比如等差數(shù)列相關(guān)問題，直接催生了整個加性組合領(lǐng)域。

但不管怎么說，這一千個問題，有解的、未解的，在計算機(jī)科學(xué)家眼里，非常像一個基準(zhǔn)測試集。

它不是官方基準(zhǔn)，但非常誘人：你可以拿新 AI 工具來測——能解多少個？

它成了一個很好的數(shù)據(jù)集，用來快照式評估當(dāng)前工具的水平，還能做對比實驗：哪種 AI 用法更有效？只看一兩個成功案例看不出來，但一千個問題就可以做數(shù)據(jù)分析。

當(dāng)然，這里也有不少炒作。我直接說結(jié)論：

目前 AI 并沒有在數(shù)學(xué)家最關(guān)心的那些頂級難題上取得突破。

它解決的，大多是關(guān)注度不足的問題：只在論文里出現(xiàn)過一兩次，幾乎沒有后續(xù)文獻(xiàn)，沒人認(rèn)真深挖。

但 AI 可以規(guī)模化，所以它能幫我們清理掉一大批被人類忽略的“低垂果實”。

即便如此，AI 的能力提升絕不是純炒作，是肉眼可見的真實進(jìn)步。

對我來說，這些進(jìn)展真正展示的是：

數(shù)學(xué)可以有一種互補的新模式。

傳統(tǒng)上，人類小團(tuán)隊花數(shù)月攻克難題，我們會繼續(xù)這么做。

但同時，我們可以讓 AI 去規(guī)模化掃蕩一千個問題，把所有簡單可解的先解決掉：把 20 種技巧自動套用到一萬個問題上，看哪些能直接攻破——這就是現(xiàn)在 AI 能做到的。

我們還能做統(tǒng)計。

從去年 9 月起，我們開始追蹤數(shù)據(jù)：

這一千多個問題里，目前還有 699 個未解決；已解決大約 480 個，數(shù)量一直在穩(wěn)步上升。AI 大約從某個節(jié)點開始大幅貢獻(xiàn)；還有一次激增是因為文獻(xiàn)檢索工具出現(xiàn)，AI 從舊文獻(xiàn)里挖出了一堆早已被解決但沒被統(tǒng)計進(jìn)來的答案。

最近幾周增速有所放緩，可能是因為有新的基準(zhǔn)出現(xiàn)，吸引了大量注意力。

同時，我們還在把很多證明形式化，用 Lean 語言進(jìn)行機(jī)器驗證。

很多進(jìn)步現(xiàn)在看起來平平無奇，但半年前還覺得很震撼，就像當(dāng)年的網(wǎng)頁搜索：剛出現(xiàn)時驚為天人，現(xiàn)在習(xí)以為常。

現(xiàn)在的深度研究工具，可以讓 AI 檢索海量文獻(xiàn)，跨語言、跨領(lǐng)域，找到幾十年前某篇論文里的相似結(jié)論，稍微修改就能解決當(dāng)前問題。

我們終于有了語義檢索，這是我們多年想要的能力。

AI 偶爾會編造參考文獻(xiàn)，但至少文獻(xiàn)檢索可以手動核對。

就這樣，二三十個埃爾德什問題被解決。

現(xiàn)在用 AI 生成代碼、做數(shù)值實驗也極其簡單。

更重要的是形式化速度大幅提升：

以前把非形式證明轉(zhuǎn)成可機(jī)器檢查的形式證明要花幾周，現(xiàn)在幾小時就能完成。

這對和 AI 合作至關(guān)重要，因為 AI 生成的幾頁證明常常夾雜錯誤，沒人有時間逐行看，但自動轉(zhuǎn)成形式證明后，能不能通過一目了然，我們就能處理大量 AI 輸出的證明。

我自己最近一篇論文也用到了 AI：用它驗證結(jié)論、畫專業(yè)級圖表，比自己寫 Python 快得多。

哪怕只做這些輔助工作，AI 已經(jīng)非常優(yōu)秀。

這就是形式化證明的樣子，有點像數(shù)學(xué)和 Python 的混合體。對專家來說有點冗長、不夠優(yōu)雅，但只要能編譯過，我們就滿意了。優(yōu)雅可以以后再優(yōu)化。

我們能取得這么多進(jìn)展，還有一個關(guān)鍵：社區(qū)。

Thomas Bloom 非常努力地建立了社區(qū)、論壇和規(guī)則。

我們既不極端捧 AI，也不極端反 AI。

論壇允許 AI 生成的解法，但有明確規(guī)則：

必須披露、必須總結(jié)、必須對內(nèi)容負(fù)責(zé)、不能刷屏、長內(nèi)容放鏈接。

這套合理的規(guī)則運行得很好，避免了被低質(zhì) AI 內(nèi)容淹沒，傳統(tǒng)數(shù)學(xué)家和 AI 輔助研究者之間有了建設(shè)性交流。

我快速舉兩個真實的人機(jī)協(xié)作案例：

第一個是問題 367，嚴(yán)格來說還沒完全解決，它有兩個不等式。

AI 證明了其中一個，另一個仍開放。

https://www.erdosproblems.com/367

過程是：

一位參與者做數(shù)值實驗，得到一個構(gòu)造，但需要證明一個恒等式；

我登錄論壇，沒手推，直接把問題給了 Gemini，它用稍復(fù)雜的工具證明了缺失步驟；

我把證明簡化解釋在論壇；

第三個人把證明喂給 AI 自動形式化工具，轉(zhuǎn)成 Lean 代碼，驗證通過。

這就是典型的人機(jī)協(xié)作鏈條。

第二個例子，也是最后一個：

問題 1026，我們完全解決了。

https://www.erdosproblems.com/1026

它可以理解成一個硬幣游戲：

愛麗絲把硬幣分成 n 堆，鮑勃只能選單調(diào)遞增或單調(diào)遞減的堆，要讓自己拿到最多硬幣；愛麗絲要讓自己損失最少。

問題是：這個游戲的公平價格是多少？也就是 c(n) 是多少？這就是埃爾德什的問題。

論壇里有人用線性規(guī)劃算出小 n 的情況，提出猜想：

如果堆數(shù)是平方數(shù) k2，最優(yōu)比例是 1/k。

后來用深度檢索發(fā)現(xiàn)，這個猜想 1980 年就有人提過，只是我們不知道。

兩個月沒進(jìn)展，直到有人把猜想喂給自動證明工具，居然證出來了。

AI 把硬幣問題巧妙轉(zhuǎn)化成了小正方形填大正方形的問題，我們都很意外。

后來發(fā)現(xiàn) 1959 年有過類似技巧，2016 年也有人用別的方法解決過平方情況。

所以這不是全新的開放問題突破，但方法很有創(chuàng)造性。

但它只解決了平方數(shù)情況，那非平方數(shù)呢？

線性規(guī)劃到后來規(guī)模指數(shù)爆炸，算不動。

我用另一個 AI 工具 AlphaEvolve，算出直到 n=16 的最優(yōu)或近似最優(yōu)分堆方式，觀察規(guī)律，給出 c(n) 的猜想；

合作者又把猜想簡化；

再后來有人發(fā)現(xiàn)，這個函數(shù)和另一個正方形裝箱問題里的函數(shù)幾乎一樣，而那個問題兩年前剛被解決。

把這些拼在一起，我們最終完整解決了問題 1026，并且已經(jīng)形式化驗證。

這是非常迷人的人機(jī)協(xié)作過程。

總結(jié)

AI 已經(jīng)讓數(shù)學(xué)以前所未有的規(guī)模、速度展開新可能，參與者也空前廣泛。

最重要的是：當(dāng)你有一套系統(tǒng)化的問題或任務(wù)數(shù)據(jù)集，很多好事就會發(fā)生。

計算機(jī)科學(xué)早就懂這一點，但數(shù)學(xué)家以前不夠重視數(shù)據(jù)集。

現(xiàn)在，有了好的任務(wù)集，有大量工具，有很多非職業(yè)數(shù)學(xué)家愿意嘗試，就會出現(xiàn)各種意想不到的進(jìn)展。

AI 顯著降低了數(shù)學(xué)的入門門檻。

有些問題甚至是高中生在 AI 輔助下解決的，而且能用 Lean 嚴(yán)格驗證。

另一點至關(guān)重要：驗證機(jī)制。

大家都見過不加驗證的 AI 會帶來什么。

AI 本身已經(jīng)很強(qiáng)，但人機(jī)協(xié)作的潛力才更大，尤其適合長尾應(yīng)用。

對于最難的那幾個頂級難題，目前還不清楚怎么直接應(yīng)用這套方法；

但如果是一千個中等難度問題，AI 非常強(qiáng)大。

我的分享就到這里，謝謝大家。

（掌聲）

問答環(huán)節(jié)

問：您最后說 AI 的應(yīng)用非常場景化。五年、十年后還會是這樣嗎？

答：技術(shù)上可能仍然是場景化的，但我們會學(xué)會怎么正確使用它。

可以類比維基百科：剛出現(xiàn)時，學(xué)生直接抄到作業(yè)里，老師想禁止。后來大家明白：維基百科不是用來給最終答案的，而是起點、參考文獻(xiàn)，需要自己判斷。

現(xiàn)在沒人禁止維基百科，因為我們懂了用法。

AI 會走同樣的路。

五年后，學(xué)界會形成成熟文化，知道 AI 能做什么、不能做什么，不再需要糾結(jié)“好 AI”、“壞 AI”的問題。

問：那些很難的著名問題，比如你證明的那個定理，AI 能解決嗎？

答：目前還不能。

有人把一千個問題挨個喂給 AI，成功率大約 1%～2%，已經(jīng)很驚人。

但目前解決的，都是研究較少、解法較短、比較標(biāo)準(zhǔn)的問題。

對于需要艱深獨創(chuàng)方法的難題，AI 還沒有給出過人類從未見過的全新思路。這是我們當(dāng)前的狀態(tài)。

問：那提出猜想呢？

答：好問題。

這個網(wǎng)站目前不接受外來新猜想。

但猜想是潛在的重要方向。

問題有明確“解/未解”，有評分目標(biāo)，AI 很擅長優(yōu)化。

但猜想有用/沒用，很難評分。隨機(jī)生成猜想很容易，生成有用的猜想很難。

短期來看，更可能的模式是：

人類提出猜想，AI 來評判、嘗試證偽、用例子檢驗、給出反饋。

AI 自主提出高質(zhì)量猜想，暫時還做不到，但會是重要方向。

問：你說 AI 幫助數(shù)學(xué)解決中等難度問題，那它對數(shù)學(xué)和物理、生物等學(xué)科的交叉有幫助嗎？

答：目前跨學(xué)科合作依然很難，往往只有同校剛好有重疊方向的人才會合作。

如果能讓數(shù)學(xué)家更多參與應(yīng)用數(shù)學(xué)，會非常棒。

我們下個月就有活動，把物理學(xué)家和數(shù)學(xué)家聚在一起做這件事。

AI 應(yīng)該會有幫助，比如解釋基礎(chǔ)概念：我和物理學(xué)家合作，我不懂量子場論，讓 AI“用數(shù)學(xué)家能懂的方式講給我聽”，這很有用。

不過有一點區(qū)別：

數(shù)學(xué)之所以能很好地用 AI，是因為我們有嚴(yán)格驗證，能過濾錯誤。

換到其他學(xué)科，驗證沒有這么嚴(yán)密，但依然有空間。

更廣泛的參與，也包括讓數(shù)學(xué)家參與物理、化學(xué)、生物項目。

好的，再次感謝大家。

參考資料

https://www.youtube.com/watch?v=SuTxpKggY30

https://sair.foundation/event/ai-for-science-kickoff-2026/

2026AI科學(xué)盛典——圓桌討論《AI與高等教育變革》會議全文

2026AI科學(xué)盛典——圓桌討論《AI與數(shù)學(xué)》會議全文

2026AI科學(xué)盛典——諾貝爾獎得主巴里·巴里什（Barry Barish）主題演講全文《LIGO：十年新科學(xué)》

https://www.erdosproblems.com/367

https://www.erdosproblems.com/26

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.