裸考奧賽也能奪金？人類集體“交白卷”的數(shù)學(xué)題，被一個中等尺寸AI做對了

2026-05-19 19:13:29　來源: 上觀新聞

上海舉報

分享至

上海人工智能實驗室（上海AI實驗室）聯(lián)合團隊近日公布了一項面向奧賽級科學(xué)推理的新成果：他們提出一套通專融合訓(xùn)練方案，并基于30B-A3B架構(gòu)構(gòu)建出科學(xué)推理模型SU-01。在完全不調(diào)用外部工具、不執(zhí)行代碼、不依賴專用符號求解器的純自然語言推理條件下，這一模型在數(shù)學(xué)和物理雙學(xué)科奧賽評測中均達到金牌水平。

IMO-Bench所含ProofBench結(jié)果。SU-01在直接生成時取得57.6%，經(jīng)推理階段擴展提升至70.2%，顯著超越同尺寸模型，并接近Gemini 3.1 Pro Thinking等強閉源模型

在第66屆國際數(shù)學(xué)奧林匹克（IMO 2025）和2026年美國數(shù)學(xué)奧林匹克（USAMO 2026）中，SU-01均取得35分，超過金牌線。其中，USAMO 2026第三題拿到滿分，而該題所有人類選手的平均分僅為0.01分，最高分不到5分。在2024年和2025年國際物理奧林匹克（IPhO）評測中，模型得分同樣超越金牌線。

這一表現(xiàn)背后，是上海AI實驗室“通專融合”理念的直接驗證：奧賽級科學(xué)推理不一定需要超大規(guī)模模型，也不必為數(shù)學(xué)、物理等學(xué)科分別搭建繁瑣的專用系統(tǒng)。通過統(tǒng)一的訓(xùn)練目標、獎勵設(shè)計以及“生成—驗證—修正”推理機制，一般尺寸的模型也可以在數(shù)學(xué)證明、物理推導(dǎo)等高難度任務(wù)中形成可復(fù)用的專家級推理能力。

研究團隊將這一過程設(shè)計為“先塑造行為，再擴展能力”的后訓(xùn)練閉環(huán)，分三步遞進實現(xiàn)——

第一步是行為塑造。利用約33.8萬條高質(zhì)量解題軌跡進行反向困惑度課程監(jiān)督微調(diào)，讓通用模型學(xué)會如何組織證明、檢查假設(shè)和修復(fù)漏洞，把“嚴謹證明”的行為范式植入模型。

第二步是能力強化。經(jīng)過200步兩階段強化學(xué)習(xí)：第一階段提升直接求解能力，第二階段引入證明級獎勵模型，使模型不僅“答對”，更學(xué)會給出完整、可檢驗的推理過程。

第三步是推理擴展。面對奧賽級難題時，模型啟動多輪“生成—驗證—修正”循環(huán)，將訓(xùn)練階段學(xué)到的自驗證與自修正行為延伸至長程證明搜索中。

評測結(jié)果直觀反映了這套方法的有效性。在證明質(zhì)量基準ProofBench上，SU-01直接生成得分為57.6%，經(jīng)推理擴展后提升至70.2%，顯著優(yōu)于同尺寸模型，并接近Gemini-3.1-Pro等前沿模型的表現(xiàn)。

更值得關(guān)注的是其長程推理能力：在USAMO 2026的解題過程中，模型單次生成證明的中位長度達到10.6萬個詞元，修正階段也長達8.3萬個詞元。這意味著一個30B量級的通用模型，能夠持續(xù)進行超過十萬詞元量級的有效推理，把計算資源集中用于構(gòu)建邏輯、定位漏洞和完善論證。

USAMO 2026推理階段擴展流程中不同動作的生成長度分布

在與人類選手的直接對比中，SU-01同樣經(jīng)受住了“地獄難度”的考驗。USAMO 2026人類選手平均分8.59分，中位數(shù)僅6分；第三題平均分更是低至0.01分，無一人超過5分。SU-01正是在這道題上拿到滿分，說明它的推理能力并非靠簡單題目拉高分數(shù)，而是真正具備攻克超高難度證明題的實力。

除數(shù)學(xué)奧賽外，研究團隊還將AMO-Bench、FrontierScience等基準納入評測范圍。結(jié)果顯示，同一套證明搜索、驗證和修正機制可以直接遷移到物理建模以及更廣泛的科學(xué)推理任務(wù)上，展現(xiàn)出跨學(xué)科復(fù)用價值。這恰恰是通專融合相較于垂直領(lǐng)域定制系統(tǒng)的核心優(yōu)勢。

據(jù)悉，這一工作也延續(xù)了上海AI實驗室2024年提出的通專融合技術(shù)架構(gòu)SAGE（智者）。SAGE包含基礎(chǔ)模型、融合協(xié)同與探索進化三個層次，其中融合協(xié)同層負責動態(tài)協(xié)調(diào)直覺式“快思考”與邏輯性“慢思考”，通過精確獎勵和智能體自進化，決定何時泛化、何時專精。SU-01的表現(xiàn)，正是這種思路在奧賽級科學(xué)推理上的落地。

SU-01訓(xùn)練與推理流程，以一般尺寸30B-A3B推理主干為基礎(chǔ)，依次經(jīng)過監(jiān)督微調(diào)、兩階段強化學(xué)習(xí)和推理階段擴展，使模型形成證明搜索、自我驗證和多輪修正能力

研究團隊認為，科學(xué)發(fā)現(xiàn)是對智能的終極考驗，也是驗證通專融合的舞臺。當AI能夠像科學(xué)家一樣進行嚴謹、長程且可自我驗證的思考時，就向“AGI for Science”的目標更近了一步。

【上海AI實驗室科研進展】

AI出手，石墨“增厚”三倍！我國科研團隊“造”出200微米高質(zhì)量單晶石墨

“書生”跨界造膠：高純度、高一致、高效率，這種芯片核心材料能穩(wěn)定量產(chǎn)了

原標題：《裸考奧賽也能奪金？人類集體“交白卷”的數(shù)學(xué)題，被一個中等尺寸AI做對了》

欄目編輯：王蕾題圖來源：海螺AI 圖片來源：上海AI實驗室

來源：作者：新民晚報郜陽

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.