![]()
![]()
上海人工智能實驗室(上海AI實驗室)聯(lián)合團隊近日公布了一項面向奧賽級科學(xué)推理的新成果:他們提出一套通專融合訓(xùn)練方案,并基于30B-A3B架構(gòu)構(gòu)建出科學(xué)推理模型SU-01。在完全不調(diào)用外部工具、不執(zhí)行代碼、不依賴專用符號求解器的純自然語言推理條件下,這一模型在數(shù)學(xué)和物理雙學(xué)科奧賽評測中均達到金牌水平。
![]()
IMO-Bench所含ProofBench結(jié)果。SU-01在直接生成時取得57.6%,經(jīng)推理階段擴展提升至70.2%,顯著超越同尺寸模型,并接近Gemini 3.1 Pro Thinking等強閉源模型
在第66屆國際數(shù)學(xué)奧林匹克(IMO 2025)和2026年美國數(shù)學(xué)奧林匹克(USAMO 2026)中,SU-01均取得35分,超過金牌線。其中,USAMO 2026第三題拿到滿分,而該題所有人類選手的平均分僅為0.01分,最高分不到5分。在2024年和2025年國際物理奧林匹克(IPhO)評測中,模型得分同樣超越金牌線。
這一表現(xiàn)背后,是上海AI實驗室“通專融合”理念的直接驗證:奧賽級科學(xué)推理不一定需要超大規(guī)模模型,也不必為數(shù)學(xué)、物理等學(xué)科分別搭建繁瑣的專用系統(tǒng)。通過統(tǒng)一的訓(xùn)練目標、獎勵設(shè)計以及“生成—驗證—修正”推理機制,一般尺寸的模型也可以在數(shù)學(xué)證明、物理推導(dǎo)等高難度任務(wù)中形成可復(fù)用的專家級推理能力。
研究團隊將這一過程設(shè)計為“先塑造行為,再擴展能力”的后訓(xùn)練閉環(huán),分三步遞進實現(xiàn)——
第一步是行為塑造。利用約33.8萬條高質(zhì)量解題軌跡進行反向困惑度課程監(jiān)督微調(diào),讓通用模型學(xué)會如何組織證明、檢查假設(shè)和修復(fù)漏洞,把“嚴謹證明”的行為范式植入模型。
第二步是能力強化。經(jīng)過200步兩階段強化學(xué)習(xí):第一階段提升直接求解能力,第二階段引入證明級獎勵模型,使模型不僅“答對”,更學(xué)會給出完整、可檢驗的推理過程。
第三步是推理擴展。面對奧賽級難題時,模型啟動多輪“生成—驗證—修正”循環(huán),將訓(xùn)練階段學(xué)到的自驗證與自修正行為延伸至長程證明搜索中。
評測結(jié)果直觀反映了這套方法的有效性。在證明質(zhì)量基準ProofBench上,SU-01直接生成得分為57.6%,經(jīng)推理擴展后提升至70.2%,顯著優(yōu)于同尺寸模型,并接近Gemini-3.1-Pro等前沿模型的表現(xiàn)。
更值得關(guān)注的是其長程推理能力:在USAMO 2026的解題過程中,模型單次生成證明的中位長度達到10.6萬個詞元,修正階段也長達8.3萬個詞元。這意味著一個30B量級的通用模型,能夠持續(xù)進行超過十萬詞元量級的有效推理,把計算資源集中用于構(gòu)建邏輯、定位漏洞和完善論證。
![]()
USAMO 2026推理階段擴展流程中不同動作的生成長度分布
在與人類選手的直接對比中,SU-01同樣經(jīng)受住了“地獄難度”的考驗。USAMO 2026人類選手平均分8.59分,中位數(shù)僅6分;第三題平均分更是低至0.01分,無一人超過5分。SU-01正是在這道題上拿到滿分,說明它的推理能力并非靠簡單題目拉高分數(shù),而是真正具備攻克超高難度證明題的實力。
除數(shù)學(xué)奧賽外,研究團隊還將AMO-Bench、FrontierScience等基準納入評測范圍。結(jié)果顯示,同一套證明搜索、驗證和修正機制可以直接遷移到物理建模以及更廣泛的科學(xué)推理任務(wù)上,展現(xiàn)出跨學(xué)科復(fù)用價值。這恰恰是通專融合相較于垂直領(lǐng)域定制系統(tǒng)的核心優(yōu)勢。
據(jù)悉,這一工作也延續(xù)了上海AI實驗室2024年提出的通專融合技術(shù)架構(gòu)SAGE(智者)。SAGE包含基礎(chǔ)模型、融合協(xié)同與探索進化三個層次,其中融合協(xié)同層負責動態(tài)協(xié)調(diào)直覺式“快思考”與邏輯性“慢思考”,通過精確獎勵和智能體自進化,決定何時泛化、何時專精。SU-01的表現(xiàn),正是這種思路在奧賽級科學(xué)推理上的落地。
![]()
SU-01訓(xùn)練與推理流程,以一般尺寸30B-A3B推理主干為基礎(chǔ),依次經(jīng)過監(jiān)督微調(diào)、兩階段強化學(xué)習(xí)和推理階段擴展,使模型形成證明搜索、自我驗證和多輪修正能力
研究團隊認為,科學(xué)發(fā)現(xiàn)是對智能的終極考驗,也是驗證通專融合的舞臺。當AI能夠像科學(xué)家一樣進行嚴謹、長程且可自我驗證的思考時,就向“AGI for Science”的目標更近了一步。
【上海AI實驗室科研進展】
AI出手,石墨“增厚”三倍!我國科研團隊“造”出200微米高質(zhì)量單晶石墨
“書生”跨界造膠:高純度、高一致、高效率,這種芯片核心材料能穩(wěn)定量產(chǎn)了
原標題:《裸考奧賽也能奪金?人類集體“交白卷”的數(shù)學(xué)題,被一個中等尺寸AI做對了》
欄目編輯:王蕾 題圖來源:海螺AI 圖片來源:上海AI實驗室
來源:作者:新民晚報 郜陽
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.