![]()
新智元報道
編輯:LRST
【新智元導讀】AutoSOTA通過多智能體協作,將AI研究中繁瑣的性能優化過程自動化,使科研從「手工藝」轉向「工業流水線」。只需5小時即可完成人類需數月的工作,極大釋放科學家的創造力,推動更多原創性探索。
在當今的人工智能研究領域,實驗室的燈火往往見證了無數次為了提升1%性能而進行的徹夜調參。這種被戲稱為「煉丹」的過程,雖然最終產出了當前的最佳水平(State-of-the-Art,簡稱SOTA),但也將人類科學家最寶貴的直覺與創造力,困在了無止境的「增量式優化」勞動中。
面對這種高強度的競爭壓力,清華大學徐豐力助理教授團隊與北京中關村學院推出了AutoSOTA項目。這不僅是一個技術工具的發布,更是試圖改寫AI研究領域的「工業節拍」,將AI科研從低效的「手工藝模式」推向高效的「工業流水線模式」。
![]()
論文網址:https://arxiv.org/abs/2604.05550
項目網站:https://tsinghua-fib-lab.github.io/AutoSOTA/
研究背景
要理解AutoSOTA的必要性,首先要看當前AI科研的殘酷現狀。
以頂級AI學術會議為例,頂會論文海量的投稿和最終能夠脫穎而出的口頭報告(Oral)極低的比率使得SOTA性能指標成為了衡量研究價值的「金標準」。
然而,攀登這一高峰需要投入巨量的研究力量。一個頂尖成果或許始于少數幾個大膽的直覺,但后續往往涉及數千次的持續打磨。
以著名的Transformer架構為例,自2017年問世以來,全球科研人員投入了海量算力與人力,歷經數年的變體研究與打磨,才將其在通用語言理解評測集(GLUE)上的性能從約75%提升至90%以上。
這種迭代優化雖然必要,卻占用了人類科學家本可用于原創性探索的大量精力。
![]()
圖1 Transformer架構在GLUE評測集上的性能爬升
全自動刷榜
不同于現有只能在沙盒里做局部代碼優化的框架,AutoSOTA 并不是對單一實驗環節的局部加速。
它將智能體的作用范圍大幅拓寬,向下延伸至環境準備、代碼運行等基礎瑣碎任務,向上則觸達研究靈感激發等核心構想步驟,旨在實現「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動化。
![]()
圖2 AutoSOTA研究問題框架
借鑒人類算法研究中的分工流程與協作邏輯,使不同科研智能體能夠圍繞同一目標推進方案設計、實驗操作、數據分析與優化迭代,研究團隊設計了8個各司其職的Agent:
![]()
圖3 AutoSOTA端到端AI科研自動化系統
在資源準備與目標設定階段,AgentResource負責物理落地,從PDF提取官方代碼庫,并自動搞定海量外部數據集和權重的下載,AgentObjective負責識別目標,通過樹狀結構分解將論文宏觀目標轉化為密集的評估標準,精準鎖定要超越的目標。
在構建環境和實驗評估階段,AgentInit負責初始化環境,根據論文概念補全代碼庫中缺失的腳本,AgentMonitor作為外部監控者,實時追蹤執行軌跡 。一旦發現agent陷入了死循環調試,會立刻介入打斷并提供高級指導,AgentFix專治各種報錯。它帶著失敗記憶庫來修復CUDA不匹配、缺包等環境問題。
在深度反思與突破創新階段,AgentIdeator是核心創新大腦,它結合外部文獻先驗知識,提出架構重組的優化假設 ,AgentScheduler作為系統調度中樞,管理實驗的GPU資源和節點狀態,并在每次改代碼前自動打好Git快照以便隨時回滾,AgentSupervisor作為監督者,嚴格執行由禁止修改評估腳本、禁止更改數據集劃分等規則組成的紅線系統,所有生成的Idea必須經過它的嚴格審計。
與此同時,AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),既能處理實驗運行中的突發狀況,又能勝任查閱文獻、頭腦風暴和方案謀劃等高級工作,真正打通了從頂層規劃到底層執行的閉環。
這意味著,AutoSOTA的野心不僅是「跑實驗快一點」,更是引領AI科研自動化從單一環節的輔助工具,蛻變為一套系統化、常態化且高度智能的科研協作生態。
一周斬獲105個SOTA
在最近進行的一場為期一周的真實壓力測試中,AutoSOTA展示了令人震撼的工業產出能力。該實驗以前一年的AI頂會論文成果為基礎,在完全無人干預的條件下持續運行。
一周(168小時)內累計消耗約220億Token(約10.4萬美元,75萬元人民幣),最終成功發現了105個性能顯著提升的SOTA模型。這意味著系統在這周內,平均每隔約1.6小時就能完成一次性能飛躍。這105個新模型平均實現了近10%的性能提升。
更令人驚訝的是,這些成果并非簡單的超參數微調,其中超過60%的模型涉及新穎的結構設計,展現了系統在復雜設計空間中的挖掘能力。AutoSOTA并非機械搜索,它能在已有研究的基礎上進行一定程度的結構創新。
![]()
圖4 AutoSOTA實驗結果
AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對于一名經驗豐富的人類研究者或人類博士而言,完成一個SOTA模型的完整迭代優化——包括精讀文獻、準備算力資源、安裝工具搭建平臺、模型訓練評估、深入調研創新構思以及持續調優——通常需要數個月的時間。
相比之下,AutoSOTA走完從閱讀論文到迭代優化的全流程,平均耗時僅為5小時。
這種百倍速的提升,不僅是效率的飛躍,更是科研范式維度的「降維打擊」。系統通過「算力換智能」,在相對穩定的條件下,持續產出具備學術競爭力的工作。它具備完善的工具庫與技能集,能夠獨立處理那些讓研究者頭疼的底層繁瑣任務。
總結
AutoSOTA帶給我們的震撼,不僅是產出了一批嶄新的SOTA指標,更深層的意義在于它促使學界反思科研創新的初衷:單純刷高SOTA分數,真的等同于實現了重大的科學突破嗎?
它為我們拋出了一個極具啟發性的命題:如何才能把人類科學家最稀缺的注意力,從機械的實驗試錯中釋放出來,重新聚焦到更具原創價值、更考驗長遠判斷的研究課題上?
未來理想的「人機協作」圖景或許是這樣的:由科研智能體系統去死磕那些重復度高、勞動密集的漫長優化流程;而人類科學家則專職負責提出好問題、錨定大方向、敏銳捕捉機遇并構思底層機制。
從這個角度來看,AutoSOTA更像是一個加持在科研流程上的「創造力放大器」 。
它的初衷決不是為了取代學者的原創智慧,而是要把這種原創性從低效繁雜的苦力活里徹底解放出來。
![]()
圖5 AutoSOTA啟發的人智協同科研范式
歸根結底,真正關乎科研未來的,絕非讓學者們陷入「把舊模型分數再推高一點」的循環,而是賦予他們探索那些未被定義、未被解釋且未被系統深挖之難題的機會。
在這條探索之路上,AutoSOTA已經邁出了極具標志性的一步 。它不僅論證了智能體在AI科研自動化領域的磅礴潛力,更為我們描繪了一個充滿希望的明天:當繁重的「性能優化」被智能體接管,科學研究終將回歸其最純粹、最珍貴的起點——大膽地提出問題,勇敢地駛向未知,去追尋真正無可替代的原始創新突破。
AutoSOTA的意義在于它重新定義了SOTA的價值。
當性能優化可以被大規模自動化發現時,我們必須反思:SOTA性能的刷新是否等同于重大的科學突破?
AutoSOTA給出的答案是:它應當成為人類科學家的「創造力放大器」。
通過將工程實現與科學發現解耦,AutoSOTA讓研究者能夠面對那些尚未被解釋、尚未被系統探索的科學無人區。
參考資料:
https://arxiv.org/abs/2604.05550
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.