網易首頁 > 網易號 > 正文申請入駐

刷榜只是體力活！清華消費10萬塊，一周「肝」出105個SOTA

2026-04-29 21:13:06　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】AutoSOTA通過多智能體協作，將AI研究中繁瑣的性能優化過程自動化，使科研從「手工藝」轉向「工業流水線」。只需5小時即可完成人類需數月的工作，極大釋放科學家的創造力，推動更多原創性探索。

在當今的人工智能研究領域，實驗室的燈火往往見證了無數次為了提升1%性能而進行的徹夜調參。這種被戲稱為「煉丹」的過程，雖然最終產出了當前的最佳水平（State-of-the-Art，簡稱SOTA），但也將人類科學家最寶貴的直覺與創造力，困在了無止境的「增量式優化」勞動中。

面對這種高強度的競爭壓力，清華大學徐豐力助理教授團隊與北京中關村學院推出了AutoSOTA項目。這不僅是一個技術工具的發布，更是試圖改寫AI研究領域的「工業節拍」，將AI科研從低效的「手工藝模式」推向高效的「工業流水線模式」。

論文網址：https://arxiv.org/abs/2604.05550

項目網站：https://tsinghua-fib-lab.github.io/AutoSOTA/

研究背景

要理解AutoSOTA的必要性，首先要看當前AI科研的殘酷現狀。

以頂級AI學術會議為例，頂會論文海量的投稿和最終能夠脫穎而出的口頭報告（Oral）極低的比率使得SOTA性能指標成為了衡量研究價值的「金標準」。

然而，攀登這一高峰需要投入巨量的研究力量。一個頂尖成果或許始于少數幾個大膽的直覺，但后續往往涉及數千次的持續打磨。

以著名的Transformer架構為例，自2017年問世以來，全球科研人員投入了海量算力與人力，歷經數年的變體研究與打磨，才將其在通用語言理解評測集（GLUE）上的性能從約75%提升至90%以上。

這種迭代優化雖然必要，卻占用了人類科學家本可用于原創性探索的大量精力。

圖1 Transformer架構在GLUE評測集上的性能爬升

全自動刷榜

不同于現有只能在沙盒里做局部代碼優化的框架，AutoSOTA 并不是對單一實驗環節的局部加速。

它將智能體的作用范圍大幅拓寬，向下延伸至環境準備、代碼運行等基礎瑣碎任務，向上則觸達研究靈感激發等核心構想步驟，旨在實現「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動化。

圖2 AutoSOTA研究問題框架

借鑒人類算法研究中的分工流程與協作邏輯，使不同科研智能體能夠圍繞同一目標推進方案設計、實驗操作、數據分析與優化迭代，研究團隊設計了8個各司其職的Agent：

圖3 AutoSOTA端到端AI科研自動化系統

在資源準備與目標設定階段，AgentResource負責物理落地，從PDF提取官方代碼庫，并自動搞定海量外部數據集和權重的下載，AgentObjective負責識別目標，通過樹狀結構分解將論文宏觀目標轉化為密集的評估標準，精準鎖定要超越的目標。

在構建環境和實驗評估階段，AgentInit負責初始化環境，根據論文概念補全代碼庫中缺失的腳本，AgentMonitor作為外部監控者，實時追蹤執行軌跡。一旦發現agent陷入了死循環調試，會立刻介入打斷并提供高級指導，AgentFix專治各種報錯。它帶著失敗記憶庫來修復CUDA不匹配、缺包等環境問題。

在深度反思與突破創新階段，AgentIdeator是核心創新大腦，它結合外部文獻先驗知識，提出架構重組的優化假設，AgentScheduler作為系統調度中樞，管理實驗的GPU資源和節點狀態，并在每次改代碼前自動打好Git快照以便隨時回滾，AgentSupervisor作為監督者，嚴格執行由禁止修改評估腳本、禁止更改數據集劃分等規則組成的紅線系統，所有生成的Idea必須經過它的嚴格審計。

與此同時，AutoSOTA 配備了完善的工具庫（Toolkit）與技能集（Skill Set），既能處理實驗運行中的突發狀況，又能勝任查閱文獻、頭腦風暴和方案謀劃等高級工作，真正打通了從頂層規劃到底層執行的閉環。

這意味著，AutoSOTA的野心不僅是「跑實驗快一點」，更是引領AI科研自動化從單一環節的輔助工具，蛻變為一套系統化、常態化且高度智能的科研協作生態。

一周斬獲105個SOTA

在最近進行的一場為期一周的真實壓力測試中，AutoSOTA展示了令人震撼的工業產出能力。該實驗以前一年的AI頂會論文成果為基礎，在完全無人干預的條件下持續運行。

一周（168小時）內累計消耗約220億Token（約10.4萬美元，75萬元人民幣），最終成功發現了105個性能顯著提升的SOTA模型。這意味著系統在這周內，平均每隔約1.6小時就能完成一次性能飛躍。這105個新模型平均實現了近10%的性能提升。

更令人驚訝的是，這些成果并非簡單的超參數微調，其中超過60%的模型涉及新穎的結構設計，展現了系統在復雜設計空間中的挖掘能力。AutoSOTA并非機械搜索，它能在已有研究的基礎上進行一定程度的結構創新。

圖4 AutoSOTA實驗結果

AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對于一名經驗豐富的人類研究者或人類博士而言，完成一個SOTA模型的完整迭代優化——包括精讀文獻、準備算力資源、安裝工具搭建平臺、模型訓練評估、深入調研創新構思以及持續調優——通常需要數個月的時間。

相比之下，AutoSOTA走完從閱讀論文到迭代優化的全流程，平均耗時僅為5小時。

這種百倍速的提升，不僅是效率的飛躍，更是科研范式維度的「降維打擊」。系統通過「算力換智能」，在相對穩定的條件下，持續產出具備學術競爭力的工作。它具備完善的工具庫與技能集，能夠獨立處理那些讓研究者頭疼的底層繁瑣任務。

總結

AutoSOTA帶給我們的震撼，不僅是產出了一批嶄新的SOTA指標，更深層的意義在于它促使學界反思科研創新的初衷：單純刷高SOTA分數，真的等同于實現了重大的科學突破嗎？

它為我們拋出了一個極具啟發性的命題：如何才能把人類科學家最稀缺的注意力，從機械的實驗試錯中釋放出來，重新聚焦到更具原創價值、更考驗長遠判斷的研究課題上？

未來理想的「人機協作」圖景或許是這樣的：由科研智能體系統去死磕那些重復度高、勞動密集的漫長優化流程；而人類科學家則專職負責提出好問題、錨定大方向、敏銳捕捉機遇并構思底層機制。

從這個角度來看，AutoSOTA更像是一個加持在科研流程上的「創造力放大器」。

它的初衷決不是為了取代學者的原創智慧，而是要把這種原創性從低效繁雜的苦力活里徹底解放出來。

圖5 AutoSOTA啟發的人智協同科研范式

歸根結底，真正關乎科研未來的，絕非讓學者們陷入「把舊模型分數再推高一點」的循環，而是賦予他們探索那些未被定義、未被解釋且未被系統深挖之難題的機會。

在這條探索之路上，AutoSOTA已經邁出了極具標志性的一步。它不僅論證了智能體在AI科研自動化領域的磅礴潛力，更為我們描繪了一個充滿希望的明天：當繁重的「性能優化」被智能體接管，科學研究終將回歸其最純粹、最珍貴的起點——大膽地提出問題，勇敢地駛向未知，去追尋真正無可替代的原始創新突破。

AutoSOTA的意義在于它重新定義了SOTA的價值。

當性能優化可以被大規模自動化發現時，我們必須反思：SOTA性能的刷新是否等同于重大的科學突破？

AutoSOTA給出的答案是：它應當成為人類科學家的「創造力放大器」。

通過將工程實現與科學發現解耦，AutoSOTA讓研究者能夠面對那些尚未被解釋、尚未被系統探索的科學無人區。

參考資料：

https://arxiv.org/abs/2604.05550

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.