<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      刷榜只是體力活!清華消費10萬塊,一周「肝」出105個SOTA

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】AutoSOTA通過多智能體協作,將AI研究中繁瑣的性能優化過程自動化,使科研從「手工藝」轉向「工業流水線」。只需5小時即可完成人類需數月的工作,極大釋放科學家的創造力,推動更多原創性探索。

      在當今的人工智能研究領域,實驗室的燈火往往見證了無數次為了提升1%性能而進行的徹夜調參。這種被戲稱為「煉丹」的過程,雖然最終產出了當前的最佳水平(State-of-the-Art,簡稱SOTA),但也將人類科學家最寶貴的直覺與創造力,困在了無止境的「增量式優化」勞動中。

      面對這種高強度的競爭壓力,清華大學徐豐力助理教授團隊與北京中關村學院推出了AutoSOTA項目。這不僅是一個技術工具的發布,更是試圖改寫AI研究領域的「工業節拍」,將AI科研從低效的「手工藝模式」推向高效的「工業流水線模式」。


      論文網址:https://arxiv.org/abs/2604.05550

      項目網站:https://tsinghua-fib-lab.github.io/AutoSOTA/

      研究背景

      要理解AutoSOTA的必要性,首先要看當前AI科研的殘酷現狀。

      以頂級AI學術會議為例,頂會論文海量的投稿和最終能夠脫穎而出的口頭報告(Oral)極低的比率使得SOTA性能指標成為了衡量研究價值的「金標準」。

      然而,攀登這一高峰需要投入巨量的研究力量。一個頂尖成果或許始于少數幾個大膽的直覺,但后續往往涉及數千次的持續打磨。

      以著名的Transformer架構為例,自2017年問世以來,全球科研人員投入了海量算力與人力,歷經數年的變體研究與打磨,才將其在通用語言理解評測集(GLUE)上的性能從約75%提升至90%以上。

      這種迭代優化雖然必要,卻占用了人類科學家本可用于原創性探索的大量精力。


      圖1 Transformer架構在GLUE評測集上的性能爬升

      全自動刷榜

      不同于現有只能在沙盒里做局部代碼優化的框架,AutoSOTA 并不是對單一實驗環節的局部加速。

      它將智能體的作用范圍大幅拓寬,向下延伸至環境準備、代碼運行等基礎瑣碎任務,向上則觸達研究靈感激發等核心構想步驟,旨在實現「從舊SOTA到新SOTA」、「從舊代碼庫到新代碼庫」的全面科研自動化。


      圖2 AutoSOTA研究問題框架

      借鑒人類算法研究中的分工流程與協作邏輯,使不同科研智能體能夠圍繞同一目標推進方案設計、實驗操作、數據分析與優化迭代,研究團隊設計了8個各司其職的Agent:


      圖3 AutoSOTA端到端AI科研自動化系統

      在資源準備與目標設定階段,AgentResource負責物理落地,從PDF提取官方代碼庫,并自動搞定海量外部數據集和權重的下載,AgentObjective負責識別目標,通過樹狀結構分解將論文宏觀目標轉化為密集的評估標準,精準鎖定要超越的目標。

      構建環境和實驗評估階段,AgentInit負責初始化環境,根據論文概念補全代碼庫中缺失的腳本,AgentMonitor作為外部監控者,實時追蹤執行軌跡 。一旦發現agent陷入了死循環調試,會立刻介入打斷并提供高級指導,AgentFix專治各種報錯。它帶著失敗記憶庫來修復CUDA不匹配、缺包等環境問題。

      深度反思與突破創新階段,AgentIdeator是核心創新大腦,它結合外部文獻先驗知識,提出架構重組的優化假設 ,AgentScheduler作為系統調度中樞,管理實驗的GPU資源和節點狀態,并在每次改代碼前自動打好Git快照以便隨時回滾,AgentSupervisor作為監督者,嚴格執行由禁止修改評估腳本、禁止更改數據集劃分等規則組成的紅線系統,所有生成的Idea必須經過它的嚴格審計。

      與此同時,AutoSOTA 配備了完善的工具庫(Toolkit)與技能集(Skill Set),既能處理實驗運行中的突發狀況,又能勝任查閱文獻、頭腦風暴和方案謀劃等高級工作,真正打通了從頂層規劃到底層執行的閉環。

      這意味著,AutoSOTA的野心不僅是「跑實驗快一點」,更是引領AI科研自動化從單一環節的輔助工具,蛻變為一套系統化、常態化且高度智能的科研協作生態。

      一周斬獲105個SOTA

      在最近進行的一場為期一周的真實壓力測試中,AutoSOTA展示了令人震撼的工業產出能力。該實驗以前一年的AI頂會論文成果為基礎,在完全無人干預的條件下持續運行。

      一周(168小時)內累計消耗約220億Token(約10.4萬美元,75萬元人民幣),最終成功發現了105個性能顯著提升的SOTA模型。這意味著系統在這周內,平均每隔約1.6小時就能完成一次性能飛躍。這105個新模型平均實現了近10%的性能提升。

      更令人驚訝的是,這些成果并非簡單的超參數微調,其中超過60%的模型涉及新穎的結構設計,展現了系統在復雜設計空間中的挖掘能力。AutoSOTA并非機械搜索,它能在已有研究的基礎上進行一定程度的結構創新。


      圖4 AutoSOTA實驗結果

      AutoSOTA的吞吐量與人類科研路徑形成了極其鮮明的代差。對于一名經驗豐富的人類研究者或人類博士而言,完成一個SOTA模型的完整迭代優化——包括精讀文獻、準備算力資源、安裝工具搭建平臺、模型訓練評估、深入調研創新構思以及持續調優——通常需要數個月的時間。

      相比之下,AutoSOTA走完從閱讀論文到迭代優化的全流程,平均耗時僅為5小時。

      這種百倍速的提升,不僅是效率的飛躍,更是科研范式維度的「降維打擊」。系統通過「算力換智能」,在相對穩定的條件下,持續產出具備學術競爭力的工作。它具備完善的工具庫與技能集,能夠獨立處理那些讓研究者頭疼的底層繁瑣任務。

      總結

      AutoSOTA帶給我們的震撼,不僅是產出了一批嶄新的SOTA指標,更深層的意義在于它促使學界反思科研創新的初衷:單純刷高SOTA分數,真的等同于實現了重大的科學突破嗎?

      它為我們拋出了一個極具啟發性的命題:如何才能把人類科學家最稀缺的注意力,從機械的實驗試錯中釋放出來,重新聚焦到更具原創價值、更考驗長遠判斷的研究課題上?

      未來理想的「人機協作」圖景或許是這樣的:由科研智能體系統去死磕那些重復度高、勞動密集的漫長優化流程;而人類科學家則專職負責提出好問題、錨定大方向、敏銳捕捉機遇并構思底層機制。

      從這個角度來看,AutoSOTA更像是一個加持在科研流程上的「創造力放大器」 。

      它的初衷決不是為了取代學者的原創智慧,而是要把這種原創性從低效繁雜的苦力活里徹底解放出來。


      圖5 AutoSOTA啟發的人智協同科研范式

      歸根結底,真正關乎科研未來的,絕非讓學者們陷入「把舊模型分數再推高一點」的循環,而是賦予他們探索那些未被定義、未被解釋且未被系統深挖之難題的機會。

      在這條探索之路上,AutoSOTA已經邁出了極具標志性的一步 。它不僅論證了智能體在AI科研自動化領域的磅礴潛力,更為我們描繪了一個充滿希望的明天:當繁重的「性能優化」被智能體接管,科學研究終將回歸其最純粹、最珍貴的起點——大膽地提出問題,勇敢地駛向未知,去追尋真正無可替代的原始創新突破。

      AutoSOTA的意義在于它重新定義了SOTA的價值。

      當性能優化可以被大規模自動化發現時,我們必須反思:SOTA性能的刷新是否等同于重大的科學突破?

      AutoSOTA給出的答案是:它應當成為人類科學家的「創造力放大器」。

      通過將工程實現與科學發現解耦,AutoSOTA讓研究者能夠面對那些尚未被解釋、尚未被系統探索的科學無人區。

      參考資料:

      https://arxiv.org/abs/2604.05550

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      83年新兵在首長門口掃地,全連笑他沒出息,演習那天他一槍驚動軍區

      83年新兵在首長門口掃地,全連笑他沒出息,演習那天他一槍驚動軍區

      源遠講堂
      2026-04-02 18:30:41
      越吃血管越通,立夏后敞開吃!降壓,降脂,又護心,千萬別錯過!

      越吃血管越通,立夏后敞開吃!降壓,降脂,又護心,千萬別錯過!

      劉哥談體育
      2026-05-08 13:30:55
      謝暉:靜安的國際化是骨子里的,景觀容易被拷貝,而人卻無法被復制

      謝暉:靜安的國際化是骨子里的,景觀容易被拷貝,而人卻無法被復制

      上海靜安
      2026-05-01 12:45:08
      盡顯領袖擔當!米切爾賽后吐露心聲:主場歸來我們將解決所有問題

      盡顯領袖擔當!米切爾賽后吐露心聲:主場歸來我們將解決所有問題

      田先生籃球
      2026-05-08 12:12:44
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      特朗普訪華前逼問北約:中美要是翻臉了,你們幫誰?北約的回答讓川普心涼一半

      特朗普訪華前逼問北約:中美要是翻臉了,你們幫誰?北約的回答讓川普心涼一半

      頭條爆料007
      2026-05-08 09:37:09
      楊立昆發布史上最“輕”世界模型,單GPU可訓,規劃速度提升48倍

      楊立昆發布史上最“輕”世界模型,單GPU可訓,規劃速度提升48倍

      DeepTech深科技
      2026-03-24 17:52:42
      中日關系正在發生改變:日本表面動作不斷,其實已開始另眼看中國

      中日關系正在發生改變:日本表面動作不斷,其實已開始另眼看中國

      智商已欠費啦
      2026-05-07 19:37:26
      再見了,塔克!總冠軍+9058萬美金到手,別怪NBA對你無情

      再見了,塔克!總冠軍+9058萬美金到手,別怪NBA對你無情

      世界體育圈
      2026-05-08 14:53:15
      饒毅,又有新職務!

      饒毅,又有新職務!

      梅斯醫學
      2026-05-07 07:53:28
      人在家中坐,禍從天上來,郭晶晶沒想到,霍啟剛竟步入王勁松后塵

      人在家中坐,禍從天上來,郭晶晶沒想到,霍啟剛竟步入王勁松后塵

      老踝是個手藝人
      2026-03-26 17:25:36
      2026年4月合肥蜀山區房價大幅下滑區域

      2026年4月合肥蜀山區房價大幅下滑區域

      說故事的阿襲
      2026-05-09 00:28:26
      女環衛工被毆再升級!警方出手,施暴者老底被扒,勢力大也得坐牢

      女環衛工被毆再升級!警方出手,施暴者老底被扒,勢力大也得坐牢

      寒士之言本尊
      2026-05-08 00:04:23
      數名醫生提醒:吃一口萵筍,等于給身體埋了一顆雷?真假?

      數名醫生提醒:吃一口萵筍,等于給身體埋了一顆雷?真假?

      王二哥老搞笑
      2026-05-06 20:07:02
      中國股市真正賺錢的一種人:長達13年只做一只股,每天堅持做T!

      中國股市真正賺錢的一種人:長達13年只做一只股,每天堅持做T!

      一方聊市
      2026-04-18 15:34:45
      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      吃蘭州拉面的人為什么越來越少了?網友:進店小心翼翼的怕說錯話

      另子維愛讀史
      2026-02-27 20:31:34
      夏季努力會得到回報,事業大突破,越過越富咸魚翻身的3生肖

      夏季努力會得到回報,事業大突破,越過越富咸魚翻身的3生肖

      毅談生肖
      2026-05-08 10:39:26
      14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

      14年前拿U型鎖砸人的蔡洋:2022年出獄,找不到工作靠打零工為生

      就一點
      2026-05-08 17:46:55
      “開除軍籍、持外國綠卡、騙財騙色”,蔣大為身上標簽哪個是真的

      “開除軍籍、持外國綠卡、騙財騙色”,蔣大為身上標簽哪個是真的

      尋墨閣
      2026-03-25 12:40:35
      隨著維拉4-1,英超成為本賽季歐戰最大贏家:3隊打入決賽

      隨著維拉4-1,英超成為本賽季歐戰最大贏家:3隊打入決賽

      側身凌空斬
      2026-05-08 05:05:19
      2026-05-09 03:59:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15163文章數 66850關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      房產
      旅游
      藝術
      數碼
      軍事航空

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      旅游要聞

      社評:中國的“Country Walk”何以吸引西方年輕人

      藝術要聞

      砸22億!OPPO在東莞建了一批“O字樓”

      數碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产自在自线午夜精品| 一级欧美一级日韩片| 无码精品人妻一区二区三区av | 国产精品三级国产专不| 亚洲色欲或者高潮影院| 91精品国产免费青青碰在线观看| 欧美人与动牲交免费观看网| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 女人天堂AV| 人妻夜夜爽天天爽| 中文字幕人乱码中文字幕| 国产喷白浆精品一区二区| 亚洲精品国产自在久久| 69久久夜色精品国产69| 免费精品国偷自产在线在线| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 国产精品人成视频免| 九九热视频在线免费观看 | 国产系列丝袜熟女精品视频 | 又大又粗又爽的少妇免费视频| 亚洲综合国产成人一区| 日本一本草久国产欧美日韩| 日韩乱码免费一区二区三区| 99精品国产自在现线10页| 深夜免费福利视频| 国产黄大片在线观看画质优化| 午夜狼友| 亚洲一区二区三区av链接| 无码国内精品人妻少妇| 欧美肉大捧一进一出免费视频| 4455免费| 国禁国产you女视频网站| 99热这里有免费国产精品| 玛纳斯县| 日韩精品国产自在欧美| 人人添人人澡人人澡人人人人| 日韩av一二区| 国产漂亮白嫩美女在线观看| 国产一区二区三区久久精品| 玖玖资源站亚洲最大成人网站| 欧美激情黑人极品hd|