<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環里最優

      0
      分享至




      機器之心發布

      科研,能被 AI 全程加速嗎?

      過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實驗,甚至生成新假設 ——AI 仿佛要成為科研全能助手。

      但做過科研的人都知道,真正燒腦、耗時間的不是「能跑」,而是「夠好」:調參數、改代碼、看輸出,再跑,再調…… 每一次優化都瑣碎又重復,卻幾乎無法跳過。

      于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續的「看反饋 → 調代碼 → 逼近最優」,全交給 Agent 自動完成?

      Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。



      • 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
      • 項目主頁:https://lab.einsia.ai/frontier-eng/
      • Arxiv: https://arxiv.org/abs/2604.12290
      • Github repo: https://github.com/EinsiaLab/Frontier-Engineering

      這不是又一個「模型會不會做題」的 benchmark。恰恰相反,它在問一個更接近真實 Auto Research 的問題:AI 到底能把一個可行方案優化到多好?

      當 Agent 不再只「答題」,而是真正開始做優化

      過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務能不能完成。但這些測試,大多還是「對就是對,錯就是錯」的二元評估邏輯。

      可真實世界里的 Research 從來不是這樣的。

      很多時候,一個方法已經能跑,結果也說得過去,但真正決定它有沒有競爭力的,是后面那一點點持續「拱」出來的提升。

      • 實驗快一點,意味著 researcher 少等幾輪結果;
      • 顯存省一點,意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來;
      • 指標漲一點,意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。

      在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個看起來合理的答案,而是它能不能接過這段漫長的迭代過程:持續讀反饋、改方案、跑實驗、壓指標,把研究員們從最重復、最煩人的調優里解放出來。

      而 Frontier-Eng Bench 想測的,正是 AI 能不能接過這一段過程。



      Frontier-Eng 總覽

      論文把這類問題定義為一種新的評測范式:Generative Optimization(生成式優化)。它本質上是在讓 Agent 不再只「交一次答案」,而是真正進入一個工程閉環:

      1. 提出方案
      2. 運行程序或仿真器
      3. 獲取詳細反饋
      4. 繼續修改方案
      5. 在固定預算內不斷逼近更優解

      這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案,而是不斷試、不斷調、不斷被現實打臉,再反過來修。

      把 Agent 扔進大量真實工程問題里

      為了把這件事做成一個靠譜的 benchmark,Navers Lab 搭了一個相當硬核的評測系統。

      研究團隊邀請了各個工程領域的 PhD 、Master student,提供他們在各自領域經常遇到的真實問題,并將其轉化成安全、可靠、可驗證的代碼庫。換句話說,Frontier-Eng 背后的每一個任務,都來自領域專家的一手經驗。

      Frontier-Eng v1 一共覆蓋 47 個任務,橫跨 5 大工程方向,包括:

      • 計算與量子信息
      • 運籌與決策科學
      • 機器人 / 控制 / 能源系統
      • 光學與通信系統
      • 物理科學與工程設計

      任務類型也不是紙上談兵,而是直接把 Agent 扔進了大量真實工程問題里,包括:

      • GPU kernel 優化
      • 電池快充策略
      • 機械臂運動時間壓縮
      • 量子線路優化
      • 數據中心控制
      • 結構拓撲設計
      • 作業車間調度
      • 光學相位設計
      • 單細胞分析
      • 化學反應優化



      Frontier-Eng Bench 與已有評測基準的對比

      這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」,而是在問:

      當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時,它持續優化的能力到底怎么樣

      一個專門防止 Agent「鉆空子」,只拼「硬實力」的 Benchmark

      Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里:

      • 評測器和參考數據是只讀的,Agent 改不了;
      • 候選方案在隔離環境里跑,沒法直接碰評分器;
      • 最終分數來自 verifier 自己吐出來的日志,而不是 Agent 自己報喜不報憂。

      也就是說,想拿高分,只有一條路:真的把方案做得更好

      這件事為什么難?因為它要求的已經不是單點能力,而是能力的組合。

      模型既要懂領域知識,知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效;又要會寫和改代碼,把這些想法變成可執行方案;還要會讀反饋,理解 simulator 給出的結果到底意味著什么;最后還得在有限預算里做搜索決策:是大改一版,還是小修一刀?

      論文里舉了一個很典型的例子:電池快充任務。目標很簡單,大家都能聽懂 —— 充得越快越好。

      但現實一點都不簡單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。

      這就不是「會不會寫一個函數」的問題了,而是能不能在真實物理反饋里做優化決策

      這也是 Frontier-Eng 最有意思的地方:

      它不再問「答案對不對」,而是問「你能不能在現實約束里持續變好」。



      不同模型的詳細評測結果

      結果揭示:gpt 5.4 最穩健,但前路尚遠

      從結果看,這套 benchmark 也確實夠難。

      論文系統評測了多種前沿模型和代表性搜索框架,結論很直接:gpt 5.4整體表現最穩健,但對所有模型來說,Frontier-Eng 都遠沒被做穿

      換句話說,今天最強的一批模型,已經能在一些工程任務上展現出明顯的優化能力,但距離「像資深工程師一樣穩定地跨領域做復雜優化」,還差得很遠。

      比排名更有意思的,是這篇論文順手揭示出的兩個規律。



      工程優化的雙重冪律衰減

      第一個規律是:越往后,提升越難

      論文發現,Agent 的改進頻率和幅度都呈現冪律衰減:改進頻率 ∝ 1 / 迭代輪數,改進幅度 ∝ 1 / 改進次數。簡單說就是:前面幾輪漲得最快,后面越來越難、越來越小。

      這很像真實研發:第一版能干掉大量低垂果實,但越往后越接近瓶頸,想再摳一點性能都得下狠功夫。

      那是不是多開幾條路并行試會更劃算?答案在第二個規律。



      深度 vs 寬度

      第二個規律:寬度有用,但深度不可或缺

      并行多跑幾條線能避免卡殼,但預算固定時,每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續積累、不斷修正,才出現結構性躍遷。

      這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長程反饋里持續迭代、自我進化的系統。

      Frontier-Eng Bench:意義不止于榜單

      Frontier-Eng Bench 把行業注意力從「能不能答對」拽到了更現實的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

      評測尺度變了 —— 不再是「對或錯」,而是「你能優化到什么程度」。

      從這個角度看,Frontier-Eng Bench 測的是:AI 距離成為幫人類干臟活累活的工程優化執行者,還有多遠?

      迭代優化是 Research 中永遠無法規避的一環。繞開它,方案永遠停在「差不多」。如果 AI 能扛下這一環呢?

      對科研人員來說,意味著從磨人的調優中解放出來

      對 Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。

      這比又一組刷榜數字,更值得行業認真對待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      解禁上架!英偉達 A100/H100 重回京東自營,顯卡市場迎來大轉折

      解禁上架!英偉達 A100/H100 重回京東自營,顯卡市場迎來大轉折

      小柱解說游戲
      2026-05-15 18:36:15
      為什么老外都愛天壇?

      為什么老外都愛天壇?

      民察秋毫
      2026-05-15 17:32:27
      樊振東被棄用不到24小時,正式官宣“新身份”,終于等到這一天

      樊振東被棄用不到24小時,正式官宣“新身份”,終于等到這一天

      做一個合格的吃瓜群眾
      2026-05-15 14:45:15
      WC!突發內訌!雄鹿最快速度交易...

      WC!突發內訌!雄鹿最快速度交易...

      技巧君侃球
      2026-05-15 15:46:09
      季后賽場均21+6,哈登下份合同該拿多少錢?三大因素定性不樂觀

      季后賽場均21+6,哈登下份合同該拿多少錢?三大因素定性不樂觀

      老梁體育漫談
      2026-05-15 23:28:40
      終于知道宇樹科技的王興興為什么推出一個不成熟的機甲了。

      終于知道宇樹科技的王興興為什么推出一個不成熟的機甲了。

      荊楚寰宇文樞
      2026-05-13 23:24:45
      此前反復強調,仍心存僥幸!上海警方:黃某,賠款!行拘!

      此前反復強調,仍心存僥幸!上海警方:黃某,賠款!行拘!

      環球網資訊
      2026-05-16 09:36:53
      特朗普剛離開北京,就撥通高市早苗電話,日本立馬派人來上海參會

      特朗普剛離開北京,就撥通高市早苗電話,日本立馬派人來上海參會

      愛下廚的阿釃
      2026-05-15 23:34:33
      美媒建議湖人7換3鵜鶘,引進2位超級3D+潛力中鋒,組豪華13人陣容

      美媒建議湖人7換3鵜鶘,引進2位超級3D+潛力中鋒,組豪華13人陣容

      錢說體育
      2026-05-16 09:28:31
      我官至副廳騙女友是科員,她帶我見家長,發現她媽是我曾經的領導

      我官至副廳騙女友是科員,她帶我見家長,發現她媽是我曾經的領導

      麥子情感故事
      2026-05-15 15:43:10
      越來越像本世紀初!高盛風險指標發出警告,這次是否會有所不同

      越來越像本世紀初!高盛風險指標發出警告,這次是否會有所不同

      第一財經資訊
      2026-05-16 07:54:15
      備戰提速?最新版殲-20A已經交付,外媒:美日還怎么武力介入臺海

      備戰提速?最新版殲-20A已經交付,外媒:美日還怎么武力介入臺海

      李健政觀察
      2026-05-15 14:04:27
      一場小雨后 成都街頭鋪上一層紫色浪漫

      一場小雨后 成都街頭鋪上一層紫色浪漫

      封面新聞
      2026-05-15 19:16:05
      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      老方
      2026-05-15 11:37:48
      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      醫學原創故事會
      2026-05-12 15:34:03
      逆轉淘汰東道主!U17國足隊員:狀態越來越好,將全力爭冠軍!

      逆轉淘汰東道主!U17國足隊員:狀態越來越好,將全力爭冠軍!

      海浪星體育
      2026-05-16 09:50:00
      2016年,女子人間蒸發,無尸體、無物證、無現場,警方5天內偵破

      2016年,女子人間蒸發,無尸體、無物證、無現場,警方5天內偵破

      莫地方
      2026-05-16 01:35:03
      雷軍找馬斯克合影,這是“無效社交”!我來教雷軍怎么做……

      雷軍找馬斯克合影,這是“無效社交”!我來教雷軍怎么做……

      麥杰遜
      2026-05-15 13:26:48
      姥姥奧運冠軍,媽媽全能學霸,10歲兒子哭訴:我真的好累

      姥姥奧運冠軍,媽媽全能學霸,10歲兒子哭訴:我真的好累

      媽咪OK
      2026-05-15 22:40:48
      廣東省紀委監委通報:何寧卡被查

      廣東省紀委監委通報:何寧卡被查

      鄉知鄉見
      2026-05-15 23:53:41
      2026-05-16 10:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13006文章數 142650關注度
      往期回顧 全部

      科技要聞

      漲的是車價,要的是老命

      頭條要聞

      火遍全網后消失 網紅小胖如今樣貌大變:做了心臟搭橋

      頭條要聞

      火遍全網后消失 網紅小胖如今樣貌大變:做了心臟搭橋

      體育要聞

      35歲坎特,干了一件這輩子最吵的事

      娛樂要聞

      張嘉譯和老婆的差距讓人心酸

      財經要聞

      造詞狂魔賈躍亭

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      手機
      旅游
      健康
      藝術
      軍事航空

      手機要聞

      小米打頭陣、各家排隊上!國產安卓的UI審美要統一了

      旅游要聞

      閉園、停運!暴雨即將抵達!河南多家景區發布緊急通知→

      專家揭秘干細胞回輸的安全風險

      藝術要聞

      張自忠密信曝光,書法與國畫關系引發討論

      軍事要聞

      聯合國安理會審議敘利亞局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品在线二区三区| 91福利一区福利二区| 天天艹天天干| 久久国产精品日本波多野结衣| 伊人婷婷色香五月综合缴缴情| 国产不卡在线看| 免费无码久久成人影片| 国产精品久久久久久久久齐齐| 18岁禁一区二区三区| 无遮挡十八禁污污网站在线观看| 国产精品一区在线蜜臀| 一本色道av久久精品| 久久精品午夜视频| 三级三级三级a级全黄| 国产日本一区二区精品| 日韩精品a片一区二区三区妖精| 日韩av手机免费观看| 亚洲亚洲人成综合网络| 亚洲国产高清在线一区二区三区| 国产精品成人久久久久久久| 国产草草影院ccyycom| 久久发布国产伦子伦精品| 一区二区三区毛VⅤ| 人人操碰| 国产精品国产自线拍免费软件| 亚洲尤物你懂的视频在线看| 久久无码高潮喷水抽搐| 国产一区二区四区不卡| 日本一卡二卡不卡视频查询| 色综合久久人妻精品日韩| 精品无码久久久久国产99| 人妻少妇av无码一区二区| 欧美亚洲国产专区在线app| 特黄A级毛片免费视频| 精品国产人成亚洲区| 99精品国产综合久久久久五月天| 久久久一本精品99久久k精品66| 熟女丝袜av| 日韩人妻网站| 制服丝袜 91视频| 日逼视频网站|