<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環里最優

      0
      分享至




      機器之心發布

      科研,能被 AI 全程加速嗎?

      過去兩年,Auto Research 被寄予厚望:讀論文、找方向、寫代碼、跑實驗,甚至生成新假設 ——AI 仿佛要成為科研全能助手。

      但做過科研的人都知道,真正燒腦、耗時間的不是「能跑」,而是「夠好」:調參數、改代碼、看輸出,再跑,再調…… 每一次優化都瑣碎又重復,卻幾乎無法跳過。

      于是問題來了:能不能把這些繁瑣的迭代交給 AI?Researcher 只提供方向,后續的「看反饋 → 調代碼 → 逼近最優」,全交給 Agent 自動完成?

      Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。



      • 論文題目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
      • 項目主頁:https://lab.einsia.ai/frontier-eng/
      • Arxiv: https://arxiv.org/abs/2604.12290
      • Github repo: https://github.com/EinsiaLab/Frontier-Engineering

      這不是又一個「模型會不會做題」的 benchmark。恰恰相反,它在問一個更接近真實 Auto Research 的問題:AI 到底能把一個可行方案優化到多好?

      當 Agent 不再只「答題」,而是真正開始做優化

      過去兩年,大家見過太多 Agent benchmark:有的考檢索,有的考代碼,有的看任務能不能完成。但這些測試,大多還是「對就是對,錯就是錯」的二元評估邏輯。

      可真實世界里的 Research 從來不是這樣的。

      很多時候,一個方法已經能跑,結果也說得過去,但真正決定它有沒有競爭力的,是后面那一點點持續「拱」出來的提升。

      • 實驗快一點,意味著 researcher 少等幾輪結果;
      • 顯存省一點,意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來;
      • 指標漲一點,意味著離 SOTA 更近一步,離榜單前排更近一步,甚至可能就是 paper 能不能站得住的差別。

      在 Auto Research 里,最重要的不是 Agent 能不能一次性給出一個看起來合理的答案,而是它能不能接過這段漫長的迭代過程:持續讀反饋、改方案、跑實驗、壓指標,把研究員們從最重復、最煩人的調優里解放出來。

      而 Frontier-Eng Bench 想測的,正是 AI 能不能接過這一段過程。



      Frontier-Eng 總覽

      論文把這類問題定義為一種新的評測范式:Generative Optimization(生成式優化)。它本質上是在讓 Agent 不再只「交一次答案」,而是真正進入一個工程閉環:

      1. 提出方案
      2. 運行程序或仿真器
      3. 獲取詳細反饋
      4. 繼續修改方案
      5. 在固定預算內不斷逼近更優解

      這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案,而是不斷試、不斷調、不斷被現實打臉,再反過來修。

      把 Agent 扔進大量真實工程問題里

      為了把這件事做成一個靠譜的 benchmark,Navers Lab 搭了一個相當硬核的評測系統。

      研究團隊邀請了各個工程領域的 PhD 、Master student,提供他們在各自領域經常遇到的真實問題,并將其轉化成安全、可靠、可驗證的代碼庫。換句話說,Frontier-Eng 背后的每一個任務,都來自領域專家的一手經驗。

      Frontier-Eng v1 一共覆蓋 47 個任務,橫跨 5 大工程方向,包括:

      • 計算與量子信息
      • 運籌與決策科學
      • 機器人 / 控制 / 能源系統
      • 光學與通信系統
      • 物理科學與工程設計

      任務類型也不是紙上談兵,而是直接把 Agent 扔進了大量真實工程問題里,包括:

      • GPU kernel 優化
      • 電池快充策略
      • 機械臂運動時間壓縮
      • 量子線路優化
      • 數據中心控制
      • 結構拓撲設計
      • 作業車間調度
      • 光學相位設計
      • 單細胞分析
      • 化學反應優化



      Frontier-Eng Bench 與已有評測基準的對比

      這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」,而是在問:

      當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時,它持續優化的能力到底怎么樣

      一個專門防止 Agent「鉆空子」,只拼「硬實力」的 Benchmark

      Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里:

      • 評測器和參考數據是只讀的,Agent 改不了;
      • 候選方案在隔離環境里跑,沒法直接碰評分器;
      • 最終分數來自 verifier 自己吐出來的日志,而不是 Agent 自己報喜不報憂。

      也就是說,想拿高分,只有一條路:真的把方案做得更好

      這件事為什么難?因為它要求的已經不是單點能力,而是能力的組合。

      模型既要懂領域知識,知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效;又要會寫和改代碼,把這些想法變成可執行方案;還要會讀反饋,理解 simulator 給出的結果到底意味著什么;最后還得在有限預算里做搜索決策:是大改一版,還是小修一刀?

      論文里舉了一個很典型的例子:電池快充任務。目標很簡單,大家都能聽懂 —— 充得越快越好。

      但現實一點都不簡單:電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖,它必須在充電速度、熱安全和壽命損耗之間找平衡。

      這就不是「會不會寫一個函數」的問題了,而是能不能在真實物理反饋里做優化決策

      這也是 Frontier-Eng 最有意思的地方:

      它不再問「答案對不對」,而是問「你能不能在現實約束里持續變好」。



      不同模型的詳細評測結果

      結果揭示:gpt 5.4 最穩健,但前路尚遠

      從結果看,這套 benchmark 也確實夠難。

      論文系統評測了多種前沿模型和代表性搜索框架,結論很直接:gpt 5.4整體表現最穩健,但對所有模型來說,Frontier-Eng 都遠沒被做穿

      換句話說,今天最強的一批模型,已經能在一些工程任務上展現出明顯的優化能力,但距離「像資深工程師一樣穩定地跨領域做復雜優化」,還差得很遠。

      比排名更有意思的,是這篇論文順手揭示出的兩個規律。



      工程優化的雙重冪律衰減

      第一個規律是:越往后,提升越難

      論文發現,Agent 的改進頻率和幅度都呈現冪律衰減:改進頻率 ∝ 1 / 迭代輪數,改進幅度 ∝ 1 / 改進次數。簡單說就是:前面幾輪漲得最快,后面越來越難、越來越小。

      這很像真實研發:第一版能干掉大量低垂果實,但越往后越接近瓶頸,想再摳一點性能都得下狠功夫。

      那是不是多開幾條路并行試會更劃算?答案在第二個規律。



      深度 vs 寬度

      第二個規律:寬度有用,但深度不可或缺

      并行多跑幾條線能避免卡殼,但預算固定時,每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」,而是靠持續積累、不斷修正,才出現結構性躍遷。

      這提示了下一代 Agent 的方向:不是「一次出答案」的模型,而是能在長程反饋里持續迭代、自我進化的系統。

      Frontier-Eng Bench:意義不止于榜單

      Frontier-Eng Bench 把行業注意力從「能不能答對」拽到了更現實的問題上:AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

      評測尺度變了 —— 不再是「對或錯」,而是「你能優化到什么程度」。

      從這個角度看,Frontier-Eng Bench 測的是:AI 距離成為幫人類干臟活累活的工程優化執行者,還有多遠?

      迭代優化是 Research 中永遠無法規避的一環。繞開它,方案永遠停在「差不多」。如果 AI 能扛下這一環呢?

      對科研人員來說,意味著從磨人的調優中解放出來

      對 Auto Research,則意味著能把方案落地到極致,才能真正地開啟飛輪。

      這比又一組刷榜數字,更值得行業認真對待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      揚眉吐氣史無前例!第一次把在任美國國務卿永久攔在中國國門外

      揚眉吐氣史無前例!第一次把在任美國國務卿永久攔在中國國門外

      雪中風車
      2026-05-12 13:10:31
      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      顏小白的籃球夢
      2026-05-12 13:30:31
      京滬高鐵漲價,罵聲一片

      京滬高鐵漲價,罵聲一片

      鳳眼論
      2026-05-12 16:53:49
      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      界面新聞
      2026-05-12 14:55:29
      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標三亞,價格真相大白

      劉雨鑫打卡潮汕天價海鮮!同款瀨尿蝦對標三亞,價格真相大白

      行者聊官
      2026-05-11 12:23:14
      黃仁勛給大家指出一條明路

      黃仁勛給大家指出一條明路

      販財局
      2026-05-12 16:36:15
      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      瀟拾億郎
      2026-05-12 18:03:02
      梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復婚后超寵妻

      梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復婚后超寵妻

      阿訊說天下
      2026-05-12 12:32:35
      痛心!青海17歲女生遺體已找到,凌晨復印試卷家長無視讓人意難平

      痛心!青海17歲女生遺體已找到,凌晨復印試卷家長無視讓人意難平

      社會日日鮮
      2026-05-12 08:03:00
      47歲資本大佬戴學斌,涉嫌刑事犯罪被拘!旗下藍潤系曾坐擁超千億元資產,知情人:去年就已有風聲

      47歲資本大佬戴學斌,涉嫌刑事犯罪被拘!旗下藍潤系曾坐擁超千億元資產,知情人:去年就已有風聲

      每日經濟新聞
      2026-05-12 11:24:13
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      全球進入北京時間

      全球進入北京時間

      環球時報國際
      2026-05-12 14:44:04
      賣掉格力換來的416億,被他們“敗”光了!

      賣掉格力換來的416億,被他們“敗”光了!

      犀利強哥
      2026-05-11 08:30:22
      90后新婚夫妻患同種罕見病后癱瘓,全球共患情況僅有個位數,孩子出生即夭折,專家:可能是兩人接觸了同一個感染源

      90后新婚夫妻患同種罕見病后癱瘓,全球共患情況僅有個位數,孩子出生即夭折,專家:可能是兩人接觸了同一個感染源

      魯中晨報
      2026-05-12 18:23:18
      特朗普還沒上訪華飛機,美方先發起一道制裁令,中方回應斬釘截鐵

      特朗普還沒上訪華飛機,美方先發起一道制裁令,中方回應斬釘截鐵

      知法而形
      2026-05-12 17:47:08
      武大開了一個壞頭

      武大開了一個壞頭

      燕梳樓頻道
      2026-05-12 12:31:28
      曝國際足聯高官本周到北京:兩屆世界杯打包,主動給央視大幅降價

      曝國際足聯高官本周到北京:兩屆世界杯打包,主動給央視大幅降價

      影像溫度
      2026-05-12 11:33:30
      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      界面新聞
      2026-05-12 11:58:06
      特斯拉宣布停產,震驚全網!

      特斯拉宣布停產,震驚全網!

      財經三分鐘pro
      2026-05-12 15:10:58
      下降6%!一季度結婚數再創新低,同比減少11萬對,離婚數也少了

      下降6%!一季度結婚數再創新低,同比減少11萬對,離婚數也少了

      網易新聞出品
      2026-05-12 15:45:59
      2026-05-12 20:11:03
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      媒體:斯塔默能否保住相位 現在已成英國政壇最大懸念

      頭條要聞

      媒體:斯塔默能否保住相位 現在已成英國政壇最大懸念

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      時尚
      旅游
      數碼
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      征集|| 她們也太會買裙子了!邊看邊種草

      旅游要聞

      方松街道|來方松 來放松|解鎖微度假,邂逅好時光!FUN小松帶你游方松~

      數碼要聞

      ATK推出A9 Mini大師版+中小手鼠標:PAW3955MASTER傳感器

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新中文字幕av无码专区不| 精品久久国产字幕高潮| 在线观看国产成人无码| 中文字幕AV在线| 日韩av资源在线观看| 日本熟妇浓毛| 六月婷| 国产成人久久精品一区二区三区| 一本大道久久久久精品嫩草| www射我里面在线观看| 97久久综合精品久久久综合| 18禁男女爽爽爽午夜网站免费| 国产精品av中文字幕| 久久人人97超碰国产精品| 综合色在线| 99久久精品视香蕉蕉| 嫩草91| 久久精品人妻无码一区二区三区| 青青国产揄拍视频| 国产无码二区| 国产精品亚洲ΑV三区| 狠狠爱五月丁香亚洲综| 69堂在线观看线无码视频一| 日日夜夜天天综合| 99精品成人无码观看免费| 久久中文字幕不卡一二区| 欧美在线视频a| 成人性生交大片免费看中文| 美女视频黄频a免费久18分| 国产精品中文字幕久久| 久久中文字幕乱码久久午夜| 中文字幕欧美日韩va免费视频 | 国产乱人激情H在线观看| 自拍偷自拍亚洲精品第1页| 特黄aaaaaaa片免费视频| 草莓av| 国产偷国产偷高清精品 | 亚洲公开免费在线视频| 东京热加勒比无码少妇| 久久中文字幕一区二区| 国产精品一线二线三线|