網易首頁 > 網易號 > 正文申請入駐

Auto Research最后一塊拼圖,Frontier-Eng Bench,工程閉環里最優

2026-05-12 12:14:39　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

科研，能被 AI 全程加速嗎？

過去兩年，Auto Research 被寄予厚望：讀論文、找方向、寫代碼、跑實驗，甚至生成新假設 ——AI 仿佛要成為科研全能助手。

但做過科研的人都知道，真正燒腦、耗時間的不是「能跑」，而是「夠好」：調參數、改代碼、看輸出，再跑，再調…… 每一次優化都瑣碎又重復，卻幾乎無法跳過。

于是問題來了：能不能把這些繁瑣的迭代交給 AI？Researcher 只提供方向，后續的「看反饋 → 調代碼 → 逼近最優」，全交給 Agent 自動完成？

Einsia AI 旗下 Navers Lab 的最新論文 Frontier-Eng 盯上的就是這件事。

論文題目：Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
項目主頁：https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
Github repo: https://github.com/EinsiaLab/Frontier-Engineering

這不是又一個「模型會不會做題」的 benchmark。恰恰相反，它在問一個更接近真實 Auto Research 的問題：AI 到底能把一個可行方案優化到多好？

當 Agent 不再只「答題」，而是真正開始做優化

過去兩年，大家見過太多 Agent benchmark：有的考檢索，有的考代碼，有的看任務能不能完成。但這些測試，大多還是「對就是對，錯就是錯」的二元評估邏輯。

可真實世界里的 Research 從來不是這樣的。

很多時候，一個方法已經能跑，結果也說得過去，但真正決定它有沒有競爭力的，是后面那一點點持續「拱」出來的提升。

實驗快一點，意味著 researcher 少等幾輪結果；
顯存省一點，意味著更大的模型、更長的上下文、更復雜的設置終于能跑起來；
指標漲一點，意味著離 SOTA 更近一步，離榜單前排更近一步，甚至可能就是 paper 能不能站得住的差別。

在 Auto Research 里，最重要的不是 Agent 能不能一次性給出一個看起來合理的答案，而是它能不能接過這段漫長的迭代過程：持續讀反饋、改方案、跑實驗、壓指標，把研究員們從最重復、最煩人的調優里解放出來。

而 Frontier-Eng Bench 想測的，正是 AI 能不能接過這一段過程。

Frontier-Eng 總覽

論文把這類問題定義為一種新的評測范式：Generative Optimization（生成式優化）。它本質上是在讓 Agent 不再只「交一次答案」，而是真正進入一個工程閉環：

提出方案
運行程序或仿真器
獲取詳細反饋
繼續修改方案
在固定預算內不斷逼近更優解

這其實就是科研人員和工程師們每天都在做的事情。不是拍腦袋給出一個最終答案，而是不斷試、不斷調、不斷被現實打臉，再反過來修。

把 Agent 扔進大量真實工程問題里

為了把這件事做成一個靠譜的 benchmark，Navers Lab 搭了一個相當硬核的評測系統。

研究團隊邀請了各個工程領域的 PhD 、Master student，提供他們在各自領域經常遇到的真實問題，并將其轉化成安全、可靠、可驗證的代碼庫。換句話說，Frontier-Eng 背后的每一個任務，都來自領域專家的一手經驗。

Frontier-Eng v1 一共覆蓋 47 個任務，橫跨 5 大工程方向，包括：

計算與量子信息
運籌與決策科學
機器人 / 控制 / 能源系統
光學與通信系統
物理科學與工程設計

任務類型也不是紙上談兵，而是直接把 Agent 扔進了大量真實工程問題里，包括：

GPU kernel 優化
電池快充策略
機械臂運動時間壓縮
量子線路優化
數據中心控制
結構拓撲設計
作業車間調度
光學相位設計
單細胞分析
化學反應優化

Frontier-Eng Bench 與已有評測基準的對比

這意味著 Frontier-Eng Bench 測的不是某一個窄領域里的「技巧題」，而是在問：

當 Agent 面對不同學科、不同目標函數、不同仿真器、不同硬約束時，它持續優化的能力到底怎么樣

一個專門防止 Agent「鉆空子」，只拼「硬實力」的 Benchmark

Frontier-Eng Bench 明顯吸取了過去很多評測容易 “被鉆空子” 的教訓。在這里：

評測器和參考數據是只讀的，Agent 改不了；
候選方案在隔離環境里跑，沒法直接碰評分器；
最終分數來自 verifier 自己吐出來的日志，而不是 Agent 自己報喜不報憂。

也就是說，想拿高分，只有一條路：真的把方案做得更好

這件事為什么難？因為它要求的已經不是單點能力，而是能力的組合。

模型既要懂領域知識，知道電池為什么會析鋰、機械臂為什么會撞、庫存策略為什么會失效；又要會寫和改代碼，把這些想法變成可執行方案；還要會讀反饋，理解 simulator 給出的結果到底意味著什么；最后還得在有限預算里做搜索決策：是大改一版，還是小修一刀？

論文里舉了一個很典型的例子：電池快充任務。目標很簡單，大家都能聽懂 —— 充得越快越好。

但現實一點都不簡單：電壓、溫度、析鋰、老化全是硬約束。Agent 不能只為了快一路猛沖，它必須在充電速度、熱安全和壽命損耗之間找平衡。

這就不是「會不會寫一個函數」的問題了，而是能不能在真實物理反饋里做優化決策

這也是 Frontier-Eng 最有意思的地方：

它不再問「答案對不對」，而是問「你能不能在現實約束里持續變好」。

不同模型的詳細評測結果

結果揭示：gpt 5.4 最穩健，但前路尚遠

從結果看，這套 benchmark 也確實夠難。

論文系統評測了多種前沿模型和代表性搜索框架，結論很直接：gpt 5.4整體表現最穩健，但對所有模型來說，Frontier-Eng 都遠沒被做穿

換句話說，今天最強的一批模型，已經能在一些工程任務上展現出明顯的優化能力，但距離「像資深工程師一樣穩定地跨領域做復雜優化」，還差得很遠。

比排名更有意思的，是這篇論文順手揭示出的兩個規律。

工程優化的雙重冪律衰減

第一個規律是：越往后，提升越難

論文發現，Agent 的改進頻率和幅度都呈現冪律衰減：改進頻率 ∝ 1 / 迭代輪數，改進幅度 ∝ 1 / 改進次數。簡單說就是：前面幾輪漲得最快，后面越來越難、越來越小。

這很像真實研發：第一版能干掉大量低垂果實，但越往后越接近瓶頸，想再摳一點性能都得下狠功夫。

那是不是多開幾條路并行試會更劃算？答案在第二個規律。

深度 vs 寬度

第二個規律：寬度有用，但深度不可或缺

并行多跑幾條線能避免卡殼，但預算固定時，每多開一條鏈就會壓淺深度。很多工程突破不是靠「多試幾次」，而是靠持續積累、不斷修正，才出現結構性躍遷。

這提示了下一代 Agent 的方向：不是「一次出答案」的模型，而是能在長程反饋里持續迭代、自我進化的系統。

Frontier-Eng Bench：意義不止于榜單

Frontier-Eng Bench 把行業注意力從「能不能答對」拽到了更現實的問題上：AI 能不能替人扛下科研里那些最惡心、最瑣碎、又繞不開的活兒

評測尺度變了 —— 不再是「對或錯」，而是「你能優化到什么程度」。

從這個角度看，Frontier-Eng Bench 測的是：AI 距離成為幫人類干臟活累活的工程優化執行者，還有多遠？

迭代優化是 Research 中永遠無法規避的一環。繞開它，方案永遠停在「差不多」。如果 AI 能扛下這一環呢？

對科研人員來說，意味著從磨人的調優中解放出來

對 Auto Research，則意味著能把方案落地到極致，才能真正地開啟飛輪。

這比又一組刷榜數字，更值得行業認真對待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.