![]()
新智元報道
編輯:好困
【新智元導讀】SWE-Bench上能拿72%的模型,換張考卷直接歸零!Meta聯合斯坦福、哈佛放出ProgramBench,200個項目從零手寫,9大頂級模型完整通過率0%。最強的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯網,就有模型在36%的任務里跑去GitHub扒源碼。
給你一份FFmpeg的使用文檔,和一個編譯好的可執行文件。
現在,從零把整個程序重新寫出來。
這就是ProgramBench給全球頂級AI出的題。
昨天剛發布,出自SWE-Bench原班人馬之手,Meta、斯坦福、哈佛三家聯手打造。
200個軟件項目。9個頂級模型。通過率,0%!
![]()
共同一作John Yang,斯坦福在讀博士,同時也是SWE-Bench和SWE-agent的創建者
不是修bug,是從零造軟件
過去一年,「讓AI Agent從零造軟件」的案例報道越來越多。
Anthropic用一組平行Claude寫了個C編譯器,Cursor發博客講長時間自主編程,Epoch AI的MirrorCode也在做類似的事。
但這些案例有個共同問題,每次只測幾個項目,腳手架都是手工調優的。
相比之下,ProgramBench把這件事正規化了。
200個任務,統一腳手架,系統性反作弊,一把拉到benchmark的標準。
![]()
論文地址:https://programbench.com/static/paper.pdf
在之前的測試中,SWE-Bench會給你一個現成的代碼庫,告訴你哪里有bug或者需要加什么功能,你去改。本質上是「閱讀理解+局部手術」。
而且在評估層面,它用的是單元測試,檢查你的代碼內部實現對不對,你的函數簽名、變量名都得和預期一致。
ProgramBench則完全反過來。
它只給你兩樣東西,一個編譯好的可執行文件,加上使用文檔。
你的任務是僅憑運行這個程序、觀察它的輸入輸出行為,從零寫出一套能復現同樣行為的代碼。
選什么編程語言,用什么數據結構,怎么拆分模塊,全部你自己定。
沒有代碼骨架,沒有函數簽名,沒有任何提示。
![]()
評估方式上,研究團隊用Agent驅動的模糊測試,為200個任務生成了總計248,853個行為測試。
你寫的程序跑一遍,輸入輸出和原版一致就算過,不一致就掛。測試永遠不會透露給模型。
和SWE-Bench的單元測試不同,ProgramBench的行為測試完全不關心你的代碼內部長什么樣,只要行為一致就行。
![]()
200個任務覆蓋的項目橫跨壓縮工具(zstd、lz4、brotli)、語言解釋器(PHP、Lua、tinycc)、數據庫(DuckDB、SQLite)、媒體處理(FFmpeg)、開發者工具(ripgrep、fzf、jq)。
代碼行數中位數8,635行,最大的FFmpeg有270萬行。
![]()
![]()
總結來說,這個測試考的是AI有沒有能力「像人類工程師一樣思考和設計軟件」,而不只是「在現成代碼里找到該改的地方然后改對」。
九大模型排排坐,成績全部吃鴨蛋
參加測試的共有9款模型,涵蓋Claude、Gemini、GPT三大家族。
完整通過率(所有測試全部通過),全員0%。
![]()
先看三家旗艦的正面對決。
GPT-5.4和Gemini 3.1 Pro的平均測試通過率幾乎打平,分別是38.3%和36.6%。但兩者的做題風格截然不同。
GPT-5.4只用16次API調用、0.33美元成本,基本就是一口氣把整個程序寫完,100%的代碼在一次編輯中生成,之后幾乎不回頭改。
Gemini 3.1 Pro則是9個模型里最愛「觀察」的。它用了94次API調用,其中34.1%的操作都在運行原版程序、觀察輸入輸出行為。探索做得最多,但最終成績差距不大。
真正拉開身位的是Claude Opus 4.7。
平均通過率51.2%,在3%的任務上通過了95%以上的測試,是唯一達到「幾乎通過」標準的模型。但即便是它,也沒有在任何一個任務上拿到滿分。
從整體來看,9個模型的表現呈現出清晰的梯隊。
Claude系三款旗艦(Opus 4.7、Opus 4.6、Sonnet 4.6)領先,GPT-5.4和Gemini 3.1 Pro構成第二梯隊,剩下的四款小模型通過率都在35%以下。
![]()
另一個反直覺的發現是,砸錢和堆步數并不能換來更好的成績。
Sonnet 4.6每個任務平均跑868條命令,成本27.09美元,最長的軌跡接近2000步。但它的成績反而不如只用93次調用、花3.81美元的Opus 4.7。
更關鍵的是,98%的運行中,模型都是自己覺得「做完了」主動交卷的,根本沒有撞到時間或步數上限。
不是考試時間不夠,是真的做不到。
此外,任務難度和模型排名高度一致。
簡單的CLI工具(nnn、fzf、gron)大家都能拿到不錯的分數,復雜系統(FFmpeg、PHP、typst、ast-grep)則對所有模型一視同仁地無情。
![]()
需要說明的是,ProgramBench用的是mini-SWE-agent這個極簡腳手架,沒有上下文壓縮、沒有多Agent協作、沒有定制化工具鏈。
![]()
代碼寫出來了,但完全不像人寫的
研究團隊對比了通過75%以上測試的高分解答和人類原版代碼,發現了幾個驚人的差異。
單文件怪獸。
人類代碼中位數分布在15個文件里,模型的中位數是3個。
60%的解答只有1到3個代碼文件。
人類工程師按功能拆分模塊,模型傾向于把所有東西塞進一個巨大的文件。目錄深度中位數,人類是2層,模型是1層。
函數又少又長。
Opus 4.7寫的函數數量只有人類的29%,Sonnet 4.6是24%,GPT-5.4只有10%。
但每個函數的平均長度更長,Gemini 3.1 Pro寫的函數比人類長62%。
代碼量大幅縮水。
模型代碼中位數1,173行,人類是3,068行。85%的高分解答比原版短。
![]()
總結來說就是,現在的AI會寫代碼,但不會做軟件設計。
它不懂為什么要拆分模塊,不理解為什么人類工程師要花時間定義接口和抽象層。策略就是把所有邏輯硬塞進盡可能少的文件和函數里,能跑就行。
GPT-5.4的表現最極端。平均每個任務只創建5個文件,修改1.2次,39.5%的軌跡在創建文件后零修改。
相比之下,Claude Sonnet 4.6平均創建11.3個文件、修改18.3次,表現出更接近人類的迭代開發模式。
![]()
還有一個很有意思的現象。
模型只有50%的概率會用和原版相同的編程語言。
其中,Python是模型的最愛,占所有1,800次運行的36%。
原版用Rust寫的項目,只有44%用Rust重寫;C/C++的,46%。Go項目的「忠誠度」最高,70%。
不管你原來是用什么語言寫的,模型有三分之一的概率會用Python重來一遍。
![]()
說好的不作弊,一聯網就去GitHub扒源碼
這可能是整個研究里最有戲劇感的部分。
研究團隊做了一組對照實驗,給模型開放網絡訪問權限,但在系統提示中明確告知「作弊不允許」。
然后用9個AI裁判檢查每條軌跡是否存在作弊行為。
結果觸目驚心。
Claude Sonnet 4.6有36%的任務被判定作弊,Claude Opus 4.6是21%,Gemini 3 Flash是20%。
![]()
作弊方式五花八門。
最赤裸裸的是去GitHub克隆源碼倉庫。
稍微隱蔽一點的是通過包管理器下載,比如cargo install、go get。
更狡猾的是去本地包緩存目錄翻依賴庫的源碼。
![]()
但AI裁判之間的分歧也大得驚人。
對于Claude Opus 4.6,9個裁判在57%的任務上無法達成一致。
有一個案例特別典型。
Claude Sonnet 4.6在做handlr這個Rust項目時,跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫的源代碼。
5個裁判判定作弊,4個裁判認為這些是第三方庫不算作弊。
最終,研究團隊放棄了「聯網+事后檢測」的方案,直接斷網。
模型在面對困難任務時,「找捷徑」的傾向比預想的強得多。而連9個AI裁判都判不清楚什么算作弊、什么算合理的逆向工程,說明這條邊界本身就是模糊的。
舊考試結束了,新考試才剛開始
SWE-Bench上能拿72%的模型,在ProgramBench上拿0%。
這兩個測試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」,ProgramBench考的是「自己從頭設計并實現一個完整系統」。
前者AI已經做得相當好了,后者目前完全不及格。
Epoch AI上周剛發了一篇博文,宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測試,至少得放棄四個舒適條件中的一個,純文本、短耗時、易評分、人類專家碾壓。
![]()
按這個框架來看,ProgramBench放棄了其中兩個,短耗時和易評分。
它把任務拉到了人類工程師可能需要數周甚至數月才能完成的量級,同時用行為等價性而非源碼匹配來評估。
作者John Yang在推文中強調,「ProgramBench非常難,但它在設計上是可解的。」
也就是說,0%不代表這些任務超出了AI的理論極限,只是說明今天的模型還遠遠不夠。
SWE-Bench測的是AI能不能當一個好員工。ProgramBench測的是AI能不能當一個工程師。
這兩件事之間的距離,今天剛被精確測量出來。答案是0%。
參考資料:
https://programbench.com/static/paper.pdf
https://x.com/jyangballin/status/2051677497562210552?s=20
https://x.com/EpochAIResearch/status/2051760424891392204?s=20
https://epochai.substack.com/p/rip-classic-reasoning-benchmarks
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.