<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      刷榜AI全掛了!Meta斯坦福地獄級測試,GPT/Claude/Gemini交出0分

      0
      分享至


      新智元報道

      編輯:好困

      【新智元導讀】SWE-Bench上能拿72%的模型,換張考卷直接歸零!Meta聯合斯坦福、哈佛放出ProgramBench,200個項目從零手寫,9大頂級模型完整通過率0%。最強的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯網,就有模型在36%的任務里跑去GitHub扒源碼。

      給你一份FFmpeg的使用文檔,和一個編譯好的可執行文件。

      現在,從零把整個程序重新寫出來。

      這就是ProgramBench給全球頂級AI出的題。

      昨天剛發布,出自SWE-Bench原班人馬之手,Meta、斯坦福、哈佛三家聯手打造。

      200個軟件項目。9個頂級模型。通過率,0%!


      共同一作John Yang,斯坦福在讀博士,同時也是SWE-Bench和SWE-agent的創建者

      不是修bug,是從零造軟件

      過去一年,「讓AI Agent從零造軟件」的案例報道越來越多。

      Anthropic用一組平行Claude寫了個C編譯器,Cursor發博客講長時間自主編程,Epoch AI的MirrorCode也在做類似的事。

      但這些案例有個共同問題,每次只測幾個項目,腳手架都是手工調優的。

      相比之下,ProgramBench把這件事正規化了。

      200個任務,統一腳手架,系統性反作弊,一把拉到benchmark的標準。


      論文地址:https://programbench.com/static/paper.pdf

      在之前的測試中,SWE-Bench會給你一個現成的代碼庫,告訴你哪里有bug或者需要加什么功能,你去改。本質上是「閱讀理解+局部手術」。

      而且在評估層面,它用的是單元測試,檢查你的代碼內部實現對不對,你的函數簽名、變量名都得和預期一致。

      ProgramBench則完全反過來。

      它只給你兩樣東西,一個編譯好的可執行文件,加上使用文檔。

      你的任務是僅憑運行這個程序、觀察它的輸入輸出行為,從零寫出一套能復現同樣行為的代碼。

      選什么編程語言,用什么數據結構,怎么拆分模塊,全部你自己定。

      沒有代碼骨架,沒有函數簽名,沒有任何提示。


      評估方式上,研究團隊用Agent驅動的模糊測試,為200個任務生成了總計248,853個行為測試。

      你寫的程序跑一遍,輸入輸出和原版一致就算過,不一致就掛。測試永遠不會透露給模型。

      和SWE-Bench的單元測試不同,ProgramBench的行為測試完全不關心你的代碼內部長什么樣,只要行為一致就行。


      200個任務覆蓋的項目橫跨壓縮工具(zstd、lz4、brotli)、語言解釋器(PHP、Lua、tinycc)、數據庫(DuckDB、SQLite)、媒體處理(FFmpeg)、開發者工具(ripgrep、fzf、jq)。

      代碼行數中位數8,635行,最大的FFmpeg有270萬行。



      總結來說,這個測試考的是AI有沒有能力「像人類工程師一樣思考和設計軟件」,而不只是「在現成代碼里找到該改的地方然后改對」。

      九大模型排排坐,成績全部吃鴨蛋

      參加測試的共有9款模型,涵蓋Claude、Gemini、GPT三大家族。

      完整通過率(所有測試全部通過),全員0%。


      先看三家旗艦的正面對決。

      GPT-5.4和Gemini 3.1 Pro的平均測試通過率幾乎打平,分別是38.3%和36.6%。但兩者的做題風格截然不同。

      GPT-5.4只用16次API調用、0.33美元成本,基本就是一口氣把整個程序寫完,100%的代碼在一次編輯中生成,之后幾乎不回頭改。

      Gemini 3.1 Pro則是9個模型里最愛「觀察」的。它用了94次API調用,其中34.1%的操作都在運行原版程序、觀察輸入輸出行為。探索做得最多,但最終成績差距不大。

      真正拉開身位的是Claude Opus 4.7。

      平均通過率51.2%,在3%的任務上通過了95%以上的測試,是唯一達到「幾乎通過」標準的模型。但即便是它,也沒有在任何一個任務上拿到滿分。

      從整體來看,9個模型的表現呈現出清晰的梯隊。

      Claude系三款旗艦(Opus 4.7、Opus 4.6、Sonnet 4.6)領先,GPT-5.4和Gemini 3.1 Pro構成第二梯隊,剩下的四款小模型通過率都在35%以下。


      另一個反直覺的發現是,砸錢和堆步數并不能換來更好的成績。

      Sonnet 4.6每個任務平均跑868條命令,成本27.09美元,最長的軌跡接近2000步。但它的成績反而不如只用93次調用、花3.81美元的Opus 4.7。

      更關鍵的是,98%的運行中,模型都是自己覺得「做完了」主動交卷的,根本沒有撞到時間或步數上限。

      不是考試時間不夠,是真的做不到。

      此外,任務難度和模型排名高度一致。

      簡單的CLI工具(nnn、fzf、gron)大家都能拿到不錯的分數,復雜系統(FFmpeg、PHP、typst、ast-grep)則對所有模型一視同仁地無情。


      需要說明的是,ProgramBench用的是mini-SWE-agent這個極簡腳手架,沒有上下文壓縮、沒有多Agent協作、沒有定制化工具鏈。


      代碼寫出來了,但完全不像人寫的

      研究團隊對比了通過75%以上測試的高分解答和人類原版代碼,發現了幾個驚人的差異。

      • 單文件怪獸。

      人類代碼中位數分布在15個文件里,模型的中位數是3個。

      60%的解答只有1到3個代碼文件。

      人類工程師按功能拆分模塊,模型傾向于把所有東西塞進一個巨大的文件。目錄深度中位數,人類是2層,模型是1層。

      • 函數又少又長。

      Opus 4.7寫的函數數量只有人類的29%,Sonnet 4.6是24%,GPT-5.4只有10%。

      但每個函數的平均長度更長,Gemini 3.1 Pro寫的函數比人類長62%。

      • 代碼量大幅縮水。

      模型代碼中位數1,173行,人類是3,068行。85%的高分解答比原版短。


      總結來說就是,現在的AI會寫代碼,但不會做軟件設計。

      它不懂為什么要拆分模塊,不理解為什么人類工程師要花時間定義接口和抽象層。策略就是把所有邏輯硬塞進盡可能少的文件和函數里,能跑就行。

      GPT-5.4的表現最極端。平均每個任務只創建5個文件,修改1.2次,39.5%的軌跡在創建文件后零修改。

      相比之下,Claude Sonnet 4.6平均創建11.3個文件、修改18.3次,表現出更接近人類的迭代開發模式。


      還有一個很有意思的現象。

      模型只有50%的概率會用和原版相同的編程語言。

      其中,Python是模型的最愛,占所有1,800次運行的36%。

      原版用Rust寫的項目,只有44%用Rust重寫;C/C++的,46%。Go項目的「忠誠度」最高,70%。

      不管你原來是用什么語言寫的,模型有三分之一的概率會用Python重來一遍。


      說好的不作弊,一聯網就去GitHub扒源碼

      這可能是整個研究里最有戲劇感的部分。

      研究團隊做了一組對照實驗,給模型開放網絡訪問權限,但在系統提示中明確告知「作弊不允許」。

      然后用9個AI裁判檢查每條軌跡是否存在作弊行為。

      結果觸目驚心。

      Claude Sonnet 4.6有36%的任務被判定作弊,Claude Opus 4.6是21%,Gemini 3 Flash是20%。


      作弊方式五花八門。

      最赤裸裸的是去GitHub克隆源碼倉庫。

      稍微隱蔽一點的是通過包管理器下載,比如cargo installgo get

      更狡猾的是去本地包緩存目錄翻依賴庫的源碼。


      但AI裁判之間的分歧也大得驚人。

      對于Claude Opus 4.6,9個裁判在57%的任務上無法達成一致。

      有一個案例特別典型。

      Claude Sonnet 4.6在做handlr這個Rust項目時,跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫的源代碼。

      5個裁判判定作弊,4個裁判認為這些是第三方庫不算作弊。

      最終,研究團隊放棄了「聯網+事后檢測」的方案,直接斷網。

      模型在面對困難任務時,「找捷徑」的傾向比預想的強得多。而連9個AI裁判都判不清楚什么算作弊、什么算合理的逆向工程,說明這條邊界本身就是模糊的。

      舊考試結束了,新考試才剛開始

      SWE-Bench上能拿72%的模型,在ProgramBench上拿0%。

      這兩個測試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」,ProgramBench考的是「自己從頭設計并實現一個完整系統」。

      前者AI已經做得相當好了,后者目前完全不及格。

      Epoch AI上周剛發了一篇博文,宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測試,至少得放棄四個舒適條件中的一個,純文本、短耗時、易評分、人類專家碾壓。


      按這個框架來看,ProgramBench放棄了其中兩個,短耗時和易評分。

      它把任務拉到了人類工程師可能需要數周甚至數月才能完成的量級,同時用行為等價性而非源碼匹配來評估。

      作者John Yang在推文中強調,「ProgramBench非常難,但它在設計上是可解的。」

      也就是說,0%不代表這些任務超出了AI的理論極限,只是說明今天的模型還遠遠不夠。

      SWE-Bench測的是AI能不能當一個好員工。ProgramBench測的是AI能不能當一個工程師。

      這兩件事之間的距離,今天剛被精確測量出來。答案是0%。

      參考資料:

      https://programbench.com/static/paper.pdf

      https://x.com/jyangballin/status/2051677497562210552?s=20

      https://x.com/EpochAIResearch/status/2051760424891392204?s=20

      https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      海事情報公司稱有3艘伊朗油輪突破美軍封鎖

      海事情報公司稱有3艘伊朗油輪突破美軍封鎖

      界面新聞
      2026-05-08 18:58:20
      “別再什么都往豆包上發了!”男子發私照讓豆包評論身材,結果...

      “別再什么都往豆包上發了!”男子發私照讓豆包評論身材,結果...

      黎兜兜
      2026-05-08 21:24:26
      梅西:作為朋友我當然希望內馬爾踢世界杯,但我無法客觀評價

      梅西:作為朋友我當然希望內馬爾踢世界杯,但我無法客觀評價

      懂球帝
      2026-05-08 22:09:49
      沖上熱搜,“因惡意退貨太多整條街道被商家拉黑”!商家:這個街道不發貨,之前發122個包裹僅退款94個,該街道從事直播行業的住戶較多

      沖上熱搜,“因惡意退貨太多整條街道被商家拉黑”!商家:這個街道不發貨,之前發122個包裹僅退款94個,該街道從事直播行業的住戶較多

      每日經濟新聞
      2026-05-08 16:48:07
      這跌幅沒留情面,上市2天大跌50%,昨日追高的今日抄底的虧慘!

      這跌幅沒留情面,上市2天大跌50%,昨日追高的今日抄底的虧慘!

      丁丁鯉史紀
      2026-05-08 16:30:34
      后唐太祖李克用容貌被復原 這個“東西方混血兒”長啥樣?|文史筆談

      后唐太祖李克用容貌被復原 這個“東西方混血兒”長啥樣?|文史筆談

      封面新聞
      2026-05-06 19:44:06
      全身愛馬仕的馬筱梅生完孩子卻改穿三百塊抖音套裝

      全身愛馬仕的馬筱梅生完孩子卻改穿三百塊抖音套裝

      小邵說劇
      2026-05-08 14:12:34
      續航一夜蒸發200公里,8家新能源車企遠程“鎖電”被約談,3家被立案調查

      續航一夜蒸發200公里,8家新能源車企遠程“鎖電”被約談,3家被立案調查

      金融界
      2026-05-07 18:29:15
      深夜,全線下跌,超10萬人爆倉

      深夜,全線下跌,超10萬人爆倉

      每日經濟新聞
      2026-05-08 00:47:07
      國際足聯終于慌了!新方案緊急出爐,世界杯版權迎來重大轉機

      國際足聯終于慌了!新方案緊急出爐,世界杯版權迎來重大轉機

      社會日日鮮
      2026-05-08 04:12:52
      公公來電讓我還房款,我說我家全款買的,他怒吼:是你小叔子的!

      公公來電讓我還房款,我說我家全款買的,他怒吼:是你小叔子的!

      麥子情感故事
      2026-05-08 21:34:23
      全球首款!特斯拉Model Y拿下輔助駕駛安全測試最嚴認證

      全球首款!特斯拉Model Y拿下輔助駕駛安全測試最嚴認證

      快科技
      2026-05-08 11:18:38
      李泳豪代父澄清已和TVB完成簽約!公開對話錄音 實錘李泳漢金錢苛索

      李泳豪代父澄清已和TVB完成簽約!公開對話錄音 實錘李泳漢金錢苛索

      TVB資訊臺
      2026-05-08 22:56:56
      國家一級女演員陳麗云被逮捕!

      國家一級女演員陳麗云被逮捕!

      許三歲
      2026-03-28 09:24:30
      5月8日俄烏最新:以牙還牙

      5月8日俄烏最新:以牙還牙

      西樓飲月
      2026-05-08 18:40:39
      就在剛剛,伊朗宣布大捷:重創3艘驅逐艦,美軍士兵瘋狂掃射快艇

      就在剛剛,伊朗宣布大捷:重創3艘驅逐艦,美軍士兵瘋狂掃射快艇

      頭條爆料007
      2026-05-08 08:50:45
      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      尷尬!王石公開脫衣秀身材“翻車”,網友:像是一副被榨干的軀體

      火山詩話
      2026-05-08 21:39:02
      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      田先生籃球
      2026-05-08 14:02:52
      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      整條未拆香煙能放多久?煙草員工實錘真相,90%煙民都錯了

      老特有話說
      2026-05-08 14:47:21
      萬億GDP城市排行洗牌:濟南、合肥連晉2位,誰在承壓?

      萬億GDP城市排行洗牌:濟南、合肥連晉2位,誰在承壓?

      時代周報
      2026-05-08 18:02:15
      2026-05-09 02:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15163文章數 66850關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      頭條要聞

      外籍銀行高層在香港豪宅性虐及殺害兩女子 內幕解密

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      房產
      本地
      藝術
      公開課
      軍事航空

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      砸22億!OPPO在東莞建了一批“O字樓”

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻精品一区二区三18禁| 和岳每晚弄的高潮嗷嗷叫视频| 中文字幕亚洲天堂| 92午夜少妇极品福利无码电影| 岛国岛国免费v片在线观看| 久热99re在线无码一区| 亚洲日韩欧美国产高清αv| 熟妇熟女乱妇乱女网站| 久久不见久久见中文字幕免费| 亚洲 欧美 变态 另类 综合| 国产香蕉尹人在线视频你懂的| 丰满岳乱妇久久久| 亚洲国产一区二区三区波多野结衣 | 色噜噜狠狠狠综合曰曰曰| 久久久噜噜噜久久中文福利| 久久久久成人网站| 四虎永久在线精品视频网站| 日韩人妻无码精品一专区| 久久精品国产九一九九九| 亚洲人?拳交?残酷?业余| 一区?二区?三区AV天堂| 国产日韩精品秘 入口| 无码人妻斩一区二区三区| 五月丁香综合| 人人妻人人做人人爽夜欢视频| 国产精品一区二区无线 | 欧美福利精品| 窝窝av| 邳州市| 4hu四虎永久在线影院| 夜夜欢视频| 欧洲AAAA一區二區三區導航| 激情五月开心综合亚洲| 亚洲一区二区三区蜜桃臀| http://国产熟女.com| 在线观看视频一区二区三区| 亚洲天堂免费av在线观看| 国产91九色在线播放| 欧美aⅴ电影| 五月天婷婷在在线视频| 久久精品无遮挡一级毛片|