<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude、GPT、Gemini 全滅,SWE-Bench作者新作把AI圈干沉默了

      0
      分享至

      編輯|Sia

      SWE-Bench 的創建者,剛剛又放出了一個地獄級新 benchmark。

      結果相當震撼:

      Claude Opus 4.7、GPT-5.4、GPT-5 mini、Gemini 3.1 Pro、Gemini 3 Flash——這一代幾乎所有最強的一線模型,全部 0% 完成率。





      沒有一個模型,能夠真正完整重建一個軟件項目。

      這意味著什么?

      今天的大模型,已經很會寫代碼了,但依然不會做軟件工程。

      最近,Meta FAIR 聯合斯坦福、哈佛等機構發布了一項很有意思的新 benchmark,本質上是在重新定義 AI Coding 的評估方式:

      ProgramBench: Can Language Models Rebuild Programs From Scratch?



      過去的大模型編程 benchmark,大多測的是局部能力:補全函數、修復 bug、實現 feature……本質上,仍然是在已有代碼結構里做局部修改。

      而 ProgramBench 第一次把問題推進到了真正的軟件工程層面:如果只給 AI 一個程序的功能描述和 usage docs,它能不能像真正的工程師一樣,從零開始,重新構建一個真實、可執行的軟件系統?比如 ffmpeg、SQLite、ripgrep。

      而且——不能聯網。

      換句話說:模型到底有沒有工程智能?

      為了測試這一點,研究團隊直接刪除了原始源碼和測試,只保留 executable 和 usage docs,模型需要自己決定語言、架構、模塊拆分、數據結構乃至整個 repo 的組織方式。

      更關鍵的是,ProgramBench 不再按照源碼相似度打分。它采用的是 behavioral equivalence,行為等價。也就是說,你可以用完全不同的語言、算法、架構,甚至完全不同的工程實現。只要最終輸入輸出行為與原程序一致,就算通過。

      研究團隊甚至使用了 agent-driven fuzzing,自動生成大量端到端行為測試。

      這是第一次,一個 benchmark 真正開始逼近現實世界的軟件工程,而不再只是代碼做題。結果出來之后,整個 AI 圈都沉默了。

      所有模型:0% 完成率。



      Table 2 負責制造震撼,那么 Figure 4 負責解釋震撼背后的細節。它告訴我們,模型并不是完全不會做,而是經常能做出一部分,甚至在少數任務上接近完成;但只要要求 100% 行為等價,所有模型都會倒下。但這最后一公里,正是軟件工程和普通代碼生成最大的區別。另外,如果矮子里面拔將軍,Claude 系列(尤其是 Opus 4.7 和 4.6)表現相對最好。

      即便論文專門增加了一個Almost指標——統計那些完成度超過 95% 的任務。目前表現最強的 Claude Opus 4.7,也只有 3% 的任務接近完成。

      論文里,有一句特別關鍵的話:

      Models favor monolithic, single-file implementations that diverge sharply from human-written code.

      翻譯過來就是:模型極度傾向于生成單體化代碼。大量邏輯被塞進單文件;目錄結構極淺;模塊拆分極少;函數超長;整個 repo 看起來像一坨巨型腳本。

      這和優秀人類工程師的習慣,幾乎完全相反。

      后者往往講究模塊和關注點分離,會把代碼拆得很優雅——配置放config.json,工具函數放utils.py,數據庫操作放db.py,然后通過import相互調用。

      這其實暴露出了一個非常核心的問題:AI 擅長的是局部代碼生成,但不擅長全局系統規劃。而真實的軟件工程,本質上恰恰是后者。

      這也是為什么模型在 LeetCode、SWE-Bench、Copilot 場景里已經非常強,一旦進入真實世界的大型工程系統,就會迅速掉進深水區。

      當前 AI Coding 的真正瓶頸已經不再是代碼生成能力,而是長期的軟件系統構建能力。

      另一個很有意思的結果,是不同語言之間的表現差異。

      研究團隊分別統計了模型在 C/C++、Go、Rust 等不同語言項目上的表現。可以明顯看到,傳統 C/C++ 項目完成度最高,而 Rust 表現最差。



      不同模型在任務難度上的排序高度一致:nnn、fzf、gron 這類相對簡單的 CLI 工具,模型普遍能拿到更高通過率;但 FFmpeg、php-src、typst、ast-grep 這類復雜系統,幾乎所有模型都很難推進。這說明 ProgramBench 測到的不是某個模型偶然失手,而是復雜軟件系統本身對當前模型形成了穩定壓制。

      這其實并不讓人意外。

      互聯網里關于 C/C++ 的歷史代碼、工程實踐和 Stack Overflow 內容實在太多了,模型已經被這些模式浸泡了很多年。

      而 Rust 的工程哲學本身就更強調模塊化、ownership、trait system 和長期可維護性,這些恰恰是當前模型最不擅長的東西。

      某種意義上,Rust 測出來的,其實不是代碼能力,而是工程能力。



      隨著 ProgramBench 引發熱議,圍繞這項 benchmark 的爭論也開始迅速擴散。其中最主要的質疑之一是:這不就是在考模型有沒有背過 FFmpeg 嗎?畢竟,ProgramBench 里的很多項目本身就是公開開源軟件。

      對此,知名硅谷投資人 Deedy Das 專門發文回應:任何 benchmark 都可能被 overfit。



      SWE-Bench 可以被記住 bug,LeetCode 可以被背題,甚至 ARC-AGI 未來也可能通過隱藏題庫來避免泄漏。單純討論是否存在記憶本身,其實并不能否定 benchmark 的價值。

      他認為:如果模型真的試圖用 brute force 的方式去硬背這些程序,它往往會在別的地方明顯退化。

      因為真正的大模型訓練,并不是簡單把整個 FFmpeg 塞進參數里。更何況,研究人員還可以通過比對生成代碼與原始源碼的相似度,去檢測是否存在直接 memorization。

      他真正想強調的,從底層重建一個真實世界的軟件系統,本身就是一種高 utility、長時間跨度的復雜任務。如果模型真的能夠推理并完成這類任務,那么這種能力很可能會泛化到大量其他工程場景中

      另一類爭議則更有意思。有人吐槽說:連人類都不可能從零重寫 FFmpeg,這 benchmark 根本不合理。

      Deedy Das 回應,那又怎樣?今天很多 LLM 能做到的事情,人類平均水平也做不到。



      benchmark 的目標,從來不是模擬普通人的平均能力,而是推動模型向更高層次的智能逼近。人類做不到,并不意味著 benchmark 沒價值。

      比如,AlphaGo 下棋超過絕大多數人,并不影響它推動了 AI;同樣,一個遠高于普通工程師能力邊界的 benchmark,也可能是未來 Agent 系統必須攻克的問題。

      當然,他也承認,ProgramBench 仍然存在不少缺陷。比如,目前它沒有測試 Claude Code、Codex 這類完整的 agent harness;只統計是否完成,沒有更細粒度地衡量進展。

      同時還限制了聯網能力,以避免一些明顯作弊行為。



      Deedy Das 同意,這可能導致模型為了在特定指標上得分而走偏(Hill-climbing on the wrong thing)。不過,人們也隨時可以增加一項在有網絡訪問權限下的性能測試作為對比。



      還有人建議:為什么不用真正沒人解決過的新問題?對此,Deedy Das 表示,因為那會讓 benchmark 幾乎無法構建。

      你很難為一個沒有標準答案的問題設計完備測試;也很難判斷任務是否真的屬于現實世界工程任務,還是研究者憑空捏造出來的 challenge。



      但這些問題,其實都可以隨著 benchmark 演進繼續修正。

      真正重要的是:ProgramBench 第一次把 AI Coding 的評估,從函數級拉到了系統級。它暴露出的,也是整個行業當前最大的斷層:真正的軟件開發,從來都不是寫一個函數,而是如何做出一個能被維護、被擴展、被團隊協作的工程系統。

      今天的大模型,已經非常擅長生成局部代碼。但依然缺乏長期、一致、穩定地維護復雜系統的能力。

      所以你會發現,最近整個行業都開始瘋狂研究另一批關鍵詞:memory、agents、repo-level reasoning、long-horizon planning、autonomous software engineering。

      因為下一階段的競爭,可能已經不再是誰能一次性生成更長的代碼,而是誰能在長時間、多輪交互、復雜上下文中,持續穩定地維護一個活著的軟件系統。

      論文鏈接:

      https://programbench.com/static/paper.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火爆!亞歷山大險夾傷里夫斯被吹一級惡犯 舊將卡魯索抱怨吃T

      火爆!亞歷山大險夾傷里夫斯被吹一級惡犯 舊將卡魯索抱怨吃T

      醉臥浮生
      2026-05-08 11:17:44
      大S女兒直播出圈!笑起來酒窩超像媽媽,單眼皮完美復刻汪小菲

      大S女兒直播出圈!笑起來酒窩超像媽媽,單眼皮完美復刻汪小菲

      觀魚聽雨
      2026-05-07 23:24:19
      股神段永平真相:涉嫌嚴重違法!

      股神段永平真相:涉嫌嚴重違法!

      城市局
      2026-05-08 08:27:15
      突發!美軍發動“定點打擊”,伊朗多地被炸,伊方:攻擊3艘美國軍艦,造成“重大損失”!特朗普:這只是輕輕敲打,停火還在持續

      突發!美軍發動“定點打擊”,伊朗多地被炸,伊方:攻擊3艘美國軍艦,造成“重大損失”!特朗普:這只是輕輕敲打,停火還在持續

      每日經濟新聞
      2026-05-08 07:34:08
      連10%都不給!印尼總統下達逐客令!

      連10%都不給!印尼總統下達逐客令!

      寰球經緯所
      2026-05-07 15:11:54
      總部人均獎金610萬 中國廠卻一毛不拔!三星、SK海力士國內員工集體要求漲薪

      總部人均獎金610萬 中國廠卻一毛不拔!三星、SK海力士國內員工集體要求漲薪

      快科技
      2026-05-07 20:13:05
      歷史第一!詹姆斯迎季后賽300場里程碑 前十榜唯一現役球員

      歷史第一!詹姆斯迎季后賽300場里程碑 前十榜唯一現役球員

      醉臥浮生
      2026-05-08 09:18:21
      泰康人壽“全國一姐”被抓,用“龐氏騙局”啃噬30名客戶近4億

      泰康人壽“全國一姐”被抓,用“龐氏騙局”啃噬30名客戶近4億

      聽心堂
      2026-05-07 17:35:22
      缺德到這種地步,已經不是諷刺的問題了!

      缺德到這種地步,已經不是諷刺的問題了!

      胖胖說他不胖
      2026-05-08 08:55:19
      190元榴蓮遭僅退款,商家驅車1600公里找買家:翻遍垃圾桶找證據,派出所立案

      190元榴蓮遭僅退款,商家驅車1600公里找買家:翻遍垃圾桶找證據,派出所立案

      瀟湘晨報
      2026-05-07 23:12:22
      網傳山西大同訂婚強奸案男主出獄后發文:一天刑期未減,因我始終沒有認罪

      網傳山西大同訂婚強奸案男主出獄后發文:一天刑期未減,因我始終沒有認罪

      互聯網大觀
      2026-05-07 18:16:26
      深圳女環衛工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

      深圳女環衛工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

      做一個合格的吃瓜群眾
      2026-05-08 07:03:36
      毀三觀!老大爺數次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      毀三觀!老大爺數次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      魔都囡
      2026-05-08 09:57:03
      MVP犧牲霍姆格倫22+9+3+4+2,詹皇一戰3紀錄難救主,雷霆2-0湖人

      MVP犧牲霍姆格倫22+9+3+4+2,詹皇一戰3紀錄難救主,雷霆2-0湖人

      釘釘陌上花開
      2026-05-08 12:23:56
      36歲名校海歸博士求職無門:不上班最難受的不是沒錢,是精神失重

      36歲名校海歸博士求職無門:不上班最難受的不是沒錢,是精神失重

      三言四拍
      2026-05-08 09:01:06
      瀏陽煙花廠爆炸涉事企業多次被查出隱患、違規行為反復出現

      瀏陽煙花廠爆炸涉事企業多次被查出隱患、違規行為反復出現

      極目新聞
      2026-05-08 09:12:51
      深圳一居民區現長約一米八的眼鏡蛇,當時正在后廚偷吃雞蛋!店主:“蛇是樓上掉下來的”

      深圳一居民區現長約一米八的眼鏡蛇,當時正在后廚偷吃雞蛋!店主:“蛇是樓上掉下來的”

      廣東吃喝玩樂
      2026-05-08 12:04:37
      外甥被趕出臺企,頑固“臺獨”分子破防了

      外甥被趕出臺企,頑固“臺獨”分子破防了

      樞密院十號
      2026-05-07 19:41:09
      美媒稱美軍襲擊伊朗南部多地

      美媒稱美軍襲擊伊朗南部多地

      財聯社
      2026-05-08 04:58:07
      明星套現離場,留下85億窟窿,華誼兄弟被誰“抽”干了?

      明星套現離場,留下85億窟窿,華誼兄弟被誰“抽”干了?

      帥真商業
      2026-05-06 21:23:01
      2026-05-08 12:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142645關注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業火箭離SpaceX有多遠?

      頭條要聞

      女子網購發現所在街道被"拉黑" 商家:"白嫖"的人太多

      頭條要聞

      女子網購發現所在街道被"拉黑" 商家:"白嫖"的人太多

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      黃子佼獲緩刑4年,無需入獄服刑

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      教育
      藝術
      游戲
      數碼
      公開課

      教育要聞

      北京市2026年高招工作規定出爐!

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      《暗黑4》玩家呼吁終局優化:戰爭計劃進度應共享

      數碼要聞

      滿血塞進RTX 5080與銳龍9 9950X3D!七彩虹iGame LAB Vulcan Armor火神戰甲定制主機評測:地表最強ITX主機

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 美腿丝袜一区二区三区| 欧美不在线| 国产一区二区丝袜在线播放国产日韩欧美色综合 | 亚洲护士一区二区三区| 亚洲中文字幕精品久久久久久动漫| 久久久久久九九99精品| 伊人亚洲综合影院首页| 国产免费午夜福利在线观看| 中文字幕午夜福利片午夜福利片97| 狠狠色狠狠色很很综合很久久| 99国产欧美另类久久久精品| 天堂a?中文在线| 国产偷自视频区视频| 在线精品亚洲一区二区绿巨人| 中文字幕无码不卡免费视频| 性一爱一奴一乱一伦| 胸大美女又黄的网站| 精品亚洲综合一区二区三区| 2021久久超碰国产精品最新| 国产天美传媒性色av| 伊人久久丁香色婷婷啪啪| 中国精品偷拍区偷拍无码| 一区二区三区无码免费看| 精品一区二区三区四区五区六区| 亚洲激情小说| 亚洲日韩av无码中文字幕美国| 精品国产一区av天美传媒| 欧美亚韩国产| 牛牛视频一区二区三区| 1024国产欧美日韩精品| 淮阳县| 亚洲aaaaaa| 亚洲国产美女黄色精品| 337p日本欧洲亚洲大胆人人| 人妻系列无码专区免费| 免费国产自产一区二区三区四区| 国产一卡2卡三卡4卡免费网站| 91在线资源| 高清无h码动漫在线观看尤物| 亚洲精品亚洲人成在线观看麻豆 | 内射视频福利在线观看|