周三下午,兩個工程師的閑聊:"你用AI嗎?""用啊,Claude Code和Cursor。"對話到此結束。雙方都能坦然說出"工具裝好了",但再追問一句"具體改變了什么",答案就稀薄起來。
這是當下最普遍的AI使用現狀——個人層面天天在用,團隊和公司層面卻看不到變化。與此同時,頭部公司的數字完全是另一個量級:谷歌75%新代碼由AI生成,Stripe內部編程代理每周合并1300多個PR,Mercari 95%員工主動使用AI工具,工程師人均產出同比提升64%。
![]()
差距在哪?這些領先公司到底在做什么?我梳理了美國和日本主要IT公司的公開信息——官方博客、CEO聲明、內部備忘錄、研究工坊材料——試圖拼出一張完整的地圖。
一個前提:Claude已主導編程工具
截至2026年5月,Anthropic的Claude在編程工具領域遙遙領先。2026年2月的Pragmatic Engineer調查數據顯示:Claude Sonnet 4.6在SWE-bench Verified測試中得分82.1%,Gemini 3為63.8%,差距達18個百分點。Meta的DevMate基于Claude運行,甚至有報道稱部分谷歌工程師內部也在使用Claude Code。
OpenAI的Codex在2026年3月達到300萬周活躍用戶,用戶基數最大。但同一調查顯示,在開發者"真正喜歡使用"的排名中,Codex落后于Claude Code、Cursor和Copilot。2026年的格局是:ChatGPT和Gemini在通用對話領域大致持平,但在編程代理這個細分賽道,Claude明顯領先。
編程AI已迭代到第四代
第三代(Gen 3):給代理一個Issue或工單,它自主規劃、實現、運行測試、提交PR,自己執行npm install和pytest。本文提到的"內部代理"大多屬于這一代。
第四代(Gen 4)在此基礎上更進一步:一名工程師并行運行多個代理,只在關鍵決策點介入審批。Anthropic內部已按此模式運作,這也是本文所有公司正在推進的方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.