![]()
1.
OpenAI 的兩大宿敵 Anthropic 和馬斯克,放下心中成見之后終于在月初結盟了。
在此之前,Anthropic 和馬斯克的關系并不融洽:今年 2 月,馬斯克還在自己的 X 賬號指責 A 社「woke」「邪惡」「反人類」(misanthropic),說這家公司「仇視文明」。
![]()
事后來看,這次攻擊并非馬斯克清新脫俗的性格使然,而是 Anthropic 所做的某些事情觸碰到他的神經,事出有因。
在此之前,xAI 內部使用 Cursor 工作,但是今年年初員工發現,Claude 模型突然在 xAI 的 Cursor 公司賬號里不能使用了。
當時還在 xAI 上班的聯合創始人吳宇懷,在全員信里是這么說的:「Anthropic 更新了政策,要求 Cursor 不得向其主要競爭對手提供 Claude 模型調用能力。」
當時,吳宇懷在信中寫了一句話,頗為有趣:
「這是壞消息也是好消息。我們的生產力會被影響,但這也敦促我們開發自己的編碼產品和模型。」
為什么當時 xAI 的高層認為,開發自己的編碼產品是關鍵?
![]()
后來發生的事情,大家都知道了。xAI 的聯創團隊悉數跑路,馬斯克一氣之下對 Cursor 使用了鈔能力必殺:
上個月底,SpaceX 和 Cursor 共同宣布,將在編程和知識類工作 AI 模型的訓練上,展開前所未有的戰略合作;并且,SpaceX 還獲得了以 600 億美元收購 Cursor 的權利,或向后者支付 100 億美元合作費用。
注意編程這個關鍵定語,后面還會 call back.
2.
最近,我看了一條 Cursor 早期投資人、Anthropic 大噴子、T3 創始人 Theo Browne 的視頻。
本來點進去是看他噴 A 社和 SpaceX 怎么蠅營狗茍,結果沒想到,卻看到了關于 SpaceX + Cursor 合作的,一個既另類卻又極度合理的分析:
不說 600 億的收購,就只說 100 億的合作費——Theo 在視頻里表示,自己認為「哪怕只是交換到 Cursor 的用戶數據,這 100 億也值回票價了。」
![]()
所以是什么數據?如果你也去看 Theo 這條視頻,他會講得非常清楚。但為了節約時間,我們在這里簡單概括一下:
我們和 AI 的對話是一來一回的,你提出問題/需求,他給你解答;coding agent 同理,只不過返回的是代碼。
![]()
一次高質量的對話,整個過程,包括用戶提示、模型思考、agent 規劃、輸出代碼、驗證——所有這些東西合起來,可以稱為一個完整的 Agentic Loop——就成為了高價值的訓練數據,再喂給模型去進行強化學習,就能進一步提高模型在實戰場景下的表現水準。
![]()
Cursor 有的,SpaceX 想要的,就是這些數據。
可這些數據從哪里來呢?
答案很簡單:作為模型廠商,這種高質量數據的最直接來源,只能是你自己開發的 coding agent 產品——也即 Anthropic 的 Claude Code、OpenAI 的 Codex、Kimi 的 Kimi Code。
現在你應該明白了,為什么被 Anthropic「封號」之后,吳宇懷會在全員信里提出開發 xAI 自己的 coding 產品和模型這件事了。這件事 xAI 在當時已經看清楚了:
沒有自己的編碼產品,就沒有高質量的強化學習數據;沒有高質量的數據,就訓練不出真正實戰能力強的 coding 模型。
雖然有點暴論,但現在我們可以點題了:模型廠商想做出來真正能打的編程模型,做自己的 coding agent 產品是唯一的路徑。
3.
大語言模型像個水晶球,用全網的語料訓練出來,似乎能夠解答萬物,但并不代表它在所有問題上都能給出高質量的答案。
用 GitHub 上數以億計的代碼條目訓練,當然也能訓練出 coding 模型。這是「學習結果」的邏輯,也是沒問題的。畢竟編碼任務的結果是可以驗證的:代碼能不能運行,測試能否通過,結果擺在那里。
但是,通往結果的過程,是一個涉及多步驟決策、錯誤糾正、意圖對齊的復雜鏈條。每一次用戶的接受、拒絕、補全、撤銷、追問、甚至當模型好幾次都搞不定或者完全搞錯時的辱罵——都是這一鏈條上的過程信號。
![]()
強化學習有兩種監督方式,一種叫做結果監督,只看最后是否跑通。但是結果監督會催生「獎勵黑客」的現象:模型為了能跑通可能寫出冗余、脆弱、帶邏輯漏洞的代碼,但因為測試過了,模型以為自己學對了。
而另一種叫做過程監督,對推理路徑上的每一步進行打分。上述這些過程信號,只有在 coding agent 運行環境里才能誕生。GitHub 倉庫里只有結果,哪怕是去看單獨的提交歷史,看 PR,都找不到有效的過程信號。
在缺乏有效、自主可獲得的過程信號的時候,一些模型廠商會采用「蒸餾」的方式,這個事情大家應該已經知道了。
蒸餾的邏輯很簡單,給同樣的輸入,老師模型輸出什么,學生模型就學著輸出什么。但是通過蒸餾,即便可以獲取到思維鏈,得到的仍然更接近于結果,而非被蒸餾的老師模型內部的概率分布。
一旦學生在推理中偏離了老師的軌跡,哪怕一個 token 不符合,都有可能發生偏離。
![]()
這背后是強化學習的基礎限制:策略梯度定理要求,優化樣本最好由當前正在優化的模型自己去產生。這種數據叫做 on-policy 數據。而通過蒸餾別家模型,在別人的產品里產生的數據,來訓練自己模型,都屬于 off-policy 數據。模型當然可以從中學到東西,但學不到老師模型內部的概率分布信息。
而像 Cursor 這樣自己就是 coding agent 產品的公司,掌握著最真實、有效、高質量的訓練數據。Cursor 產品本身,就是 coding 模型在實戰環境中的最佳訓練場。
我們可以通過 Cursor 年初的「翻車」,來證明這個邏輯。
4. APPSO 讀者應該記得,年初 Cursor 發布了 Composer 2,號稱「下一代專用編程模型」,技術報道寫的相對保守,也沒有提供具體的模型底座信息。 ![]()
結果很快,網友就在公開代碼片段里發現了 Kimi 的模型 ID,截圖傳遍了開發者社群,逼得 Cursor 副總裁 Lee Robinson 出面澄清:「Composer 2 確實是從開源底座出發的。最終模型大約只有 1/4 的算力來自底座,剩下 3/4 是我們自己訓出來的。」
幾小時后,Cursor 聯創 Aman Sanger 也跟著發了一條道歉:「一開始沒提 Kimi 底座是個失誤。」
![]()
五天后,Cursor 放出了完整的 Composer 2 技術報告,顯示底座的確是 Kimi K2.5,授權方則是 Firworks AI,大致流程是在 K2.5 上做訓練,再繼續做大規模強化學習(RL)。
但關鍵之處在于,Composer 2 的 RL 是運行在真實的 Cursor 會話當中,使用與生產部署完全相同的工具和 harness。
Cursor 將這套流程叫做「實時強化學習」(real-time RL),也即將模型的 checkpoint 直接部署到 Cursor 生產環境中,觀察用戶的響應,收集數據,聚合成獎勵信號——最快可以每 5 個小時迭代一次模型版本,然后繼續部署到 Cursor 里,循環往復。
最極致的案例是 Cursor 的自動化代碼補全功能 Tab,每天處理超過 4 億次請求,每當用戶輸入字符、移動光標時,模型都會預測下一步動作,如果預測置信度高,則顯示建議,用戶按下 tab 即接受自動補全。
該功能采用的是在線強化學習,在行業內極具特色。Cursor 可以以極高的頻率(最快可達每一個半小時到兩小時)更新 Tab 的模型能力給用戶,直接在產品內收集 on-policy 數據進行訓練。
這種高頻、接近實時的反饋回路,讓 Tab 可以學習到極其微妙的用戶意圖。Cursor 方面透露,這種方法讓 Tab 建議的拒絕率降低 21%,接受率提高了 28%。
回到 Composer 模型本身。在事情搞清楚了之后,一些 Kimi 員工也刪掉了之前吐槽的的推文,Kimi 官方賬號發表了祝賀。
一家估值 600 億美元(基于馬斯克給的數字),不做自己的模型基座的 coding agent 應用層公司,仍然可以通過產品自身的數據飛輪,RL 出超越基座模型的專有編程模型。
所以與其說 Cursor 翻了車,不如說這反而是 coding agent 產品重要性的絕佳例證。
![]()
Cursor 在另一篇關于實時 RL 的文章里寫到:「(訓練編程模型)最大的困難在于建模用戶。Composer 的生產環境里不只有執行命令的計算機,還有監督和指導它的人。模擬計算機容易,模擬使用它的人卻很難。」
這句話,現正在逐漸成為了在編程模型方面走在前沿的模型廠商之間的共識。如果你去看 benchmark 榜單和用戶普遍評價,會發現哪些頭部的廠商都在發力做自己的 coding agent/編程產品。區別只在于誰離用戶更近。
我們以 SWE-bench、LLM-Stats 等相對權威的榜單為例,Claude、GPT、Gemini、Kimi 等模型基本霸榜前十,清一色都是有自己開發 coding agent 產品(包括 CLI、IDE、集成 coding agent 的桌面客戶端)的模型廠商。
在部分榜單上會出現少數反例,如 Meta (Muse Spark)、DeepSeek 等,沒有開發自己的 coding agent。
不過你會發現,這些反例模型,在更加接近真實場景、避免污染的更權威 benchmark 上就很難上榜了。以 DeepSeek 為例,它在 SWE-bench bash only 上分數是 70%,排名第九,在 SWE-bench Pro 上分數卻掉到了 15% 左右。
OpenRouter 的真實流量數據可以解釋這種反差:該平臺 2025 年報告顯示,Claude token 消費 80% 以上用于編程和技術任務,而 DeepSeek token 消費主要集中于閑聊和角色扮演。
沒有自家 coding 產品的廠商,在一些 coding 任務 benchmark 上能擠進頭部,但在更難的真實工程 benchmark 上,在用戶用 token 消費投票的真實流量中,都會原形畢露。
不僅是 Cursor,Anthropic 在 2025 年 11 月發的一篇論文里,也明確透露自己在做一模一樣的事情:「我們在 Anthropic 自家的真實生產編程環境上做訓練。」也即 Anthropic 把自己員工使用 Claude Code 的交互數據,反哺給 Claude 模型用來訓練。
![]()
5.
在 AI 的演進歷程中,生產要素的定義發生了深刻的位移。傳統三大核心要素——算力、研究、訓練數據,雖然在總量上持續增長,但在結構上已經出現了嚴重的失衡。
今天的各大 AI 巨頭顯著提高了在算力上的資本支出 (CapEx),讓算力基建成為了當前輿論的主旋律。但實際上,特別是在編程范疇內,隨著 GitHub 倉庫、StackOverflow 等互聯網公開代碼數據被基模廠商「竭澤而漁」式地利用,模型在代碼生成與邏輯推理上的邊界開始逐漸顯現。
這也是為什么,行業共識正在逐漸轉向一個冉冉升起的新戰略高地:
對于任何希望掌握頂級代碼能力的模型廠商而言,建立自有的 coding agent 產品早已不再是可選的商業路線,而是確保底層模型可以持續進化的核心生命線。
正如前面 APPSO 論證的那樣,單純學習公開數據等于只學習成功者的結局,卻無法了解成功的路徑,這絕對不是正確的成功學應該有的樣子。在真實的編程環境中,知道發生了什么錯誤、怎樣發生的、如何正確地理解和高效地實踐需求等等——了解正確過程的價值,遠超于得到正確結果本身。
![]()
只有擁有自己的編碼產品,模型廠商才能獲取高質量的「過程監督」信號,從而在編碼/推理能力的下一階段競爭中,確保自己仍有技術護城河——
否則就不得不像 SpaceXAI 那樣,花錢去跟 coding agent 產品公司去合作。
然而并不是所有模型廠商都跟馬斯克一樣有錢,以及 2026 年開始的巨頭勢力劃分、結盟與領地的爭斗會變得更加激烈,當一家缺乏自主 coding 產品的模型廠商終于回過味來的時候,恐怕已經沒有足夠的合作伙伴可以挑選,合作的價格也將水漲船高。
美國模型巨頭的情況大家普遍比較熟悉了,在此不贅述。APPSO 也注意到,國內的主流模型廠商和 AI 巨頭當中,絕大部分都已經在 coding agent 產品上有所布局。
國內巨頭公司主要以原生 AI IDE 或 IDE 插件的思路在做:字節跳動去年很早就布局了 TRAE、阿里巴巴的 Qoder、騰訊的 CodeBuddy、百度的文心快碼 Comate 等。
AI 小龍公司中,月之暗面是最早開發獨立 coding agent 產品的公司,主要以 CLI 界面的 Kimi Code 為主——不過 Kimi 此前有透露過,在原生編程產品這件事上,CLI 不會是終局。
![]()
另一種實現思路是模型廠商自行提供 API 服務、Coding Plan。這樣,不論用戶使用何種 AI 開發環境,模型廠商都可以通過服務器端的 API 記錄來獲取最大程度接近于原生 coding 產品的過程數據。
但這也只是接近,并非完全相同。核心在于,服務器端 API 的請求-響應日志,與深度繼承的產品交互軌跡相比仍有很大差距。
自建產品的廠商(例如 Cursor、Claude 桌面端、Codex)擁有最直接的顯式反饋信號,而 API 側是相對模糊的隱式推斷。簡單來說,API 側能看到用戶請求和響應,但用戶最后是否采納了這段代碼、代碼能否跑通、引發了什么樣的 bug,API 側對此是一無所知的。他們無法了解到用戶最終行為這一關鍵的標簽,從而無法實現最高質量的強化學習。
形而上來講,語言即世界,代碼即方案。代碼可以表達這個世界上絕大多數的任務,代碼也會成為頭部的放大器,讓最頂尖的人才放大數倍的生產力。
只有最頂尖的 coding 模型才配得上最頂尖的人才。如果領先的模型廠商不重視 coding,勢必將會掉出第一梯隊。
當然,事實上每家模型廠商都不會不重視 coding——而是說,在新的范式下,哪些沒有自主可控的原生 coding agent 產品,極有可能逐漸落后于有產品的廠商。
就在前幾天,MiniMax 也發布了桌面客戶端產品的重大更新:帶有全新多 agent 編排架構的 Mavis 功能,并且也讓客戶端顯著改善了對 coding 任務的支持。
此前 MiniMax 只是推出了桌面端,但沒有加入原生 coding 和 agent 功能。
![]()
![]()
緊接著,在 5 月 15 日,阿里巴巴正式發布了 Qoder 1.0——這個產品從 IDE 的形態正式升級為一個完整的 Agent 產品(阿里的官方叫法是智能體自主開發工作臺)。
![]()
與此同時,xAI 的 Grok Build CLI,也終于正式推出了。
沒錯,就是 xAI 年初被 Anthropic 和 Cursor 封號之后,他們自己搗鼓出來的那個 coding agent.
![]()
這不,又多了好幾個現成的案例。
看來,大家都認為 Cursor、Codex 和 Claude 桌面端走在正確的道路上。
6.
把話題從 coding 擴展到 agent 本身,情況也是一樣的。
編碼任務的軌跡數據,在公開語料中確實還是能找到一些的(比如 GitHub 的提交記錄/PR,盡管質量并不高)。但是 agent 任務的軌跡數據,包括并不限于移動和點擊鼠標、操控觸屏、填寫輸入框等,卻無法在公開語料中找到。
所以我們會看到,即使在 agent 操作的最小實現路徑——瀏覽器插件上,這么個看起來一點都不高端的東西,幾乎每家模型廠商都會做自己的。
OpenAI 早在 2025 年 1 月就做了 Operator——與其說它是一個「AI 自動操作瀏覽器」的產品,不如說本質上就是一個大規模的數據收集裝置。每一位試用 Operator 的用戶,都在免費為 OpenAI 提供 on-policy 數據。
后續 OpenAI 還衍生出 ChatGPT Agent 以及新版 Codex 桌面端;Anthropic 也是同理;最近 Kimi 不聲不響地也做了一個叫做 WebBridge 的項目,其實就是一個瀏覽器插件。
![]()
即便是在過去兩年里動作最克制的中國模型巨頭深度求索,也在最近開始展露出對 Agent 的興趣。
CEO 梁文鋒此前接受采訪時曾經提到這樣的觀點:數學和代碼是 AGI 天然的試驗場,有點像圍棋,是一個封閉的、可驗證的系統,有可能通過自我學習就能實現很高的智能。
這句話的潛臺詞,是 DeepSeek 一直把 coding、Agent 當研究試驗場,而非商業化方向。
但是在今年 3 月,DeepSeek 一次性放出了十幾個 Agent 相關崗位,包括首次出現的模型策略產品經理(Agent 方向)等。當時的 JD 職責涵蓋「主導 Agent 評測體系以及訓練數據方案的設計」,要求中包括「深度使用 Claude Code、Manus」等產品。
APPSO 注意到,近期深度求索發布了 Agent 產品經理、Harness 產品經理等職位招聘信息——很顯然,DeepSeek 要做獨立、原生的 Coding/Agent 產品了。
![]()
此前資料顯示,DeepSeek V3.2 的訓練過程中引入了近兩千個合成的 Agent 訓練環境和八萬多條復雜指令。但是看起來,靠合成的訓練數據只能帶 DeepSeek 走到這里了,剩下的是合成不出來的部分:真實用戶在真實環境里的真實成功和失敗,必須靠自家的 agent 產品才能拿到。
DeepSeek 以一種極度克制的方式做了三年模型以及模型產品(直到上個月才終于在官網加入了多模態能力)。但是在今天來看,在編碼類任務上,DeepSeek 拿 SOTA 越來越難了,即便此前拿到也會在不久后被超越。
當主力依靠研究的路徑支撐不住飛輪的時候,DeepSeek 終于行動了。
7.
最后,我們回到開篇的故事。
根據 The Information 援引知情人士報道,在接受馬斯克 600 億收購/100 億美元合作的同時,Cursor 表示不會與 xAI 合作開發新的模型,而是仍將聚焦于優化自己的 Composer 模型。
這可能意味著,即便被馬斯克買通甚至收購,Cursor 仍然要保留自己數據飛輪的主體性。
數據歸屬的本身,是最關鍵的隱藏博弈點。
當所有頂級模型廠商都做了自己的產品,所有頂級產品也都開始訓練自己的模型,「模型公司」和「產品公司」之間本就不太清楚的界限,似乎越來越不存在了……
這場博弈也才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.