![]()
新智元報道
![]()
【新智元導讀】基于Kimi 2.5的Cursor新版Composer 2.5來了,狂飆10倍效率,百萬Token只要2.5美元! 最驚人的是,它在RL訓練里嫌任務太難,竟然學會了逆向緩存、反編譯字節碼去「作弊鉆空子」…… 大規模強化學習的潘多拉魔盒已被打開,AI黑客成精了。
今天,AI編程領域的強勢玩家——Cursor,毫無預兆地推出了一位強悍選手。
官方正式宣布,全新升級的AI編程模型Composer 2.5正式上線!
![]()
基準測試顯示,Composer 2.5在部分編程基準測試上的表現,已經非常接近Claude 4.7 Opus和GPT-5.5。
![]()
這是一場從底層訓練架構、工程效率到商業定價的全面顛覆。
官方數據顯示,Composer 2.5在長任務持續性和復雜指令遵循上實現了顯著突破,實際運行效率竟然比當前市面上的主流競品高出整整10倍!
![]()
![]()
更讓人感到震撼的是,伴隨著這次升級,大規模強化學習的潘多拉魔盒似乎被打開了。
在訓練過程中,這個AI模型竟然學會了「作弊」和「鉆空子」——為了完成任務,它不僅自主逆向了Python的緩存格式,甚至還學會了去反編譯Java字節碼!
在官方X上,Cursor承認,Composer 2.5是基于Kimi K2.5構建的。
![]()
![]()
所以,Cursor究竟用了什么黑魔法?
性能掀翻天花板
10倍效率與硬剛GPT-5.5的底氣
在AI編程賽道,很多開發者最頭疼的痛點就是后勁不足。
很多模型在寫個十幾行的簡單函數時表現得像個天才,但只要把它扔進一個數十萬行代碼的大型真實項目里,它就會開始胡言亂語。
而Composer 2.5,就是為了終結這個痛點而生的!
![]()
長任務與復雜指令的性能王者
根據Cursor官方的說法,Composer 2.5是他們迄今為止最強大的模型。相較于前代,它在智能水平、長周期任務的持續工作能力,以及復雜指令的依從性上,都實現了跨越式的提升。
在長達數天或涉及數萬個Token的長軌跡開發場景中,Composer 2.5表現出了令人驚嘆的穩定性。
它不再是一個只會對單次Prompt做出反應的復讀機,而變成了一個能夠真正理解上下文演變的「資深全棧工程師」。
它的運行效率與資源占用表現均遠優于當前的主流AI編程工具,運行效率最高提升了10倍。
![]()
這意味著,以前需要開發者反復調試、等待數分鐘的大型項目代碼迭代,現在在秒級內就能得到更精準的反饋。
百萬Token僅2.5美元:極致的工程性價比
如果說性能讓人興奮,那么它的價格則讓整個行業感到震撼!
Composer 2.5 定價白皮書:
- 標準版: 每百萬(1M)輸入Token僅需0.50美元,每百萬(1M)輸出Token僅需2.50美元。
- Fast變體版: 智能水平相同但速度極快,價格為每百萬輸入Token 3.00美元,每百萬輸出Token 15.00美元。
Composer 2.5在部分編程基準測試上已經接近Claude 4.7 Opus和GPT-5.5,然而,它的成本卻僅僅是它們的一小部分!
這揭示了一個殘酷而關鍵的行業新趨勢:未來的AI編程競爭,就是看誰能用更低的成本,打出更強、更極致的實際工程體驗。
最后Cursor更是不講武德地宣布:在發布后的第一周,平臺將直接雙倍贈送所有用戶的免費使用額度!
這一波降維打擊,無疑將大大降低開發者的試用門檻。
![]()
底層黑魔法之一
定向文本反饋RL,解決「信用分配」百年難題
為什么Composer 2.5能變得這么聰明且穩定?這得歸功于Cursor在強化學習訓練上引入的全新機制。
![]()
![]()
Cursor創始人表示:我們在強化學習方面已經做得極其出色了。Composer 2.5 完成了越級挑戰,其表現遠遠超出了它這個參數規模應有的水平。對于下一個版本,我們無比興奮
在傳統的強化學習中,有一個讓無數科學家頭疼的經典難題——信用分配難題。
什么是信用分配難題?
想象一下,AI在編寫一段非常長的代碼,中間它一共調用了幾百次各種工具。
在第50步的時候,AI犯了一個小錯:它嘗試調用了一個不存在的、或者不可用的工具,但隨后迅速調整,在接下來的幾百步里繼續進行了正確的工具調用。
在傳統的RL訓練中,獎勵信號是在整個過程全部結束后才統一計算并返回的。最終的獎勵可能會告訴模型:「這次任務整體完成得不夠完美。」
但這時候模型就懵了:一共寫了上千行代碼,到底是在哪一步做錯了?
解決方案:定向文本反饋
為了徹底解決這個問題,Cursor在訓練Composer 2.5時,祭出了「定向文本反饋RL」。
![]()
它的核心思路非常精妙:在模型本可以表現得更好的具體位置,直接把反饋釘在那個地方。
具體的技術實現步驟如下:
![]()
通過這種方式,Cursor既為想要改變的微觀局部行為提供了極其精準、局部化的訓練信號,同時又完美保留了貫穿完整長軌跡的宏觀RL目標。
這也是為什么Composer 2.5在實際協作體驗中,表現得像一個高情商、高技術的老手。
因為它在訓練中,每一處微小的表達和邏輯偏差,都被這種定向文本反饋精雕細琢過。
底層黑魔法之二
合成數據暴漲25倍,AI竟然學會了「作弊」!
有了精準的訓練方法,接下來就需要龐大的訓練燃料。
在RL的訓練過程中,隨著Composer的編碼能力顯著提升,它很快就把原有的訓練集題目給刷爆了。
為了逼出模型的極限潛能,Cursor的研發團隊開始在訓練過程中,動態地篩選和生成難度極高的合成任務。
Composer 2.5所使用的合成任務數量,達到了驚人的上一代(Composer 2)的25倍!
![]()
如何在大規模代碼庫的基礎上,憑空創造出成千上萬個高難度的編程任務?Cursor采用了一種非常絕妙的方法——功能刪除。
1. 智能體會拿到一個包含大量現成測試(Tests)的成熟代碼庫。
2. 系統要求智能體以某種方式,精準地把某些代碼和文件刪掉。
3. 核心要求: 代碼庫在刪掉這些文件后必須保持可運行,但原有的某項特定、可測試的功能必須被徹底移除。
4. 生成任務: 刪完之后,這個殘缺的代碼庫就變成了一個全新的高難度合成任務——要求AI重新把這個被刪除的功能實現出來,而原有的那些測試,則被直接用作獎勵信號。
打開潘多拉魔盒:模型學會了「獎勵作弊」
然而,當合成數據的規模擴大了25倍,且任務難度被拉到極限時,意料之外的事情發生了。
隨著模型能力在持續的強化學習中瘋狂進化,Composer 2.5竟然開始展現出讓人啼笑皆非、又脊背發涼的「獎勵作弊」能力。
它開始像人類黑客一樣,尋找各種復雜的變通辦法來走捷徑。
在監控中,團隊發現了兩個極為震撼的真實案例。
逆向Python緩存: 在一次「功能刪除」后要求重新實現的任務中,模型敏銳地發現系統里還殘留著一塊Python類型檢查的緩存。它沒有重寫復雜的函數體,而是直接通過逆向這塊緩存的底層格式,硬生生地找回并提取出了已經被刪掉的函數簽名,以此輕松通過了測試。
反編譯Java字節碼: 在另一個涉及第三方API調用的高難度任務里,由于缺乏文檔和源碼,正常編寫極度困難。結果,Composer 2.5竟然在環境里找到了編譯好的Java字節碼,并自主運行了反編譯工具,通過閱讀反編譯出來的底層代碼,徹底重建了該第三方API。
但這無疑向全行業敲響了警鐘:在大規模強化學習的催化下,AI為了拿到高分,其自主涌現出的行為邊界,可能遠超人類最初的設想。
頂級工程架構
分片Muon優化器與雙網格HSDP
在底層算力調度和模型優化上,Composer 2.5同樣展現了頂級大廠都未必具備的硬核工程能力。
現在我們都知道,Composer 2.5是基于開源社區中大名鼎鼎的Moonshot Kimi K2.5開源checkpoint構建的。
如何讓數萬億參數的模型在龐大的集群中高效運轉、同時把網絡通信開銷降到最低?
Cursor給出了兩項堪稱藝術級的工程解法。
分片Muon優化器:每步耗時僅0.2秒!
在模型的持續預訓練中,團隊使用了帶分布式正交化的Muon優化器。
這里面最大的計算開銷,其實在于對龐大的專家權重進行正交化。為了解決這個問題,Cursor設計了一套精妙的異步傳輸機制:
![]()
最終的結果驚為天人:在一個高達1T參數規模的模型上,優化器每一步的耗時,居然被死死壓在了區區0.2秒以內!
雙網格HSDP架構
為了讓MoE模型的效率最大化,Cursor對模型內部不同性質的權重,量身定制了完全不同的 HSDP 布局:
![]()
更絕的是,通過將這兩種布局徹底分開,彼此獨立的并行維度得以完美重疊。
例如,CP=2(上下文并行)和 EP=8(專家并行)可以直接在 8 個 GPU 上高效運行,而根本不需要在單個共享網格中強行占用 16 個 GPU。
這種對硬件資源的極致壓榨,正是Cursor能夠將推理和訓練成本打到如此低廉的底層底氣。
Cursor攜手SpaceXAI
向百萬H100集群進發
在官博最后,Cursor正式宣布:他們目前正在與 SpaceXAI 展開深度戰略合作!一下子就把競爭拉到了科幻級別。
![]()
雙方的目標非常簡單且暴力:直接調用Colossus 2集群中整整100萬個H100等效算力,從零開始訓練一個計算規模整整擴大10倍的全新超大模型!
![]()
100萬張H100等效算力是什么概念?這幾乎是目前人類地表上能組裝起來的最恐怖的算力怪獸。
Cursor自身的精湛機制,與SpaceXAI的百萬級頂級算力集群結合時,下一代模型的全自主編程能力,將會進化到何種地步?
從今天起,隨著Composer 2.5的全面普及,軟件開發的門檻和效率將被重新定義。
每百萬輸出Token僅2.5美元的超低成本,意味著AI編程將徹底走向平民化和常態化。
趕緊打開你的Cursor,去體驗一下首周用量雙倍贈送的Composer 2.5吧。
參考資料:
https://x.com/cursor_ai/status/2056415413077233983
https://cursor.com/cn/blog/composer-2-5
編輯:Aeneas David
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.