網易首頁 > 網易號 > 正文申請入駐

16 個月后，DeepSeek 已不是孤身走暗巷

2026-04-25 15:11:01　來源: 硅星人

北京舉報

分享至

　　作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

　　原本預計在 2026 年春節(jié)上演的中國 AI 大戲，延遲到了五一假期前。

　　這周五，DeepSeek V4 千呼萬喚始出來。

　　同樣在這周，Qwen、Kimi、小米、騰訊都不約而同拿出了自己最新的代表作。

　　從 Artificial Analysis 最新放榜的開源模型智能指數看，開源模型的前幾名已經都是中國模型。

　　其中，TOP2 都是這周發(fā)布的。他們也是這幾天 OpenRouter 真實調用量上擠入全球 TOP5 的兩家公司。

　　這已經不是 DeepSeek 和 Kimi 這么默契了。往回看看前面幾次。

　　2025 年 1 月，DeepSeek R1 和 Kimi K1.5 前后兩個小時內發(fā)布，都把目標指向 OpenAI o1。

　　一個月后，DeepSeek NSA 和 Kimi MoBA 幾乎同時出現，都在改造 Transformer 最核心的注意力機制。

　　2025 年 4 月，Kimi 的 Kimina Prover Preview 和 DeepSeek-Prover-V2 先后發(fā)布，都在向形式化數學推理和定理證明方向推進。

　　時隔一年，現在，又一次，Kimi K2.6 和 DeepSeek V4 在同一周先后發(fā)布，兩個萬億參數的開源模型，前后腳擺到了桌面上。

　　發(fā)力相同的技術方向，幾乎同時到達同一個路口。這已經不像巧合了。

　　這次又撞了什么

　　先看這一輪各自拿出了什么。

　　DeepSeek V4 是一個 1.6 萬億參數的 MoE 模型，49B 激活參數，原生支持 100 萬 token 上下文。它的核心敘事是效率革命，相比上一代 V3.2，單 token 推理算力需求下降了 73%，KV cache 壓縮到原來的十分之一。

　　簡單說，同樣的硬件能處理多得多的請求，同樣長度的文本花的錢少得多。

　　與此同時，V4 完成了對華為昇騰芯片的深度適配，從英偉達 CUDA 生態(tài)向華為 CANN 架構做了底層代碼遷移，也讓這一輪發(fā)布多了一層國產算力遷移的意味。

　　Kimi K2.6 是一個萬億參數的 MoE 多模態(tài)模型，32B 激活參數，256K 上下文。它的核心敘事不是更大或更便宜，而是更持久。

　　在測試中，K2.6 可以不間斷編碼 13 小時，處理超過 4000 次工具調用，修改 4000 多行代碼，完成一個接近性能極限的開源金融撮合引擎的深度重構。

　　這不是普通的“代碼能力提升”，而是在測試模型能不能從一次性回答，進入長時間、多工具、多 Agent 協作的工作狀態(tài)。

　　K2.6 還引入了 Agent 集群架構，支持 300 個子 Agent 并行協作。月之暗面的 RL 基礎設施團隊已經用 K2.6 驅動的 Agent 連續(xù)自主運行了 5 天，負責監(jiān)控、故障響應和系統運維。

　　它們總在同一個路口相遇，但開出去的方向并不一樣。至少在這一輪，一個更像是在重寫模型基礎設施的成本結構，另一個更像是在驗證模型能否進入更長周期的真實任務。方向不同，但在同一周發(fā)布這件事本身，已經足夠讓人截圖發(fā)群了。

　　但兩家也有高度一致的選擇，萬億參數的 MoE 架構、開源、繼續(xù)相信 Scaling Law。截至目前，它們也是中國僅有的兩個已開源的萬億參數模型。

　　比撞車更有意思的事

　　多次撞車是一個好段子，但它背后有一個更值得注意的現象，兩家的技術路線正在相互啟發(fā)。

　　上一次，是 Kimi K2 借鑒了 DeepSeek V3 帶火的 MLA 注意力機制。MLA 是一種壓縮注意力計算和 KV 緩存以提升效率的方案，DeepSeek V3 讓它成為中國開源模型技術棧里的顯性選項。

　　這一次，是 DeepSeek V4 把 Muon 優(yōu)化器作為模型架構層的三大更新之一。Muon 是一種二階優(yōu)化器，解決的是訓練階段參數更新的效率和穩(wěn)定性問題，用來取代已經用了 10 年的 Adam。Kimi 是最早把 Muon 系優(yōu)化器推到萬億參數級訓練并系統公開經驗的團隊之一，楊植麟在 GTC 2026 演講中稱其可以帶來 2 倍的 token 效率提升。而 V4 也跟進使用 Muon 優(yōu)化器，用來提升收斂效率和訓練穩(wěn)定性。

　　換句話說，MLA 省的是推理時的錢，Muon 省的是訓練時的路。而這兩條路，已經在兩家之間來回走了一遍。

　　這就讓“撞車”不再只是發(fā)布時間上的巧合，而變成了技術棧層面的回聲。更像是兩家公司一邊競爭，一邊把對方探索過的技術思路變成自己下一輪實驗的參考坐標。

　　這種相互啟發(fā)還在繼續(xù)延伸。在注意力機制上，DeepSeek 探索的是稀疏注意力，Kimi 下一代模型探索的是線性注意力，路徑不同但要回答的問題一致，都是長上下文怎么不被全注意力的計算復雜度拖垮。

　　在殘差連接上，DeepSeek 做 mHC，Kimi 做注意力殘差，同樣是不同方案指向同一個目標，讓模型變深之后訓練依然穩(wěn)定。

　　這件事之所以值得說，是因為放在更大的行業(yè)背景里看，它其實是反常的。硅谷頭部公司正在變得越來越封閉，OpenAI 早已不再公開訓練細節(jié)，Anthropic 和 Google 的核心方法同樣諱莫如深，社區(qū)只能靠猜測和拼湊來推斷它們的技術路線。連在舞臺上握手都不太可能了

　　而在 Kimi 和 DeepSeek 之間，技術報告和開源代碼的可見度讓技術擴散的鏈條明顯縮短了。多次撞車之所以能被看到、被討論、被放在一起比較，前提恰恰是兩家都選擇了把東西攤在桌面上。

　　中國開源模型的技術擴散速度，正在變得比過去快得多。這可能才是頻繁撞車真正說明的事情。

　　全球技術圈都在看它們撞車

　　這種“撞車”的敘事，最早當然是中文科技圈的發(fā)明。但海外開發(fā)者社區(qū)也在用自己的方式確認這件事。

　　K2.6 發(fā)布后，AI 領域最有影響力的 newsletter 之一 Latent Space 直接把 Kimi 放進了“DeepSeek 沉默期后中國開源模型實驗室領跑者”的位置。幾天后 V4 發(fā)布，海外開發(fā)者社區(qū)又立刻把 V4、K2.6、GLM 5.1 放到同一張表格里比較參數、價格、上下文長度和 Agent 能力。

　　英偉達 GTC 2026 上用來展示下一代芯片推理性能的中國模型，是這兩家。

　　在海外開發(fā)者社區(qū)里，當人們討論中國開源模型時，Kimi 和 DeepSeek 的確越來越頻繁地被放進同一張表里。

　　它們撞上的不是彼此

　　這也讓 DeepSeek 和 Kimi 的關系變得有點微妙。它們當然是競爭對手，但在更大的模型生態(tài)里，又共同把中國開源模型推到了一個更難被忽視的位置。

　　它們對閉源模型的壓力，不只來自某一次 benchmark，而來自成本、可部署性、開源權重和技術擴散速度這些更慢、更底層的變量。

　　所以，Kimi 到底有沒有在故意撞車 DeepSeek？

　　大概率沒有。萬億參數的 MoE 要做，長上下文的注意力機制要改，訓練效率的優(yōu)化器要換，國產芯片的適配要啃，開源要開得真誠而不是做防御性姿態(tài)。這些不是“選項”，而是“必經之路”。

　　兩家公司都在認真地做底層技術，也都選擇把關鍵進展放到公開語境里，于是就一次又一次地在同一個十字路口碰面。

　　不是它們太默契，是路太窄了。

　　至于下一次“撞車”，大概已經在路上了。

　　如果沒猜錯的話，Kimi 讓大模型的文本和視覺能力齊頭并進的技術方案，將啟發(fā)更多中國開源純文本模型長出“眼睛”，一起看到更遠、更大的世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.