網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

扒完 DeepSeek V4 報告，我翻出了這個隱藏彩蛋

2026-04-24 19:37:14　來源: AppSo

廣東舉報

分享至

今天上午，，直接把這個大模型瘋狂更新月推向了最高潮。

百萬上下文標(biāo)配，性能比肩頂級閉源模型，首發(fā)適配華為昇騰芯片，隨便一個點單拎出來能寫一篇爆款頭條。

不過在我翻看 V4 的技術(shù)報告的時候，在訓(xùn)練層面看到了一個被大部分人滑過去的名詞：Muon 優(yōu)化器。

這個技術(shù)名詞，怎么看著這么眼熟呢？

原來是前兩天發(fā)布的 Kimi 2.6 里，就是通過 Muon優(yōu)化器，在相同的訓(xùn)練量下實現(xiàn)了2倍的效率提升，并在 1 萬億參數(shù)規(guī)模上解決了訓(xùn)練不穩(wěn)定的難題。

早在上個月楊植麟站在英偉達(dá) GTC 2026 的舞臺上，花了演講中最長的一個板塊講它。

Kimi 是全世界第一個發(fā)論文證明 Muon 可以用在萬億參數(shù)大模型訓(xùn)練上的團(tuán)隊。（更多解讀可參考）

楊植麟是這樣說的：「用 MuonClip 而非 Adam 訓(xùn)練 Transformer 大模型，效果會好得多。」正確實現(xiàn)后，token 效率提升 2 倍。在數(shù)據(jù)墻面前，這相當(dāng)于把 50 萬億 token 用出了 100 萬億的效果。

現(xiàn)在，這項技術(shù)出現(xiàn)在了 DeepSeek V4 的訓(xùn)練方案里。

我又回來翻了一下 Kimi K2 的架構(gòu)底層，又發(fā)現(xiàn)了一個更有意思的細(xì)節(jié)：它用的是 DeepSeek-V3 提出的 MLA（Multi-head Latent Attention）。

DeepSeek 的技術(shù)報告寫著 Kimi 的名字，Kimi 的架構(gòu)底座寫著 DeepSeek 的名字。你中有我，我中有你。

這大概是中國 AI 圈最魔幻的一幕：兩家被外界反復(fù)對比的開源雙子星，技術(shù)底層早就長到了一起。

而且，Kimi 類似這樣的巧合，已經(jīng)不是第一次了。

五次「撞車」，五個拐點

算上 V4 和 K2.6 前后腳上線，這已經(jīng)是 Kimi 和 DeepSeek 過去一年里的第五次「撞車」了。

圖片由 image-2 制作.

五次「撞車」，如果只是時間重合，那叫巧合。但把每次發(fā)布的內(nèi)容拉出來看，你會發(fā)現(xiàn)一條清晰的暗線：每次撞車恰好對應(yīng)一個 AI 行業(yè)拐點的到來。

第一次是最戲劇性的。2025 年 1 月 20 日晚 8 點 10 分，DeepSeek R1 發(fā)布并以 MIT 協(xié)議完全開源。不到兩小時后，Kimi k1.5 亮相。

兩者都瞄準(zhǔn)同一件事：讓模型從「張嘴就來」變成「先想后說」，用強化學(xué)習(xí)跑通 Long-CoT 長思維鏈推理。

在這之后，中國的開源力量就徹底改變了整個全球 AI 的格局。

后來 OpenAI 在一篇論文中點名指出：Kimi 和 DeepSeek 是「最早復(fù)現(xiàn) OpenAI-o1 Long-CoT」的兩家公司。全世界只有這兩家中國公司看懂了 OpenAI 在做什么，并且用自己的方式做了出來。

那是中國 AI 從「追隨者」開始變成「引領(lǐng)者」的分水嶺。

最近這次就是今天。四天之內(nèi)，K2.6 帶來了 SWE-Bench Pro 58.6% 的 Agent 集群并行編程能力，V4 把百萬上下文做成了所有服務(wù)的標(biāo)配，輸出長度拉到 384K tokens。

兩家同時推進(jìn)國產(chǎn)芯片適配：V4 下半年支持華為昇騰 950，寒武紀(jì)已完成 Day 0 適配；K2.6 支持國產(chǎn)芯片混合推理。

Agent 能力、編程天花板、百萬上下文、國產(chǎn)芯片適配、開源生態(tài)，全齊了。

從「學(xué)會思考」到「學(xué)會干活」，從「改 Transformer」到「改算力底座」，五次撞車其實展現(xiàn)出來的，是中國 AI 不再一味對標(biāo) OpenAI ，逐漸不再依賴英偉達(dá)，在開源上走出屬于自己的路。

撞車背后的必然

發(fā)布撞車的巧合固然有意思，但更值得關(guān)注的，其實是巧合背后的一些必然。

讓我們先回到 DeepSeek 架構(gòu)里的 Muon 。

楊植麟在 GTC 演講中講了一個技術(shù)困難：當(dāng) Kimi 把 Muon 擴展到 1 萬億參數(shù)時，訓(xùn)練不穩(wěn)定性成了攔路虎。最大 logits 爆炸超過 1000，正常值只有 50 到 100。

損失先降后炸，根本無法收斂。他們的解法是 QK-Clip，對每個注意力頭計算最大 logit 的裁剪值，把查詢和鍵限制在合理范圍內(nèi)。訓(xùn)練損失不受影響，但穩(wěn)定性問題消失了。

K2 模型用這套技術(shù)完成了訓(xùn)練，創(chuàng)下機器學(xué)習(xí)史上最大規(guī)模 Muon 訓(xùn)練的紀(jì)錄。

而 DeepSeek V4 的技術(shù)報告里，Muon 被直接寫進(jìn)了訓(xùn)練方案。大多數(shù)模塊用 Muon 加速收斂，嵌入層和預(yù)測頭仍用 AdamW，混合使用。這是對 Kimi 底層創(chuàng)新的一次直接引用。

反過來，Kimi K2 的底層架構(gòu)采用了 DeepSeek-V3 提出的 MLA。Multi-head Latent Attention，通過壓縮 KV 緩存大幅降低推理成本，是 V3 最核心的架構(gòu)創(chuàng)新之一。

你的論文成了我的基礎(chǔ)設(shè)施，我的創(chuàng)新成了你的底座。寫在引用列表里的互相成就。

在硅谷，你很難看到這種事。OpenAI 和 Anthropic 之間的技術(shù)是「護(hù)城河」，能藏則藏。但 Kimi 和 DeepSeek 之間長出了一種更原始也更健康的關(guān)系：開源社區(qū)里的正向循環(huán)。

Kimi 和 DeepSeek 是中國首批開源萬億參數(shù)模型的玩家，都相信 Scaling Law。技術(shù)路線上，DeepSeek 以推理模型見長，Kimi 以 Agent 能力著稱。

底層架構(gòu)上，兩家都在挑戰(zhàn)同一批「古老」的基礎(chǔ)設(shè)施。Kimi 發(fā)了「注意力殘差」論文，DeepSeek 做了 mHC 殘差連接，都在改 ResNet 時代留下來的殘差連接方式。

在長文本這條線，Kimi 探索線性注意力（Kimi Linear），DeepSeek 探索稀疏注意力（DSA），殊途同歸。

所以當(dāng)它們撞車時，與其說是巧合，不如說是對同一個方向的必然趨同。

用中國的芯片，跑中國的模型，對全世界開源

在 OpenRouter 上，Kimi 和 DeepSeek 穩(wěn)居中國模型調(diào)用量前兩名。

Cursor 接入了 Kimi，日本樂天 Rakuten AI 3.0 基于 DeepSeek 開發(fā)。被海外產(chǎn)品「套殼」這件事，放在兩年前是恥辱，現(xiàn)在是勛章。

Meta 新模型 Muse Spark 發(fā)布時，官方 Blog 做的對比基準(zhǔn)線里，Kimi 和 DeepSeek 跟 GPT-4、Claude 并排站著。英偉達(dá) GTC 上，黃仁勛用來展示芯片性能的中國模型就是這兩家。

海外認(rèn)可之外，更值得注意的是國產(chǎn)芯片這條線。H20 芯片已斷供一年，高端推理芯片短期內(nèi)只有國產(chǎn)一個選項。兩家公司同時在做同一件事：讓中國模型跑在中國芯片上。

上周黃仁勛在播客訪談里說了一句話：「如果當(dāng)初 DeepSeek 先在華為平臺上發(fā)布，那對我們來說非常可怕。」

今天，V4真的首發(fā)適配華為昇騰，工程團(tuán)隊把整個技術(shù)棧從 CUDA 遷移到了華為 CANN 框架，從算子庫到通信原語到內(nèi)存管理，V4 的混合注意力、MoE 專家并行、FP4 量化訓(xùn)練，幾乎每層從頭實現(xiàn)。寒武紀(jì)也在 Day 0 完成了 V4 全系列的 vLLM 推理適配，代碼已開源。

黃仁勛一語成讖。

而 Kimi 在國產(chǎn)芯片上走的路更早，也更深。為了給國產(chǎn)芯片「鋪路」，Kimi 在架構(gòu)創(chuàng)新上掏出了兩個殺手锏。

Kimi Linear 混合注意力架構(gòu)把線性注意力層與全注意力層以 7:1 配比混合，將 KV 緩存體積壓縮到極低水平。實測數(shù)據(jù)很直觀：32K 上下文下，混合架構(gòu)模型 KV 吞吐量僅 4.66 Gbps，同規(guī)模稠密模型高達(dá) 59.93 Gbps。

KV 緩存?zhèn)鬏斝枨蟊粔旱搅似胀ㄒ蕴W(wǎng)可承載的范圍，RDMA 高速網(wǎng)絡(luò)從「必選項」變成了「可選項」。

在此基礎(chǔ)上，Kimi 聯(lián)合清華大學(xué)發(fā)布了 PrFaaS（預(yù)填充即服務(wù)）論文，把推理的 Prefill 階段和 Decode 階段徹底解耦，調(diào)度到不同異構(gòu)硬件集群上。實測吞吐量提升 54%，首詞延遲降低 64%。

這套方案打破了「大模型推理必須綁定同一種高端 GPU」的前提：算力強的國產(chǎn)卡做 Prefill，帶寬強的國產(chǎn)卡做 Decode，各司其職。

DeepSeek 用 V4 證明了國產(chǎn)芯片能跑萬億參數(shù)的旗艦?zāi)Ｐ停琄imi 用架構(gòu)創(chuàng)新證明了國產(chǎn)芯片可以跑得好、跑得省。

一個從工程適配切入，一個從架構(gòu)設(shè)計切入，終點都是同一個：讓英偉達(dá)不再是唯一選項。

以前的國產(chǎn) AI 敘事是「用英偉達(dá)的卡，追 OpenAI 的模型」。現(xiàn)在這對雙子星同時在寫另一個劇本：用中國的芯片，跑中國的模型，服務(wù)全世界的開發(fā)者。

你的 MLA 是我的基礎(chǔ)，我的 Muon 是你的加速器

回看這一周AI 行業(yè)的瘋狂更新，我們已經(jīng)處在了一個新的轉(zhuǎn)折點。

同一周內(nèi)，兩個中國團(tuán)隊各自發(fā)布了萬億參數(shù)級開源模型，性能逼近甚至持平美國頂級閉源模型。這在一年前是不可想象的。

當(dāng)閉源模型的價格是開源模型的 50 倍，開源陣營每隔幾個月就推出一個新的萬億參數(shù)選手，競爭天平正在發(fā)生微妙的傾斜。

這不是「贏了」或「超越」這么簡單的勝負(fù)之分。閉源模型在復(fù)雜推理和系統(tǒng)可靠性上仍然有明顯優(yōu)勢，Opus 4.6 的思考模式依然是 V4-Pro 追趕的目標(biāo)。但開源陣營的速度、成本優(yōu)勢和生態(tài)覆蓋面，正在改變這場競賽的規(guī)則本身。

除了這五次撞車發(fā)布，這兩家公司還有一個巧合。梁文鋒來自廣東湛江，楊植麟來自廣東汕頭。兩個廣東人，撐起全球開源 AI 半邊天。

梁文鋒像工程師哲學(xué)家，相信開源和底層創(chuàng)新，V4 發(fā)布公告結(jié)尾引的是荀子，「不誘于譽，不恐于誹，率道而行，端然正己。」

至于楊植麟在我看來像產(chǎn)品科學(xué)家，他認(rèn)為用戶體驗和技術(shù)突破可以兼得，在 K2.6 發(fā)布時他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一個古典，一個極客。就是這兩個風(fēng)格迥異的創(chuàng)始人，一起定位了中國開源模型在世界坐標(biāo)系的位置。

你的 MLA 是我的基礎(chǔ)，我的 Muon 是你的加速器。這大概也是中國在能在短時間內(nèi)引領(lǐng)全球開源 AI 的重要原因之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.