有國外博主在研究了 DeepSeek v4 和 Kimi k2 技術文檔后,發現前者 使用了 Muon 優化器,并結合 Kimi 的配方來擴展其用于 LLM 訓練。
同時,Kimi K2(及K2.6)又采用了 DeepSeek-V3 的架構技術(超稀疏 MoE + MLA)。
![]()
他感慨稱,“開源 AI 實驗室正在相互疊加彼此的研究成果,這正是它應該的樣子”。
對此,美國某AI公司聯合創始人轉評稱,這就是中國的模式,值得稱贊。
同時,他吐槽之前倡導公益起家的 OpenAI ,及谷歌都公布技術論文,而現在全部走向閉源,紛紛把自己變成了“黑盒”公司,讓人失望。
![]()
確實如他所言,中國 AI 公司大都在走開源方向,一方面在全球 AI 生態中影響力越來越大,更重要的是,國內 AI 大模型公司間協同發展的趨勢也開始形成。
這里的“協同”并不是公司層面的合作,而是開發者在實際使用中形成的分工——通過像 Dify、n8n 這樣的編排工具,把不同模型嵌入同一流程。
比如 Kimi 系列長上下文能力較強, DeepSeek 代碼、數學推理等結構化任務上投入更多,二者并不沖突,反而天然適合在工作流中組合使用。
一個負責長文本理解與信息整合,一個負責精確執行與生成。
這種現象背后,是國內 AI 生態一個非常現實的結構:基礎設施、模型能力和應用層之間高度耦合。
云廠商如阿里巴巴、字節同時提供算力與模型服務;主流模型如DeepSeek 等直接開放權重或技術細節,讓導致架構(MoE)、訓練技巧快速擴散;創業公司在這些基礎上構建差異化能力,而開源社區進一步放大技術擴散。
結果就是,MoE等架構設計、訓練方法(如指令微調、對齊流程)和工程優化,會形成快速傳播。
如MiniMax abab 系列公開提到 MoE 架構,長文本能力頁成為國內 AI 大模型的“標配競爭項”,大家開始優化 attention 機制,而不是單純堆參數。
當然,這種協同主要還是在模型架構、推理優化方法等可見層,而不是在數據構成與對齊策略等底層。
相比而言,美國則是另一番景象。
以 OpenAI 和 Anthropic 為例,兩者在模型設計理念與安全策略上存在明顯分歧,且分別綁定不同的云與資本體系(微軟、Google、Amazon)。
這種結構導致技術路線更趨向封閉:關鍵方法不公開,數據體系不共享,模型能力通過 API 形成壁壘。
競爭的核心則在于“誰能構建更強的獨立體系”,寡頭間競爭,而不是“體系之間如何協同”。
![]()
這種協同性,更極致的一個表現就是華為與 DeepSeek v4的芯模協同優化。
DeepSeek v4 也是全球首個在官方技術報告中,將華為昇騰NPU與英偉達GPU并列寫入硬件驗證清單的世界級開源大模型。
![]()
報告明確指出,“我們在英偉達GPU和華為昇騰NPU兩個平臺上均驗證了細粒度專家并行(EP)方案”,標志著模型從設計階段就納入了國產算力的適配目標。
這意味著,二者完成了從底層算子到上層模型的深度適配,實現了DeepSeek-V4在華為昇騰平臺上從訓練到推理的全棧部署,而不僅依賴英偉達硬件。
在這個層面上,模型公司與芯片公司的關系更接近“共同完成一個系統工程”,是 “共研”特征的協同。
造成這種差異的根本原因,更多應該源于各自面臨的系統條件。
美國擁有相對充足且成熟的算力與資本體系,使單一公司可以支撐完整閉環,更容易走向封閉競爭。
相比之下,中國的算力供給、芯片生態與應用市場之間存在更強的相互依賴關系,任何一環都很難完全獨立運作,這就自然推動了跨主體的協同。
中國 AI 的“協同生態”,可能不是一個理想化的選擇,而是一種工程上的必然結果,從而也就形成了一個更像“系統工程”的發展路徑。
在這樣的體系里,技術進步往往不是某一家公司的單點突破,而是多個環節同時推進的結果,包括接下來在市場應用端能反催生出來的無限可能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.