網易首頁 > 網易號 > 正文申請入駐

不只是DeepSeek V4，還有個萬億級大模型，訓推全程國產芯片

2026-04-30 16:02:50　來源: 機器之心Pro

河北舉報

分享至

編輯｜Sia

同一天，兩件大事兒在 AI 圈正面碰撞。

一邊是 DeepSeek。2026 年 4 月 24 日，正式發布新一代模型DeepSeek-V4 系列預覽版，并同步開源——總參數規模邁入萬億級，支持百萬字超長上下文。

另一邊，美團悶聲干了件大事——用全國產算力集群，訓練出了萬億參數大模型 LongCat-2.0 系列預覽版（ LongCat-2.0-Preview ）。

據知情人士透露，該預覽版與同日發布的 DeepSeek V4 Pro 在總參數規模、激活參數量上基本處于同一量級，同樣支持 1M 上下文。

但關鍵不是第一梯隊成員的「參數對齊」，而是路徑分野——一個前沿萬億模型，訓推全流程「英偉達含量為 0」——這在業內尚屬首次。即便是 DeepSeek V4，也只是選擇國產算力做「首發推理」，并不意味著全流程完全擺脫英偉達。

過去兩年，國產大模型領域最核心、也最令人焦慮的問題，終于迎來了明確答案：

萬億參數級模型，究竟能不能依靠國產芯片穩定、高效地跑起來？

答案是：能。

只是很多人沒想到，在「國產算力支撐萬億級模型研發」這條高難度賽道上，率先跑出關鍵突破的，會是美團。

某種程度上，這也呼應了王興過去的發言，「過去一年，保障充足的 GPU 資源供應，是美團的首要任務」、「我們將爭取把美團 App 率先升級成 AI-powered App。」顯然，這是戰略預判的結果。

目前，LongCat-2.0-Preview 仍處于受邀內測階段，每天 1000 萬 token 額度。

我們不禁好奇，他們到底是怎么做到的呢？

抽絲剝繭 Flash ，原來早就有跡可循

第一時間，我們聯想到去年 9 月開源的 LongCat-Flash 大模型。

同樣采用 MoE 架構，總參數規模達到 5600 億，動態激活參數在 186 億至 313 億之間，在性能與計算效率之間做出了相當漂亮的平衡，推理速度和運營成本指標也頗為亮眼。

彼時，業內就曾傳出消息：該模型訓練階段并未使用英偉達 GPU，而是基于國產加速卡完成。對此，美團始終未予置評。

但現在，隨著 LongCat-2.0-Preview 的出現，我們重翻技術報告，很多細節突然有了新的解釋。

那些當時看起來「用力過猛」、「沒必要」的工程優化，或許并不是單純秀肌肉，而是在國產算力環境下訓練超大模型時，必須跨過去的現實門檻。

換句話說，那份報告的「微言大義」，其實是一套如何用國產芯片訓成超大模型的方法論。

邏輯并不復雜。

一個 560B 的 MoE 模型，訓練周期 30 天。如果底層運行在成熟的 NVIDIA + CUDA + NVLink + InfiniBand 生態里，通信、算子、調度、穩定性工具鏈早已高度成熟。在這樣的環境下，專門花大量篇幅去講底層算子優化、確定性計算、穩定性套件，邊際收益通常并不高。

但如果底層不是英偉達，而是國產算力，一切就瞬間說得通了。

第一個最微妙的信號，藏在用詞里。

翻遍 Flash 技術報告的訓練章節，你會發現全文只提「accelerator 」，絕口不提「 GPU 」；而到了推理部分，卻明確寫的是「 H800 」。這種刻意的區分，在學術論文中并不常見——它更像是在合規框架下，用一種近乎明示的方式告訴你：訓練跑的那套硬件，不是英偉達。

第二個信號，是顯存數字。

Flash報告第 5.3 節提到，經過 V-ZB 算法優化后，訓練峰值顯存被壓到了60GB 以下。這是一個非常具體的數字。如果是 H800（80GB 顯存），壓到60GB并無太大必要；但如果是單卡顯存原本就偏緊的國產芯片，這個優化就是生死線。

同樣，在后來開源的 DORA異步訓練框架論文中，團隊再次明確寫道：「 our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory 」——60GB，這個數字反復出現，指向的不是偶然。

第三個，也是最硬核的，是算子的「確定性實現」。

技術報告專門拿出章節講「 Determinism 」。在外界看來，這只是一個工程潔癖。但知情人士透露，這背后是一場硬仗。

當訓練平臺從成熟的 CUDA 換成一個較新的國產芯片生態時，很多基礎的算子要么缺失，要么性能不可接受。最典型的是FlashAttention 反向梯度（ FAG ）——它直接決定了長上下文訓練的穩定性。

當時國產芯片上只有一個「確定性」實現，但為了做到計算順序固定，它被迫退化成單核順序執行，耗時比「非確定性」版本慢了20 到 70 倍，在生產環境中幾乎不可用。

LongCat 團隊沒有等。他們在國產芯片上自研了高性能的確定性 FAG 算子，最終將性能損失控制在5%左右——既保住了確定性，又沒有犧牲效率。據我們所知，這一實現早于國產芯片廠商官方推出的確定性版本，且性能更優。

同樣的自研重構還發生在Scatter 類算子上。原有的單核實現效率極低，團隊設計了一套確定性并行算法，將梯度聚合任務拆解到所有可用計算單元上，性能提升數十倍。

而對于GEMM 這類高耗時計算模塊，團隊也放棄了通用實現，轉而采用確定性 Tiling 策略，疊加深度調優，實現了「高性能 + 確定性」的雙重目標。

正是在這些底層算子的深度自研之上，「整網確定性訓練」才真正成為可能——

每一步的計算結果都能精確復現，任何一次異常都能被快速定位。這在國產芯片工具鏈尚不完善的階段，不是錦上添花，而是排障的剛需。

把這些細節放在一起，Flash 的技術報告，實則是一份沒有點名硬件平臺的國產算力訓練經驗總結，也是一輪提前完成的驗證：

先用 560B 跑通工程棧，驗證架構、通信、訓練穩定性與工具鏈閉環，再把同一套方法論，放大到 1.6T。

模型架構又有創新了

因此， LongCat-2.0-Preview ，本質上可以看作是這一套方法論第一次被完整推到萬億參數級后的「階段性驗證」。據多位接近項目的人士透露，這一版本的技術細節含金量，似乎明顯高于外界目前所看到的公開信息。

LongCat-2.0-Preview 采用 MoE 架構，總參數規模約 1.6T，平均激活參數約 48B，同時支持 1M 級超長上下文。在國產算力環境下，同時支撐超大參數規模與百萬級上下文，本身就是對顯存、通信與系統穩定性的綜合考驗。

消息人士稱，為了進一步降低底層硬件負擔，同時提升整體推理與訓練效率，團隊在架構層面做了幾個核心創新。

其中一個延續性較強的方向，是在 LongCat-Flash-Lite 已驗證的 N-gram Embedding 路線基礎上繼續增強。

傳統 MoE 模型通常依賴不斷擴展 FFN 專家數量來提升能力，但隨著專家規模增加，跨節點通信開銷也同步上升，整體收益逐漸遞減。

LongCat 干脆將一部分原本位于專家層的參數前移至 embedding 層，并引入 N-gram（詞組級）建模能力，使部分高頻語言模式可以直接匹配命中，而不再依賴逐層計算。

據說，在這一設計下，模型在保持 1.6T 參數容量的同時，在代碼生成、指令理解以及專業語義任務中獲得更穩定的表現，推理成本也得到明顯控制。

另一個關鍵創新來自注意力機制層面。

長上下文能力的主要瓶頸，仍然來自 Transformer 的 O(n2) 計算復雜度。LongCat-2.0-Preview 通過引入輕量稀疏注意力機制，并疊加「跨層流感知索引」設計，在不同層之間識別關鍵語義路徑，減少了重復的全量 attention 計算。

據說，這一組合設計使模型能夠穩定支持 1M token 上下文，同時在推理延遲與計算成本上保持相對可控。

5–6 萬卡國產集群，何以托起萬億模型？

據機器之心了解，LongCat-2.0-Preview 的訓推，均完全基于國產芯片完成，英偉達算力占比為零。

有接近項目的人士透露，訓練階段調用的國產加速卡規模已達 5 萬至 6萬張——這也刷新了當前已知范圍內，國產算力支撐超大模型訓練的規模上限。

這意味著其已經進入典型的超大規模工程系統階段，對通信、算子和穩定性提出的要求，遠比外界想象高得多。

首當其沖的是顯存與帶寬約束。相比英偉達高端 GPU（如 H100、B200），國產芯片在單卡 HBM 容量與帶寬上仍存在差距，這使得可用顯存空間被明顯壓縮。如何將 1.6T 級別「專家庫」在工程實現上，仍需要在集群側進行極其精細的切分與調度。

換句話說，研發團隊必須在萬卡規模上，對專家并行（EP）、張量并行（TP）與流水線并行（PP）進行重新組合與解構，才能完成整體訓練部署。

有接近研發的人士表示，圍繞并行策略與顯存優化，團隊做了大量底層調整。包括前述的 N-gram Embedding 與稀疏注意力設計，本質上也在為顯存與帶寬「騰空間」。

另一個更隱性的難點，是軟件生態與算子效率。

不比CUDA 生態在算子庫與調度效率上的優勢，國產芯片在部分核心算子（如 GEMM、注意力相關計算）上仍存在優化空間。消息人士透露，為了提升執行效率，團隊并未完全依賴通用框架，而是對核心算子進行了針對性重寫與優化，并引入「確定性計算」機制，以保證大規模訓練中的可復現性與調試能力。

而當訓練規模擴展至數萬卡級別后，系統穩定性成為另一個主要變量。

在長周期訓練過程中，硬件掉線、通信抖動與任務中斷是常態問題，而不是異常情況。為此，團隊額外構建了一套容錯與恢復體系，包括鏈路感知、自動重調度與多層異常檢測機制，用于降低局部故障對整體訓練的影響。

最后，團隊針對國產硬件的特點，對訓練框架和模型結構做了親和設計，顯著提升了計算性能。

綜合來看，在國產芯片上跑通 1.6T 模型，本質上是在「用軟件工程的勤奮，彌補硬件生態的欠缺」。其結果，正如消息人士所稱，雖然國產芯片在顯存等硬指標上還存在差距，但在計算正確性、數值精度以及長周期訓練穩定性這些最核心的指標上，已經能夠追平國際水平，足以支撐萬億級 MoE 模型的全流程訓推。

國產算力，正從能用邁向好用

過去幾年，關于國產芯片始終有一個現實問題：能不能做大模型？答案逐漸變成「能做」。但行業更在意的是下一問：能不能支撐最前沿、最高強度、最長周期的頂級任務？

在國產生態仍處于「補課期」的現實下，LongCat 團隊沒有選擇在岸邊等待水清，而是選擇「邊渡江邊修船」。但與 DeepSeek V4 相比，LongCat-2.0-Preview 走得更遠——從訓練到推理，全流程完全國產化。

這也讓它的意義，超出了「又一個萬億模型」，更是一場產業級驗證：國產算力，正在跨過從「可替代」到「可承擔頂級任務」的關鍵門檻。

正如業內人士所言，將 DeepSeek V4 與 LongCat-2.0-Preview 放在一起看，國產大模型生態雖仍不完美，但已經邁出了肉眼可見的關鍵一步。那些踩過的坑、補齊的短板、攻克過的工程難題，最終也會沉淀成整個國產 AI 基礎設施的公共能力。

當國產芯片開始承載這些前沿大模型，并獲得實際驗證與背書，不僅為國產生態注入了信心，也為更深層的結構性變革打開了空間。

如果說全流程國產化是「造出了車」，那么開源就是「修好了路」，邀請所有人一起跑起來。這種開放基因早已植根于 LongCat 的版圖中。

這一次 LongCat-2.0 Preview 大概率也將延續這一開放路線。至于具體的開源方式與時間，我們不妨拭目以待。

目前LongCat-2.0-Preview 已開放內測，每天提供 1000 萬免費 Token 額度，無論是技術發燒友想親手跑一下這個全自研的萬億模型，還是企業開發者想評估國產算力 API 的可用性，都值得一試。

訪問鏈接：

https://longcat.chat/platform/usage

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.