日前,DeepSeek最新估值超3000億,背后是這8款國產芯片力挺。
2026年4月24日中午,DeepSeek 對外發布并開源了全新DeepSeek V4 系列模型。根據參數大小,模型分為DeepSeek-V4-Pro 1.6T 和 DeepSeek-V4-Flash 284B 兩個版本。
![]()
眾智 FlagOS 社區第一時間完成 DeepSeek-V4 系列模型的多芯片適配與推理部署,已支持海光、沐曦、華為昇騰、摩爾線程、昆侖芯、平頭哥真武、天數智芯、英偉達、清微智能(可重構計算架構)等9種 AI 芯片,并同步提供面向開發者的模型、代碼與部署方案。特別一提的是,這是基于FlagOS生態首次在國產可重構芯片完成的千億大模型DAY0適配。這意味著,DeepSeek-V4 不再局限于少數高端硬件,通過統一開源系統軟件棧 FlagOS,能在多種 AI 芯片上快速遷移、穩定運行。對于開發者、芯片廠商和產業用戶而言,這不僅是一次模型適配,更是多元 AI 算力走向可用、易用、好用的重要一步。
DeepSeek-V4 系列2款模型均支持百萬 Token 上下文,架構上引入混合注意力機制(CSA + HCA),在百萬 Token 場景下 Pro 相比 V3.2 僅需 27% 推理 FLOPs 和 10% KV 緩存;采用流形約束超連接(mHC)增強跨層信號傳播,并使用 Muon 優化器提升訓練收斂和穩定性。兩個模型均在 32T+ Token 上預訓練,后訓練采用兩階段范式:先通過 SFT + GRPO 強化學習培養領域專家能力,再經在線策略蒸餾統一融合。Pro-Max(最大推理模式)在代碼基準達到頂尖水平,在推理和 Agent 任務上大幅縮小與領先閉源模型的差距;Flash-Max 在給予更多推理預算時可接近 Pro 級推理性能,但受限于參數規模,在純知識類任務和復雜 Agent 工作流上略有差距。
性能參考如下官方評測結果:
![]()
圍繞 DeepSeek-V4 系列模型的多芯適配,此次 FlagOS 系統軟件技術棧突破了三大關鍵技術:基于 FlagGems 全量替換 DeepSeek 原版算子,實現算子層多芯片統一適配;為 o-group 采用獨立張量并行策略解鎖更多低顯存場景;完成 “FP4+FP8混合精度” 的原生權重到 FP8/BF16 的精度路徑轉換。當下,國內大規模部署的 AI 芯片,大都不支持 FP4 。英偉達也只在 Blackwell 及之后的高端芯片才支持 FP4。三項關鍵技術突破讓 DeepSeek-V4 能在當前各種廠商的主流 AI 芯片上穩定運行,不再受限于支持 FP4 和大顯存的少數高端 AI 加速卡。
Part.01
多芯版 DeepSeek V4 的獲取與部署
FlagOS 技術棧為用戶提供了“開箱即用”的多芯版 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。依托 FlagOS 的統一算子庫 FlagGems、統一編譯器 FlagTree 和訓推框架 FlagScale,海光、沐曦、華為、摩爾線程(FP8)、昆侖芯、平頭哥、天數、英偉達(FP8)、清微等9款芯片已經完成 DeepSeek-V4 系列模型的跨芯適配及驗證。
用戶在多芯片上部署 DeepSeek-V4 時,通常會先遇到幾大挑戰:算子缺失或不匹配,分布式部署多卡多節點配置復雜,模型格式與精度適配復雜。DeepSeek-V4 的原始權重多為量化格式(如 FP8),而各芯片對低精度數據類型的支持方式不一,權重轉換和適配過程繁瑣且容易出錯。為解決上述性能與部署難題,FlagOS 提供了專門的適配倉庫。
- 一鍵啟用高性能算子庫:通過設置環境變量 USE_FLAGGEMS=1,可自動切換至 FlagGems 為 DeepSeek-V4 深度優化的算子實現,無需手動逐算子替換,大幅提升多款芯片上的開箱可用性。
- 算法優化多卡通信:當模型并行數(MP)大于配置組數(o_groups)時,通過設置 USE_OGROUPS_COMM=1,自動啟用分組投影獨立通信組功能,精準解決 o_groups 張量切分數量限制。該倉庫還提供了單機8卡、雙機16卡的完整運行腳本(run_mp8.sh、run_node_0.sh 等),開箱即用。
- 自動化權重轉換工具:內置純 PyTorch 實現的 convert_weight.py 腳本,能夠直接將 FP8/FP4 量化權重可靠地反量化為 BF16 格式,解決權重遷移到各種國產芯片上的兼容性問題。
- 量化加速功能:為 MoE 專家引入 INT8 逐通道對稱量化,支持 W8A8 推理,能夠進一步降低機器資源需求,提升性能與效率,并同時提供對應的量化配置和參數轉換腳本方便用戶使用。
GitHub倉庫地址:https://github.com/flagos-ai/DeepSeek-V4-FlagOS
方式一:FlagOS 安裝部署
訪問官方倉地址 https://github.com/flagos-ai/FlagGems,安裝 FlagOS 算子庫 。
# Install base dependencies
pip install -r requirements.txt
pip install flag-gems==5.0.2
訪問倉庫 https://github.com/flagos-ai/flagtree,安裝FlagOS 編譯器。
# 安裝命令以英偉達平臺為例:
python3 -m pip uninstall -y triton
python3 -m pip install flagtree===0.5.0 --index-url=https://resource.flagos.net/repository/flagos-pypi-hosted/simple
使用 DeepSeek-V4-FlagOS 代碼倉庫進行部署
官方倉庫:https://github.com/flagos-ai/DeepSeek-V4-FlagOS
單機(8卡):可使用如下命令,或者直接運行bash run_mp8.sh
export USE_FLAGGEMS=1 #開啟加速
torchrun --nproc-per-node 8 generate.py --max-new-tokens 64 --ckpt-path /path/to/model_bf16_mp8 --config config_from_bf16.json --input-file prompt.txt
雙機(16卡)
可使用如下命令,或者直接在Node 0上運行bash run_node_0.sh
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1
br
torchrun --nnodes=2 --nproc_per_node=8 --node_rank=0 --master_addr=--master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
對于 Node 1 情況,可使用如下命令,或者直接在 Node 1上運行 bash run_node_1.sh
export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=1
export USE_FLAGGEMS=1
export USE_OGROUPS_COMM=1
br
torchrun --nnodes=2 --nproc_per_node=8 --node_rank=1 --master_addr=--master_port=29500 generate.py --ckpt-path /path/to/model_bf16_mp16 --config config_from_bf16.json --input-file prompt.txt --max-new-tokens 64
方式二:直接下載模型鏡像
用戶可以直接拉取在 FlagRelease 上發布的遷移后的模型文件、代碼和鏡像。以下是遷移適配后的幾種 AI 芯片的模型版本,開箱即用、無需遷移。
魔搭平臺
- 清微版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
- 沐曦版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-metax-FlagOS
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
- 摩爾線程版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOS
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
- 海光版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOS
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
- 平頭哥真武版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
- 昆侖芯版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
- 華為昇騰版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOS
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-ascend-FlagOS
- 天數智芯版
- https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
HuggingFace平臺
- 清微版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-tsingmicro-FlagOS
- 沐曦版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-metax-FlagOS
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS
- 摩爾線程版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-mthreads-FlagOS
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-mthreads-FlagOS
- 海光版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-hygon-FlagOS
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-hygon-FlagOS
- 平頭哥真武版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-zhenwu-FlagOS
- 昆侖芯版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-kunlunxin-FlagOS
- 華為昇騰版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Pro-ascend-FlagOS
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-ascend-FlagOS
- 天數智芯版
- https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-iluvatar-FlagOS
Part.02
三大技術突破,讓 DeepSeek 實現“多芯極速適配”
突破一:FlagGems 提供支持多元芯片的全算子替換方案,解決跨芯適配首要難題
在對 DeepSeek V4 系列模型的多芯適配過程中,FlagGems 實現了推理鏈路中全部算子的替代。這意味著什么?
- 徹底脫離 CUDA 算子依賴:DeepSeek V4 的 MoE 專家調度、Attention 計算、RMSNorm、TopK 路由等全部核心計算模塊,均由 FlagGems 基于 Triton/Triton-TLE語言重新實現,不調用任何 cuDNN/cuBLAS 等 NVIDIA 私有庫。
- 無需芯片廠商逐一適配:傳統模式下,每款新模型上線,芯片廠商需要投入工程團隊做算子適配。現在通過 FlagGems + FlagTree 編譯器的組合,新模型的算子可以直接編譯到多款芯片后端,芯片廠商不需要做任何額外工作。
- 新算子即時可用:DeepSeek V4 模型引入的新計算模式(如 o-group 相關的分組路由機制),FlagGems 已經實現了對應的新算子,并通過 FlagTree 編譯器統一編譯到所有支持的芯片后端。
FlagGems 作為全球最大的 Triton 單一算子庫,已擁有超過400 個大模型常用算子,并已正式進入 PyTorch 基金會生態合作項目。在 40 個主流模型上,推理任務算子覆蓋度達到 90%~100%,完整支持 DeepSeek V4 的全部計算需求。
突破二:為o-group采用獨立并行策略,解除張量并行最多單機8卡限制
DeepSeek V4 為了進一步降低計算開銷采用了分組輸出投影技術(Grouped Output Projection),配置為o_group=8,這導致在傳統的張量并行時候,最多切8份。而當前一些主流國產芯片的單卡顯存為 32GB 或 64GB,尤其在BF16格式情況下,需要張量并行大于8份才能放的下。為了解除這個限制,FlagOS 專門針對 o_groups 進行了單獨張量并行策略設計和實現,確保 o_goups 切分不超過 8 份的前提下,能夠讓模型其他部分還采用經典的張量并行策略,并且實現超過 8 份的切分。通過不同的張量并行策略組合,能夠實現多于 8 臺設備的張量并行運行。
FlagOS 對 o_group 張量并行的技術改動集中在以下方面。
- 獨立的并行策略:獨立于已有的張量并行通信組之外,為 o-group 單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過 8 的情況下,o-group 的張量并行在 8 以內。
- 參數轉換調整:對 o_group 相關的參數,也進行了對應單獨的張量并行切分處理,以確保在新的獨立張量并行策略下,也能夠被正確加載。
- 覆蓋面擴展:這一優化能夠將 DeepSeek V4 在單獨采用張量并行策略下,將可運行芯片范圍從“僅限單機 80GB以上顯存的個別高端卡” 擴展到“多機64GB/32GB的更多主流國產芯片”,例如海光、沐曦、天數智芯等廠商的主力產品線。
突破三:從“FP4+FP8混合精度” 到 BF16的精度轉換,打通主流芯片的計算路徑
DeepSeek V4 模型發布時,首次采用 FP4+FP8混合精度,該精度只有在 Blackwell 及之后的英偉達最新硬件上才有支持,但當前所有國內非英偉達 AI 芯片都未能支持,只有摩爾線程原生支持了 FP8,其余依然以 BF16 為主。
FlagOS 完成了從 FP4 到 BF16 的完整精度轉換。
- 權重反量化:將 FP4 量化權重轉換為 BF16 格式。這不是簡單的類型轉換,而是需要根據 DeepSeek 的量化方案進行逆量化計算,確保數值精度。
- 計算路徑重建:FP4 和 BF16 在底層計算上有本質差,FP4 的動態范圍更窄,累加精度、溢出處理策略均不同。FlagOS 對推理鏈路中的 GEMM、Attention、MoE 路由等關鍵計算節點逐一適配了 BF16 路徑。
- 精度對齊驗證:經過標準評測集驗證,BF16 版本與 FP4 原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。
本次,FlagOS推出了FP8和BF16兩種適配版本,讓 DeepSeek V4 不局限在最新 NVIDIA 卡上,也能部署在 FP8 及 BF16 生態的其他芯片上。
Part.03
FlagGems開源新算子全面支持DeepSeek-V4 系列模型
本次新發布的 DeepSeek-V4 模型共有大約 67 個算子,FlagGems已全量支持。新支持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5個新算子,實現了對 DeepSeek-V4 的全面支持,也為跨芯適配打下重要基礎。
FlagGems高性能算子庫的下載使用
GitCode:https://gitcode.com/flagos-ai/FlagGems/tags/v5.0.2
Gitee: https://gitee.com/flagos-ai/FlagGems/tree/v5.0.2
GitHub:https://github.com/flagos-ai/FlagGems/tree/v5.0.2
為了支持更多 AI 芯片的使用,FlagOS 對 DeepSeek-V4 模型中使用的新算子使用 Triton 語言進行重新實現,基于 FlagTree 統一編譯器,性能全部超過原生性能。(以下數據是針對DeepSeek-V4-Flash的測試)
![]()
C++ Wrapper 技術是 FlagOS 社區專門為提升基于 Triton 語言的算子內核調用效率而打造的技術。目前已經支持了該技術的芯片包括華為昇騰、寒武紀、摩爾線程、平頭哥真武、及英偉達等。使用了 C++ Wrapper 技術,在普通的 Transformers 框架下,可以顯著提升使用了 Triton 算子的模型的端到端效率,實現跨芯普適、和高效推理的雙重目標。通過端到端效果評測(NV H20,DeepSeek-V4-Flash FP8),「C++ Wrapper + Triton」 比 TileLang 快 12.24%,比 Python Wrapper 版快 40.39%。
![]()
Part.04
開發者極致體驗:“發布即多芯”+ “極簡部署”
1、核心能力與原版本對齊
經 GPQA_Diamond、AIME等權威評測集驗證,FlagOS 適配后的 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,與 CUDA 原版本對齊,可放心應用于金融、教育、政企服務、代碼開發等場景,無需擔心適配導致業務效果折損。
DeepSeek-V4-Pro 1.6T 萬億參數模型已經在摩爾線程、海光、沐曦、華為昇騰四款國產芯片完成了基于FlagOS技術棧的適配,并通過了初驗。考慮到國產芯片當前的精度支持和顯存大小,我們推出了int8的適配版本,更方便用戶的實際部署使用。
![]()
2、極簡部署:開箱即用,底層優化無感知
FlagOS 將核心算子庫、編譯器等技術組件前置內置到 DeepSeek-V4代碼框架中,開發者加載模型時,底層優化代碼自動生效,無需手動添加任何 FlagOS 初始化代碼。同時,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-FlagOS 模型版本,標準化 Docker 鏡像 + 一鍵加速命令,解決了開發者最頭疼的環境配置、效果對齊、性能優化等問題。
Part.05
FlagOS 2.0 技術底座:從大模型到智能體時代的全棧升級
DeepSeek-V4 系列模型的三重突破,依托的是 FlagOS 2.0 統一多芯片系統軟件棧的全鏈路能力。從算子層、編譯層、框架層到工具層,全鏈路為大模型跨芯適配提供技術支撐,將原本數周的適配周期縮短至數天,真正實現極速落地。
![]()
1、高性能算子庫 FlagGems:核心算子深度適配,釋放硬件算力
FlagGems 作為 FlagOS 核心的高性能通用大模型算子庫,基于 Triton 語言實現,針對 DeepSeek-V4推理鏈路的核心算子進行了深度適配與優化,包括 MoE 專家調度、Attention 計算、RMSNorm 等關鍵計算模塊,同時原生支持 NVIDIA、摩爾線程、沐曦、清微智能、天數等接近 20 家 AI 芯片。
2、統一 AI 編譯器 FlagTree:一次編寫,多芯編譯
FlagTree 是 FlagOS 面向多 AI 芯片后端的統一編譯器,基于 Triton 深度定制,可將 DeepSeek-V4的核心算子編譯為英偉達、摩爾線程等十多種不同 AI 芯片后端可識別的指令,徹底解決不同芯片編譯器生態割裂的問題,大幅降低算子跨芯片適配的開發成本。
3、模型跨芯遷移發布工具 FlagRelease:半自動實現模型跨芯遷移與版本發布
依托 FlagOS 全棧技術能力,FlagRelease 已完成 DeepSeek-V4在多種芯片上的模型遷移、精度對齊與版本發布,覆蓋 HuggingFace、魔搭等開源社區平臺。開發者可直接下載使用,無需自行遷移。截至本文發布,FlagRelease 已發布覆蓋 10+ 家芯片廠商、12+ 款硬件、70+ 個開源模型實例的跨芯適配版本。
4、統一多芯片接入插件 vLLM-plugin-FL:無縫兼容原生使用習慣
vLLM-plugin-FL 是 FlagOS 為 vLLM 推理服務框架打造的專屬插件,基于 FlagOS 統一多芯片后端開發,在完全不改變 vLLM 原生接口與用戶使用習慣的前提下,實現多芯片推理部署。目前 vLLM-plugin-FL 已經支持了清微、摩爾線程、海光、沐曦、平頭哥真武、天數智芯、昆侖芯、華為、英偉達等多家芯片。
Part.06
開源共建:FlagOS 持續做開發者的“跨芯適配后盾”
當下,"異構算力協同、大模型普惠落地"已成為全球開源開發者社區的核心熱點,打破硬件生態隔離、讓大模型在不同算力平臺高效低成本運行,是無數開發者的核心訴求。FlagOS 從誕生之初就將開源開放、眾智共建刻入技術基因,始終以開發者為中心,通過全棧開源的統一系統軟件棧,把復雜的"M×N"硬件適配問題降維為"M+N",做每一位開發者最可靠的跨芯適配后盾。
全棧開源無保留,把技術主動權交給開發者
目前,FlagOS 已形成完整的開源技術體系,所有核心組件均已開源在 GitHub,同時開放了數十款最新的主流基礎大模型、十多款 AI 芯片的適配方案與最佳實踐,開發者可自由獲取、深度定制:
- 四大核心技術庫: FlagGems 通用大模型算子庫、FlagTree 統一 AI 編譯器、FlagScale 訓練推理并行框架、FlagCX 統一通信庫,覆蓋算子開發、編譯優化、并行計算、跨芯片通信全鏈路;
- 三大開源工具平臺: FlagRelease 大模型自動遷移發版平臺、KernelGen 算子自動生成工具、FlagPerf 多芯片評測工具,提供從模型適配、性能評測到工程落地的一站式工具鏈;
- 全場景擴展生態: vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架增強組件,以及 FlagOS-Robo 具身智能工具包,覆蓋大模型訓練、推理、應用全場景。
多路徑參與共建,全層級開發者均可入局
我們為不同技術方向、不同經驗層級的開發者,設計了低門檻、多路徑的共建方式,無論你是 AI 開發新手,還是深耕系統軟件的資深專家,都能在 FlagOS 社區找到自己的位置。
- 新手友好型參與: 可在對應倉庫提交 Issue 反饋 bug、優化建議,或是補充完善文檔、撰寫入門教程與最佳實踐,也可參與社區技術交流、分享使用經驗,零門檻開啟開源之旅;(社區文檔參考https://docs.flagos.io/en/latest/)
- 深度技術共建: 開發者可直接參與 FlagGems 算子開發與優化(新增算子 / 性能調優 / 新芯片后端支持)、KernelGen 算子生成流程增強、FlagTree 編譯器后端擴展等核心模塊,與社區核心開發者一起推動技術演進。
- 生態工具貢獻: 開發者可基于 FlagOS Skills 開發面向國產芯片的 AI Agent 專業技能,幫助更多開發者通過自然語言完成芯片適配、模型部署等操作。
文章來源:智源FlagOpen
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.