<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      8大國產AI芯片火速適配DeepSeek-V4!華為百度阿里全吻上來了

      0
      分享至


      芯東西(公眾號:aichip001)
      作者 程茜
      編輯 Panken

      芯東西4月24日報道,剛剛,華為昇騰直播解讀DeepSeek-V4技術,并披露昇騰950性能表現。截至發稿,華為昇騰、寒武紀、海光信息、摩爾線程、沐曦股份、昆侖芯、平頭哥真武、天數智芯8家國產AI芯片品牌和英偉達均已適配DeepSeek-V4。


      ▲昇騰950性能表現(圖源:昇騰CANN直播截圖)

      此外,華為云、騰訊云、PPIO、用友、聯想智能云、天翼云息壤、云工場科技等云服務商,寧暢、長江計算、百信、昆侖技術等服務器企業,鄭州人工智能計算中心等算力服務提供商都第一時間宣布適配或上架DeepSeek-V4模型服務。網易智企、萬格智元、極光、網易有道旗下Agent產品宣布接入DeepSeek-V4。


      ▲截至發稿,官宣支持DeepSeek模型的AI芯片企業(芯東西制表)

      根據DeepSeek-V4技術報告,其并細粒度專家并行(EP)方案同時在英偉達GPU和華為昇騰NPU上完成驗證,相比非融合基線在通用推理場景中實現1.50-1.73倍加速,在對延遲敏感的強化學習推演和高速Agent服務場景中最高可達1.96倍。


      ▲DeepSeek-V4技術報告

      據DeepSeek公眾號披露,受限于高端算力,目前DeepSeek-V4-Pro的服務吞吐十分有限,預計下半年昇騰950超節點批量上市后,其價格會大幅下調


      ▲DeepSeek官方文章

      DeepSeek-V4模型采用FP4+FP8混合精度訓練,在脫離英偉達生態背景下,其大概率是基于深度定制的內部格式。網友猜測,該模型依托華為昇騰950超節點集群完成訓練,從側面印證華為底層算力架構與低精度混合訓練技術,已具備支撐萬億級大模型的能力。


      ▲DeepSeek在Hugging Face上的模型卡

      智源研究院眾智FlagOS社區在8款AI芯片上適配DeepSeek-V4時,實現了三大技術突破:支持8種以上芯片的全算子替代、解除張量并行最多單機8卡限制、支持從“FP4+FP8混合精度”到BF16的精度轉換。

      截至今日收盤,AI算力芯片板塊股價大漲,在A股,海光信息以8.2%的增幅領漲、寒武紀增幅為2.23%,在港股,天數智芯的漲幅達到9.54%。


      ▲AI芯片板塊股價變化

      一、華為昇騰首發適配,支撐DeepSeek-V4毫秒級推理、超高并發推理

      首發適配DeepSeek-V4后,華為昇騰今日16點開啟了“基于CANN的訓推優化實踐”直播。在直播中,華為相關研發人員提到其基于CANN進行了全鏈路優化:


      1、昇騰950超節點支撐DeepSeek V4毫秒級推理,背后有三大黑科技

      昇騰950超節點實現DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低時延推理。這得益于昇騰950代際底層架構的三大升級:

      首先是原生精度加速,其全面支持FP8、MXFP8、MXFP4等數據格式,在保證模型精度的同時,可實現內存占用降低50%+,計算能力翻倍。

      其次是稀疏訪存優化,針對MoE模型的離散訪存特征,他們通過大幅提升硬件級稀疏訪存能力,解決了專家路由過程中的帶寬瓶頸。

      最后是Vector與Cube共享Memory,其采用創新存儲架構設計,實現了向量單元(Vector)與矩陣單元(Cube)的Memory共享,消除大量片上數據搬運開銷,降低了端到端推理時延。

      根據華為官方信息,昇騰950超節點還從基礎器件、協議算法到光電互聯,實現了系統級突破,支持用戶以64卡為步長按需擴展,可實現8192卡無收斂全互聯,提供業界最大Scale Up能力。

      華為與DeepSeek聯合定義了昇騰超節點架構,專門解決大模型超長上下文推理的時延高、吞吐低、成本貴三大痛點,同時能做到萬卡級大規模擴展,并靠NAND SSU做低成本大容量KV Cache,支撐4K~1M全長度長序列應用。

      2、昇騰同步開源DeepSeek-V4復雜稀疏注意力+mHC續訓實現

      華為昇騰通過TorchTitan-NPU插件與Autofuse自動融合技術協同,實測模型吞吐量最高達到1100 tokens/p/s,實現模型訓練性能開箱即優。

      這得益于以下三大維度的系統級優化:

      極簡分布式并行架構: 突破傳統復雜的混合并行設計,采用超節點親和的大EP+純FSDP的極簡并行切分策略。


      ▲并行策略

      原生“入圖”與自動融合:TorchTitan-NPU深度適配torch.compile機制,使能訓練入圖技術,依托Inductor+AutoFuse(基于Ascend C的Codegen后端)實現端到端的Vector算子自動融合,為整網帶來高達31.8%的開箱即用性能收益。

      稀疏Attention高效融合算子: 針對稀疏注意力等復雜結構,開發SparseAttnSharedkv、LightningIndexer 等多個高效的NPU融合算子,釋放芯片稀疏算力。

      3、推昇騰PyPTO編程范式,讓大模型算子開發輕量化

      此外,昇騰CANN還推出PyPTO編程范式,解決自定義算子開發門檻高、周期長的痛點。該范式提供完善的Python API,使開發者能夠以符合Python習慣的語法進行算子開發。

      PyPTO編程范式有四大特點:

      首先是高效的算子開發,PyPTO依托內置高級編譯優化,可自動完成流水編排與內存管理,使開發者無需關注硬件細節而專注于計算流表達,實現DeepSeek-V4新一代模型算子開發周期可縮短至天級

      其次是高性能Kernel自動生成,針對Attention、Compressor、mHC等復雜邏輯算子,PyPTO可自動生成高度優化的Kernel,避免開發者手動處理繁瑣的同步與數據搬運,縮短從算法驗證到部署落地的開發周期。


      ▲融合Kernel

      第三是PTO ISA虛擬指令集跨代兼容,PyPTO基于PTO虛擬指令集(PTO ISA),實現了對硬件新特性的“零感適配”,針對不同代際芯片統一指令接口,同一套算子代碼可在不同代際芯片上的兼容實現。

      其借助畢昇編譯器的VF(Vector Fusion)自動融合能力,可在micro kernel級別實現更優融合。

      最后是TileLang社區生態,TileLang-Ascend是TileLang針對華為昇騰平臺深度優化的實現,分別對應Tilelang-Ascend的Expert和Developer開發模式,提供AscendC基礎指令和PTO AS兩種對接層次,為各種編程前端語言和編譯器提供多層開放接口。

      DeepSeek-V4模型相關實現已在TileAI開源社區正式發布,后續將持續推進性能優化與功能迭代。

      二、4家國產AI芯片官宣適配DeepSeek-V4

      DeepSeek-V4模型發布后,寒武紀、華為昇騰、海光信息、摩爾線程火速官宣適配,拉開國產AI芯片支持DeepSeek系列模型的大幕。

      1、寒武紀

      寒武紀基于vLLM推理框架完成對DeepSeek最新開源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro適配,適配代碼已開源到GitHub社區。

      2、華為

      華為昇騰超節點全系列產品支持DeepSeek-V4系列模型。基于DeepSeek-V4-Pro模型,在8K輸入場景,昇騰950超節點可實現TPOT約20ms時單卡Decode吞吐4700TPS。DeepSeek-V4-Flash模型,8K長序列輸入場景下可實現TPOT約10ms時單卡Decode吞吐1600TPS(注:上述Benchmark數據均基于Offine推理模式采集,不包含Serving調度和框架負載均衡影響)。

      基于昇騰A3 64卡超節點結合大EP模式部署,DeepSeek-V4-Flash模型,8K/1K輸入輸出場景,基于vLLM推理引擎可實現2000+TPS的單卡Decode吞吐。針對DeepSeek V4-Pro模型,昇騰A3正同步支持推理部署,性能持續優化中。


      3、海光信息

      海光DCU同步完成對DeepSeek-V4的Day0適配,其中,DTK(異構計算平臺)可為DeepSeek-V4提供完整的軟件生態支撐,DAS(人工智能基礎軟件系統)集成超2000個算子,提高DeepSeek-V4微調與推理性能,DAP(人工智能應用平臺)內置知識庫引擎、智能體編排引擎等高階模塊,可將DeepSeek-V4便捷集成到主流AI平臺。

      4、摩爾線程

      摩爾線程聯手智源眾智FlagOS社區,在旗艦級AI訓推一體全功能GPU MTT S5000上,實現對新一代大模型DeepSeek-V4-Flash的Day-0極速適配,并完成全量核心算子的深度優化與部署支持。

      DeepSeek-V4模型首次采用“FP4+FP8”混合精度策略,當前國內主流AI芯片仍普遍以BF16為主。摩爾線程具有原生FP8支持優勢,能夠高效承載DeepSeek-V4的精度設計。摩爾線程與FlagOS社區正持續推進擁有1.6T旗艦模型(1.86萬億參數)的DeepSeek-V4-Pro在MTT S5000上的遷移適配工作。

      三、8大芯片全量適配,拆解三大黑科技

      智源研究院眾智FlagOS社區宣布將對DeepSeek-V4模型進行全量適配,目前其已完成DeepSeek-V4-Flash在8款以上AI芯片上的全量適配與推理部署,包括海光、沐曦、華為昇騰、摩爾線程(FP8)、昆侖芯、平頭哥真武、天數、英偉達(FP8)等芯片,正在推進DeepSeek-V4-Pro模型在多個芯片的遷移適配。

      這背后,智源研究院實現了三大技術突破:

      1、支持8種以上芯片全算子替代

      本次DeepSeek-V4-Flash的適配,全球最大的Triton單一算子庫FlagGems實現了模型推理鏈路中全部算子的替代。在40個主流模型上,推理任務算子覆蓋度達到90%~100%,能完整支持DeepSeek-V4-Flash的全部計算需求。這意味著徹底脫離CUDA算子依賴、無需芯片廠商逐一適配、新算子即時可用。

      2、獨立并行策略,解除張量并行最多單機8卡限制

      FlagOS團隊對o_group張量并行改動有:

      (1)獨立的并行策略:獨立于已有的張量并行通信組之外,為o-group單獨構建所需要的張量并行通信組,確保其他模型結構張量并行切分超過8的情況下,o-group的張量并行在8以內。

      (2)參數轉換調整:對o_group相關的參數進行對應單獨的張量并行切分處理。

      (3)覆蓋面擴展:這一優化能夠將DeepSeek-V4-Flash在單獨采用張量并行策略下,把可運行芯片范圍從”僅限單機80GB以上顯存的個別高端卡“擴展到”多機64GB/32GB的更多主流國產芯片”。

      3、支持“FP4+FP8混合精度”到BF16的精度轉換

      DeepSeek-V4模型采用FP4+FP8混合精度訓練,但當前所有國內非英偉達AI芯片都未能支持FP4+FP8混合精度,只有摩爾線程原生支持了FP8,其余依然以BF16為主。

      FlagOS完成了從FP4到BF16的完整精度轉換,將FP4量化權重轉換為BF16格式;FlagOS對推理鏈路中的GEMM、Attention、MoE路由等關鍵計算節點逐一適配了BF16路徑;經過標準評測集驗證,BF16版本與FP4原生版本在核心能力指標上保持對齊,確保精度轉換不引入業務層面的效果損失。

      FlagOS推出了FP8和BF16兩種適配版本,讓DeepSeek-V4-Flash不再是“只有最新英偉達卡才能跑”的模型,而是真正可以部署在FP8及BF16生態的主流國產芯片上。

      智源研究院公布的數據顯示,經GPQA_Diamond、AIME等評測集驗證,FlagOS適配后的DeepSeek-V4-Flash,在語言理解、復雜推理、代碼生成、數學計算等核心能力上,可與CUDA原生版本對齊


      DeepSeek-V4-Flash安裝部署指引:GitHub:https://github.com/flagos-ai/DeepSeek-V4-FlagOS

      結語:DeepSeek-V4的里程碑時刻,國產頂級大模型+國產高端算力深度綁定

      萬眾期待的“國產大模型之光”DeepSeek-V4正式亮相后,多款國產高端芯片率先完成適配與深度兼容。這也意味著,國產頂級大模型與本土高端算力矩陣實現了全棧深度綁定與協同。

      此次華為等國產芯片廠商與 DeepSeek 強強聯合,在技術協同迭代、規模化產業落地、本土生態共建三大維度,都具有里程碑意義。此舉有望打破英偉達長期主導的壟斷生態,推動國內AI國產軟硬一體、自主可控產業鏈發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      日媒:日本隊26人大名單平均身高1米81,史上首次破1米8大關

      懂球帝
      2026-05-15 15:09:09
      曼聯官方:德里赫特成功接受背部手術,預計下賽季初期回歸;卡里克:卡塞米羅可以出戰,謝什科還沒有完全恢復

      曼聯官方:德里赫特成功接受背部手術,預計下賽季初期回歸;卡里克:卡塞米羅可以出戰,謝什科還沒有完全恢復

      MUREDS
      2026-05-15 23:10:11
      韓媒:韓國官員稱霍爾木茲海峽船只襲擊事件幾乎可確定為伊朗所為

      韓媒:韓國官員稱霍爾木茲海峽船只襲擊事件幾乎可確定為伊朗所為

      璀璨幻行者
      2026-05-15 16:28:21
      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      山東榴蓮僅退款后續來了:女子被行政拘留7日,不道歉商家會起訴

      映射生活的身影
      2026-05-15 15:43:54
      河南男子狂犬病發作去世,生前已打3針疫苗,為什么人還是走了

      河南男子狂犬病發作去世,生前已打3針疫苗,為什么人還是走了

      39健康網
      2026-05-15 18:30:57
      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      多項研究顯示:性生活頻率過低,男女容易早衰且患癌風險增高!

      燈錦年
      2026-05-05 21:55:51
      金銅銀大幅下挫,現貨白銀跌近6%,紫金礦業跌5%,有色ETF匯添富(159652)跌超4%,是危是機?機構:回歸供需挺價!

      金銅銀大幅下挫,現貨白銀跌近6%,紫金礦業跌5%,有色ETF匯添富(159652)跌超4%,是危是機?機構:回歸供需挺價!

      有連云
      2026-05-15 15:02:42
      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      快科技
      2026-05-15 14:58:18
      成都商超便利店“面包大王”新廠區破土動工,建成后產能將提升2倍

      成都商超便利店“面包大王”新廠區破土動工,建成后產能將提升2倍

      紅星新聞
      2026-05-15 19:29:02
      無緣20分逆轉北京輸在哪?數據一目了然,4主力拖后腿,1人要擔責

      無緣20分逆轉北京輸在哪?數據一目了然,4主力拖后腿,1人要擔責

      后仰大風車
      2026-05-15 22:57:27
      坐在非機動車道喝咖啡?深圳網紅街占道經營引爭議,部門回應

      坐在非機動車道喝咖啡?深圳網紅街占道經營引爭議,部門回應

      南方都市報
      2026-05-14 18:51:01
      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      1952年許世友返鄉,不顧老母親下跪勸阻,掏出槍對準三叔:斃了你

      云端小院
      2026-05-12 06:41:03
      中國有宴會廳,美國也要修,特朗普迫不及待宣布要修園子

      中國有宴會廳,美國也要修,特朗普迫不及待宣布要修園子

      三叔的裝備空間
      2026-05-15 22:43:59
      特朗普專機離開這一幕 中國軍人的“不動”再刷屏

      特朗普專機離開這一幕 中國軍人的“不動”再刷屏

      看看新聞Knews
      2026-05-15 20:44:05
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      一張國宴自拍,炸出多少玻璃心

      一張國宴自拍,炸出多少玻璃心

      梳子姐
      2026-05-15 08:19:35
      華爾街精英利用馬斯克做局,使中國富豪損失百億,還不敢對外公布

      華爾街精英利用馬斯克做局,使中國富豪損失百億,還不敢對外公布

      吳學華看天下
      2024-11-12 19:42:48
      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      阿龍美食記
      2026-05-13 14:06:46
      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      鄭州再迎重磅首店,“必勝漢堡”三店同開切入“一人食”賽道

      大象新聞
      2026-05-15 16:54:40
      要為芯片的暴跌做準備

      要為芯片的暴跌做準備

      半導體行業觀察
      2026-05-15 08:52:08
      2026-05-16 07:52:49
      芯東西 incentive-icons
      芯東西
      智東西AI媒體矩陣品牌。芯東西,芯片產業新媒體。我們是一群追芯人,專注報道AI芯片和半導體產業創新。
      2325文章數 8156關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      特朗普訪問中國43個小時行程密集緊湊 全程回顧

      頭條要聞

      特朗普訪問中國43個小時行程密集緊湊 全程回顧

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      房產
      時尚
      本地
      親子

      《街霸6》春麗新品來了!招牌肉腿完美還原

      房產要聞

      老黃埔熱銷之下,珠江春,為何去化僅3成?

      頂級團隊拍出來的作品不如素人,問題出在哪兒了?

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      孕婦補鈣怕刺激怎么選?液體鈣無添加配方實測,藍帽認證更靠譜

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟悉妇女xxx妇女av| 精品视频一区二区三区中文字幕| 最新无码a∨在线观看| 精品国产av无码一区二区三区| 91精品网站天堂系列在线播放 | 好男人中文资源在线观看| 熟女一区二区三区| 欧美香蕉爽爽人人爽| 欧美天天综合色影久久精品| 一本大道久久香蕉成人网| 免费看黄片一区二区三区| 亚洲欧美日本国产mag| 少妇人妻偷人一区二区| 精品熟女999| 乱人伦中文字幕成人网站在线| 俄罗斯小屁孩和大人啪啪| 午夜大片免费男女爽爽影院| 碰碰免费视频| 成在线人视频免费视频| 亚洲欧美在线综合一区二区三区| www.狠狠| 又粗又硬又黄又爽的免费视频| 亚洲欧美成人一区二区三区| 最新国产乱人伦偷精品免费网站 | 女女女女女裸体处开bbb| 国产三级精品三级在线专区1| 国内精品视频一区二区三区八戒| 国产在线无码视频一区| 久久一区二区中文字幕| 精品乱码一区二区| 中中文字幕亚洲无线码| 欧美一区二区三区欧美日韩亚洲| 天天摸夜夜操| 国产乱码免费卡1卡二卡3| 91在线免费视频| 波多野结衣视频一区二区| 夜夜躁日日躁狠狠久久av| 九九热精品在线视频观看| 亚洲午夜av| 国产jizz中国jizz免费看| 桃花岛亚洲精品tv自拍网站|