<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,DeepSeek 悶聲開源,觸摸 GPU 性能上限

      0
      分享至

      DeepSeek 又悄悄開源了一個項目,一套直接榨干 H100/H200/B200 的 GPU Kernel 庫,名字叫 TileKernels


      它和之前放出來的 FlashMLA、DeepGEMM、DeepEP 是一個級別的「內功心法」,只不過這次換了TileLang來寫

      簡介

      TileKernels 是 DeepSeek 開源的一組專門為 LLM 訓練和推理優化的 GPU Kernel 集合

      用 DeepSeek 官方自己的話說:

      ? Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios.

      翻譯一下就是:這些 kernel 基本已經摸到硬件性能上限了,無論是算力還是顯存帶寬,而且其中相當一部分已經在 DeepSeek 內部的訓練和推理里用過了

      換句話說,這是從 DeepSeek 自家流水線里拆出來直接開源的真家伙,不是實驗室玩具

      核心功能一覽:

      • Gating — MoE 路由里的 Top-k 專家選擇和打分

      • MoE Routing — Token 到 Expert 的映射、融合擴展/歸約、權重歸一化

      • Quantization — Per-token / per-block / per-channel 的 FP8 / FP4 / E5M6 量化,還把 SwiGLU 和量化融合在一起做

      • Transpose — 批量轉置

      • Engram — 融合了 RMSNorm、前向/反向傳播、權重梯度歸約的 Engram 門控 kernel

      • Manifold HyperConnection (mHC) — 包含 Sinkhorn 歸一化、混合拆分/應用的超連接 kernel

      • Modeling — 用 torch.autograd.Function 把底層 kernel 包成可訓練層(Engram Gate、mHC Pipeline)

      看完這個列表我的第一反應是:這不就是 DeepSeek V3 / R1 那套 MoE + FP8 訓練體系的核心零件嗎?

      • MoE 路由、Gating、Token-to-Expert 映射 → V3 的 MoE 架構

      • FP8 / FP4 / E5M6 量化 + 融合 SwiGLU → V3 的低精度訓練和 V3.2 的量化推理

      • Engram、Manifold HyperConnection → 這倆名字就很"研究院",大概率和后續模型架構相關

      關于 TileLang:為啥不直接寫 CUDA

      這里插播一下,TileKernels 不是用傳統 CUDA 或 Triton 寫的,而是用的 TileLangtile-ai/tilelang

      TileLang 是一門基于 TVM 的領域特定語言(DSL),專門用來寫高性能 GPU Kernel


      它的定位和 Triton 有點像,但更"Pythonic",而且官方號稱:

      • 80 行 Python 代碼就能寫出 H100 上和 FlashMLA 打平的 MLA Decoding

      • 支持 H100 (Auto TMA/WGMMA)、A100、MI300X、甚至華為昇騰和 Apple Metal

      • 自動優化,寫得省心,跑得還快

      所以 DeepSeek 選 TileLang 的意圖就很明顯了:用更簡潔的方式寫出性能逼近手工 CUDA 的 kernel。對于想學底層優化、又被 CUDA 勸退過的人,這套開源組合(TileLang + TileKernels)簡直是神級教材。

      安裝

      環境要求就一句話:你得有張 H100 級別的卡

      • Python 3.10+

      • PyTorch 2.10+

      • TileLang 0.1.9+

      • NVIDIA SM90 或 SM100 架構 GPU (也就是 H100 / H200 / B200 這個檔位)

      • CUDA Toolkit 13.1+

      裝法有兩種:

      # 本地開發版(可改代碼)
      pip install -e ".[dev]"


      # 直接裝發行版
      pip install tile-kernels

      這里就勸退一大波人了——SM90 起步,4090/A100 都不在支持列表里

      測試與壓測

      官方給了 pytest 跑法,可以只驗正確性,也可以跑 benchmark:

      # 單文件:只驗正確性,4 個 worker 并行
      pytest tests/transpose/test_transpose.py -n 4

      # 單文件:正確性 + 性能 benchmark
      pytest tests/transpose/test_transpose.py --run-benchmark

      # 全量壓測(開 FULL_TEST 環境變量,跑 2 輪)
      TK_FULL_TEST=1 pytest -n 4 --count 2

      對做底層優化、學 kernel 的同學來說,這套測試腳手架本身就值得抄一份——正確性測試 + benchmark 一條龍,還帶壓力測試模式,工程完成度很高

      目錄結構

      tile_kernels/
      ├── moe/ # MoE 路由相關 kernel
      ├── quant/ # FP8/FP4/E5M6 量化
      ├── transpose/ # 批量轉置
      ├── engram/ # Engram 門控 kernel
      ├── mhc/ # Manifold HyperConnection kernel
      ├── modeling/ # 高層 autograd 封裝(Engram、mHC)
      ├── torch/ # PyTorch 參考實現(對標用)
      └── testing/ # 測試和 benchmark 工具

      最值得說的是 torch/ 這個目錄——每個 kernel 都配了一份純 PyTorch 的參考實現

      這意味著你不僅能看到高性能版本,還能對著慢速但易懂的 PyTorch 版對照學習

      這對想啃底層優化的同學來說,簡直就是"雙語對照教材"

      我怎么看這個項目

      先說優點,相當直接:

      1. 真家伙,不是 PPT 。DeepSeek 自己內部訓練用過的 kernel,性能逼近硬件上限

      2. 雙語對照 。每個 kernel 都配 PyTorch 參考實現,學習成本大幅降低

      3. 工程質量高 。測試、benchmark、壓測腳手架全都配齊,MIT 協議隨便用

      4. 覆蓋面精準 。MoE + FP8 量化這兩塊,恰好是當前大模型訓練最吃性能的地方

      再說局限,也得真誠:

      1. 硬件門檻高 。SM90 起步,家用卡基本別想,連 A100 都不支持。

      2. 文檔幾乎為零 。官方自己也承認:"they do not represent best practices and we are actively working on improving the code quality and documentation." 目前想吃透,只能啃代碼。

      3. 依賴 TileLang 。這是一個相對新的 DSL,社區規模還沒 Triton 那么大,生態有待培養

      4. 面向研究者 / 框架開發者 。如果你只是調調 API、煉煉小模型,這套東西你用不著;它是給寫訓練框架、寫推理引擎的人看的

      總結

      DeepSeek 這次開源的 TileKernels,氣質和之前開源周放出來的 FlashMLA、DeepGEMM、DeepEP 一脈相承——不玩大新聞,就是把自己實打實用過的、能摸到硬件天花板的底層代碼直接公開

      適合誰看:

      • 想深入理解 MoE 訓練底層 kernel 怎么寫的同學

      • 在做推理引擎、訓練框架、想榨干 H100 性能的工程師

      • 對 FP8 / FP4 低精度訓練感興趣的研究者

      • 想系統學習 TileLang 這門新 DSL 的朋友(配合 TileLang 官方的 Puzzle 學習路徑更香)

      最后一句感慨:現在這個時代,開源一個模型權重已經算不上什么大新聞了,真正能體現一家公司技術深度的,是愿不愿意把底層這些"內功心法"也放出來

      DeepSeek 在這件事上,誠意一直很足

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      12歲男孩確診癌癥晚期!父母透露孩子常把飲料當開水喝 油炸、腌制零食吃起來毫無節制

      12歲男孩確診癌癥晚期!父母透露孩子常把飲料當開水喝 油炸、腌制零食吃起來毫無節制

      閃電新聞
      2026-05-12 18:27:14
      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機襲烏

      猛料!美36位精神病專家呼吁立即罷免特朗普;俄200架無人機襲烏

      史政先鋒
      2026-05-12 20:17:03
      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      羅說NBA
      2026-05-12 21:43:19
      騎士終于玩明白了?

      騎士終于玩明白了?

      靜易墨
      2026-05-12 22:06:51
      打起來了!美軍不宣而戰,以色列發起斬首行動,普京:伊朗或上當

      打起來了!美軍不宣而戰,以色列發起斬首行動,普京:伊朗或上當

      深析古今
      2026-05-13 00:00:32
      女子結婚不到一周,卻因摩洛哥新娘視頻導致離婚

      女子結婚不到一周,卻因摩洛哥新娘視頻導致離婚

      映射生活的身影
      2026-05-12 12:13:28
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      特斯拉宣布停產,震驚全網!

      特斯拉宣布停產,震驚全網!

      財經三分鐘pro
      2026-05-12 15:10:58
      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      環球網資訊
      2026-05-11 14:21:45
      4.5億歐元!拉莫斯將收購塞維利亞:變身老板 只差最后一步

      4.5億歐元!拉莫斯將收購塞維利亞:變身老板 只差最后一步

      葉青足球世界
      2026-05-12 20:26:01
      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      小叨娛樂
      2026-05-12 13:39:10
      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      芹姐說生活
      2026-05-12 15:38:02
      俄羅斯副總理諾瓦克:俄羅斯將2026年經濟增長預測從1.3%下調至0.4%

      俄羅斯副總理諾瓦克:俄羅斯將2026年經濟增長預測從1.3%下調至0.4%

      財聯社
      2026-05-12 05:06:20
      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      劉三姐“全裸演出”引爭議,張藝謀惹怒全網

      李東陽朋友圈
      2026-05-10 12:12:45
      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      呼呼歷史論
      2026-05-11 00:22:15
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      夜深愛雜談
      2026-05-12 19:45:46
      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      界面新聞
      2026-05-12 21:23:09
      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      兩次嫁給梁靖崑,退圈安心照顧兩個兒子,如今丈夫成為大學教授

      往史過眼云煙
      2026-05-12 22:04:20
      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      一個有靈魂的作者
      2026-05-12 21:21:19
      2026-05-13 04:04:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      時尚
      本地
      房產
      手機
      旅游

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      手機要聞

      Android推新功能“暫停點” 助用戶擺脫刷手機上癮

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文国产不卡一区二区| 精品99在线黑丝袜| caoporn国产| 天天操天天槡| 好想被狂躁无码视频在线字幕| 亚洲国产成人精品无码区99| 黑人一区| 亚洲欧美闷骚少妇影院| 国产精品99久久久精品无码| 和岳每晚弄的高潮嗷嗷叫视频| 久久精品国产99国产精品免费看| 久久99久国产精品66| 久久亚洲精品中文字幕波多野结衣| av大帝| L日韩欧美看国产日韩欧美| 欲色影视天天一区二区色香欲| 亚洲国产午夜精华无码福利| 四虎国产精品免费久久| 亚洲av无码成人网站www| 黑人大荫蒂高潮视频| 亚洲wwww| 国产九九在线| 波多野结衣中文一区二区三区| 国产做爰xxxⅹ久久久| 国产成人亚洲综合图区| 中文字幕在线天堂| 一区二区视频网站| 国产剧情麻豆一区二区三区亚洲 | 97久久综合精品久久久综合| 亚洲日韩国产二区无码| 久爱www人成免费网站| 亚洲三区自拍| 九九久久国产精品大片| 污视频网站免费在线观看| 男人的天堂精品国产一区| 好吊色在线最新视频| 扒开女人内裤猛进猛出免费视频| 妺妺窝人体色www在线直播| 亚洲中文波霸中文字幕| 国产精品免费看久久久| 热99re久久精品|