<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      國產(chǎn)GPU組了個開源局,把SGLang等核心開發(fā)者都搖來了!

      0
      分享至

      金磊 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      沒有大廠高管站臺,一屋子卻擠滿了開源圈的熟面孔。

      隨便往臺下掃一眼,就能對上好幾個GitHub上的明星ID

      • 有目前大模型推理框架頂流SGLang的核心開發(fā)者BBuf(Xiaoyu Zhang);
      • 有主導(dǎo)下一代算子編程生態(tài)TileLang的維護(hù)者唐正舉
      • 有操刀KVCache解耦與傳輸神器Mooncake的核心貢獻(xiàn)者馬騰
      • 有來自智源人工智能研究院、圍繞Triton/FlagOS死磕AI編譯器的肖航
      • 還有像R0CKSTAR這樣在GitHub上異常活躍的硬核開發(fā)者。



      這場看似是開源圈極客們的面基會,卻著實是有點反差在身上的——

      活動的攢局者,是國產(chǎn)GPU玩家,摩爾線程

      這事確實有點意思。

      因為過去提到國產(chǎn)GPU,外界最容易想到的關(guān)鍵詞,往往還是硬件參數(shù)、顯存容量、算力指標(biāo)、生態(tài)替代、模型能不能跑起來。

      但這場SGLang × MUSA Meetup真正拋出的問題已經(jīng)變了:

      怎么讓國產(chǎn)GPU真正進(jìn)入大模型推理的主流開源工程鏈路?

      說得更直接一點,就是讓SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D分離、分布式通信、CI/CD、upstream PR這些東西,能夠圍著國產(chǎn)GPU一起轉(zhuǎn)起來。

      有一說一,在整體聽下來之后,有一個非常直觀的感受。

      那就是國產(chǎn)GPU的競爭,已經(jīng)不只是芯片參數(shù)之爭,轉(zhuǎn)而開始邁向生態(tài)坐標(biāo)之爭

      為什么這么說?我們繼續(xù)往下看。

      國產(chǎn)GPU開始“擴(kuò)圈”了

      先看這場Meetup本身。

      它的主題很明確:SGLang × MUSA。

      SGLang是當(dāng)下大模型推理serving領(lǐng)域關(guān)注度很高的開源框架,面向LLM和多模態(tài)模型,核心目標(biāo)是低延遲、高吞吐,覆蓋從單卡到大規(guī)模分布式集群的部署場景。

      這類框架之所以重要,是因為今天的大模型落地,早就不是“模型訓(xùn)練好了,放上去跑”這么簡單。

      真正進(jìn)入生產(chǎn)環(huán)境后,系統(tǒng)要處理的是一整套復(fù)雜問題。

      例如prefill和decode怎么拆,KVCache怎么復(fù)用,長上下文怎么省錢,多輪對話怎么降TTFT,大規(guī)模集群怎么調(diào)度,新模型發(fā)布后怎么day-0 support,出了性能gap怎么定位到具體kernel。

      第一個上臺的是SGLang核心開發(fā)者BBuf


      △SGLang核心開發(fā)者BBuf

      這個在GitHub上擁有27k星的開源推理框架,現(xiàn)在已經(jīng)是全球開發(fā)者部署大模型的首選。

      他帶來的SGLang 2026 Q2 Roadmap,每一條都踩在行業(yè)的痛點上:

      • 針對DeepSeek V4的全鏈路優(yōu)化,包括W4A16量化、MegaMoE加速和稀疏注意力支持;
      • jit_kernel全面替代傳統(tǒng)的sgl-kernel,用TVM-FFI把編譯速度提升了數(shù)倍,再也不用等幾個小時的wheel包;
      • Vibe Coding全面落地,用AI agent自動分析profiler、定位性能瓶頸、提交PR,5月前已經(jīng)完成了超過60個優(yōu)化任務(wù);
      • 多模態(tài)能力全面升級,支持LTX2、Wan、混元視頻等最新模型,性能比其他框架最高快5倍。

      最讓人印象深刻的是他展示的一組數(shù)據(jù)。

      SGLang通過P/D分離架構(gòu),在12個H100節(jié)點上跑出了52.3k輸入token/s/node、22.3k輸出token/s/node的成績,比DeepSeek官方API還便宜5倍,這個結(jié)果已經(jīng)被全球10多個團(tuán)隊復(fù)現(xiàn)。

      緊接著上臺的摩爾線程ContributorR0CKSTAR,帶來了全場最硬核的工程實踐分享。


      △摩爾線程工程師R0CKSTAR

      他用一句話總結(jié)了過去半年的工作:

      SGLang on MUSA已經(jīng)完成了從環(huán)境構(gòu)建到CI測試的全鏈路打通。

      這意味著什么?

      現(xiàn)在你只要克隆SGLang的官方倉庫,安裝sgl-kernel和sglang,就能在摩爾線程MTT S5000顯卡上直接運行幾乎所有主流大模型。

      DeepSeek、通義千問3.5、GLM-4.5、FLUX、Wan這些熱門模型,都已經(jīng)完成了深度優(yōu)化。

      他特別提到了MUSA的三層CUDA兼容棧。

      過去適配一個推理框架要改幾千行代碼,現(xiàn)在只要在開頭加一行import torchada,99%的CUDA代碼就能直接運行。這個看似簡單的改動,解決了國產(chǎn)GPU生態(tài)的一大痛點。

      據(jù)了解,截至5月12日,摩爾線程在SGLang主線累計提交47個PR,其中41個已合入,完成了從環(huán)境構(gòu)建到分布式推理的全鏈路打通。

      智源的肖航則帶來了DeepSeek V4在MUSA上的Day0 適配成果。


      △智源AI編譯器研究員

      通過FlagOS的Triton算子優(yōu)化和摩爾線程的SQMMA張量加速引擎,他們把DeepSeek V4的首token延遲降低了56.7%,吞吐量提升了23%。

      對此,肖航表示:

      我們沒有做什么黑魔法,就是把兩個最關(guān)鍵的算子優(yōu)化到了極致。

      FP8 矩陣乘算子平均加速8.85倍,稀疏注意力算子平均加速6.01倍,這兩個占了推理時間80%的算子一優(yōu)化,端到端性能自然就上去了。

      TileLang維護(hù)者唐正舉的分享,則讓所有人看到了下一代算子編程的未來。


      △TileLang維護(hù)者唐正舉

      這個2025年2月才開源的項目,短短一年多就收獲了6k星和133位貢獻(xiàn)者,連DeepSeek V4的核心kernel都是用TileLang寫的,正如唐正舉所說:

      用TileLang寫FlashAttention,只要50行Python代碼,性能和專家手寫的CUDA一模一樣。

      并且從他在現(xiàn)場展示的對比圖來看,同樣的GEMM算子,TileLang用15行代碼達(dá)到了CUTLASS的性能,代碼量減少了90%。

      最后上臺的阿里云馬騰,帶來了Mooncake項目的最新進(jìn)展。


      △Mooncake Contributor 馬騰

      這個專注于KVCache解耦的項目,現(xiàn)在已經(jīng)是SGLang、vLLM等主流推理框架的標(biāo)配。

      他展示的一組較為吸睛的數(shù)據(jù):

      通過RDMA P2P權(quán)重更新,Kimi K2 1T模型的權(quán)重同步時間從53秒降到了7.2秒,加速了7.37倍;EPD三級解耦架構(gòu)讓多模態(tài)模型的首token延遲降低了6-8倍;HiCache + Mooncake后端讓多輪對話的緩存命中率超過90%。

      至此,這場Meetup的拼圖基本完整——

      SGLang是推理框架主鏈路,MUSA是國產(chǎn)GPU底層平臺,F(xiàn)lagOS/Triton解決關(guān)鍵算子優(yōu)化,TileLang降低高性能kernel編程門檻,Mooncake補上KVCache和生產(chǎn)部署。

      這,便是一條較為完整的工程鏈路。

      為什么摩爾線程能把他們搖來?

      這個問題的答案不能只歸結(jié)為辦了一場活動。

      開源圈很現(xiàn)實,大家愿意來,核心原因不是誰會講故事,是這件事真的和他們正在做的工程問題有關(guān)。

      首先看MUSA本身的設(shè)計初心。

      摩爾線程CTO張鈺勃在開場中解釋,MUSA是Meta-computing Unified System Architecture。


      △摩爾線程CTO張鈺勃

      Meta-computing指向通用計算,摩爾線程希望GPU盡量擁抱通用計算,而不是給未來可計算的領(lǐng)域設(shè)限;Unified則意味著摩爾線程產(chǎn)品希望遵循同一套統(tǒng)一標(biāo)準(zhǔn),避免不同產(chǎn)品線使用不同指令集和架構(gòu),導(dǎo)致軟件生態(tài)無法積累。

      更關(guān)鍵的一句話是,MUSA不希望開發(fā)者為了使用MUSA而重新學(xué)習(xí)一套東西。

      這句話看似樸素,其實直指國產(chǎn)GPU生態(tài)的痛點。

      開發(fā)者最怕什么?

      不是新硬件本身,是為了新硬件,學(xué)習(xí)一整套新API,重寫一堆代碼,改完還進(jìn)不了上游,社區(qū)一更新又要重新補丁。

      如果一個國產(chǎn)GPU生態(tài)要求開發(fā)者從頭學(xué)一遍,那它面對的便是巨大的遷移阻力。

      所以MUSA的路線,是盡量貼近開發(fā)者已經(jīng)熟悉的GPU編程方式、API接口和使用習(xí)慣。底層實現(xiàn)可以不同,但上層體驗盡可能一致。

      三層CUDA兼容棧的意義就在這里。

      torch_musa負(fù)責(zé)把PyTorch和MUSA的基礎(chǔ)能力接起來;torchada負(fù)責(zé)讓CUDA-first生態(tài)繼續(xù)工作;mthreads-ml-py負(fù)責(zé)把設(shè)備管理、拓?fù)洹@存、MTLink、P2P等信息暴露給上層框架。

      用一句更通俗的話說,摩爾線程在盡量把原來的路修到自己門口。

      這直接影響到開源社區(qū)協(xié)作的可行性。

      因為上游項目最看重的是低侵入、可維護(hù)、可復(fù)用。如果一個適配方案需要大面積改動主線代碼,后續(xù)每次rebase都痛苦,上游很難接受。

      反過來,如果適配可以通過更透明的方式完成,PR就更容易被review,也更容易持續(xù)跟隨社區(qū)迭代。

      這就是從“我自己維護(hù)一個分支”到“我進(jìn)入主線”的區(qū)別。

      再看生態(tài)結(jié)合。

      SGLang × MUSA,是推理主鏈路打通。

      摩爾線程從去年開始把SGLang作為重點接入和貢獻(xiàn)的開源項目,經(jīng)過大半年努力,MUSA后端近期已經(jīng)合入SGLang主線。后續(xù)不只是跟隨feature,也希望在框架層面貢獻(xiàn)更多能力。

      這件事的意義在于,國產(chǎn)GPU不再只是某個框架的外部適配對象,已經(jīng)開始成為主線生態(tài)的一部分。



      FlagOS × MUSA,是關(guān)鍵算子和新模型適配。

      大模型推理的性能競爭,越來越多發(fā)生在kernel、編譯器、調(diào)度、低精度和通信層。DeepSeek V4 day-0適配這樣的工作,本質(zhì)上考驗的是從模型發(fā)布到工程落地之間的反應(yīng)速度。能不能第一時間跑通,能不能快速調(diào)優(yōu),能不能在真實shape上找到更好的配置,決定了生態(tài)跟不跟得上。



      Mooncake × MUSA,是推理解耦和生產(chǎn)部署。

      KVCache的價值在Agent、多輪對話、長上下文時代被進(jìn)一步放大。Mooncake與MUSA的結(jié)合,不只是讓某個緩存后端能跑在國產(chǎn)GPU上,更是在探索跨實例KVCache共享、彈性擴(kuò)縮容、緩存復(fù)用、原地升級這類生產(chǎn)級問題。



      TileLang × MUSA,則是下一代算子生態(tài)的提前布局。

      如果未來更多模型和硬件都需要定制kernel,算子編程不能永遠(yuǎn)停留在少數(shù)專家手里。TileLang這類DSL的價值,是把高性能kernel編程變成更多開發(fā)者能上手的工程工具。



      這四條線合在一起,才是摩爾線程能組局的底氣。

      它把自己放進(jìn)了大模型推理的真實工程網(wǎng)絡(luò)里,包括框架、算子、緩存、通信、部署、CI/CD、upstream等等。

      而這,也是國產(chǎn) GPU 生態(tài)真正要補的課。

      國產(chǎn)GPU的生態(tài)位,正在走向協(xié)作

      如果把這場Meetup從更宏大的算力發(fā)展角度來看,它的價值或許遠(yuǎn)超技術(shù)分享本身。

      過去幾年,國產(chǎn)GPU的生態(tài)困境是比較明顯的。

      許多廠商習(xí)慣了閉門造車,自己從頭寫一套深度學(xué)習(xí)框架,自己攢一套算子庫,結(jié)果因為不符合主流開發(fā)者的習(xí)慣,鮮有人問津。

      又或者,有的廠商只是拉一個私有Fork做適配,從來不向開源上游提交代碼,導(dǎo)致主流框架一更新,自己的適配版本就成了無人維護(hù)的孤品。

      而現(xiàn)在,摩爾線程給出了一個完全不同的答案:

      全面融入全球開源生態(tài),去和世界上最聰明的一批人一起做事。

      在這場活動中,我們頻繁聽到幾個詞:Day-0 Support、Upstream PR、CI/CD。

      這說明國產(chǎn)GPU的生態(tài)位正在發(fā)生質(zhì)變。摩爾線程不再只滿足于做一個被動的適配者,它要的是主動出擊,成為核心代碼的“貢獻(xiàn)者”,甚至是未來架構(gòu)的“共建者”。

      他們不僅僅是丟一個單點的Patch過去,而是把一整套包含環(huán)境構(gòu)建、PR提交、CI自動化測試、Release發(fā)布、文檔維護(hù)在內(nèi)的工程閉環(huán),深深地嵌入到了SGLang等頂級項目的血脈中。

      這種可持續(xù)的Upstream模式,才是真正掌握生態(tài)話語權(quán)的方式。

      這場開源局還證明了一件事,國產(chǎn)GPU已經(jīng)走上了大模型推理開源生態(tài)的公共牌桌。

      在這個牌桌上,已經(jīng)坐著風(fēng)頭正勁的SGLang,坐著死磕底層編譯的Triton/FlagOS,坐著重塑算子生態(tài)的TileLang,坐著主導(dǎo)解耦架構(gòu)的Mooncake。

      而現(xiàn)在,國產(chǎn)GPU,也可以拉開椅子,從容地坐下來,和這群明星玩家們一起打好大模型時代最關(guān)鍵的這把牌。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      斷交13年的同事突然寄給我一箱臘肉,我把它送給對門鄰居,當(dāng)天晚上12點,他把臘肉還回來:箱子底下有東西

      斷交13年的同事突然寄給我一箱臘肉,我把它送給對門鄰居,當(dāng)天晚上12點,他把臘肉還回來:箱子底下有東西

      品讀時刻
      2026-05-03 08:52:52
      突然宣布:馬浚偉辭任CEO

      突然宣布:馬浚偉辭任CEO

      每日經(jīng)濟(jì)新聞
      2026-05-13 22:54:07
      罕見啊!湖南一地電線桿上驚現(xiàn)紅紙辭帖,網(wǎng)友:多年不見又現(xiàn)江湖

      罕見啊!湖南一地電線桿上驚現(xiàn)紅紙辭帖,網(wǎng)友:多年不見又現(xiàn)江湖

      火山詩話
      2026-05-14 13:46:29
      特朗普抵達(dá)北京,放棄釣魚臺國賓館,為何執(zhí)意下榻四季酒店?

      特朗普抵達(dá)北京,放棄釣魚臺國賓館,為何執(zhí)意下榻四季酒店?

      青松解局
      2026-05-14 18:34:45
      別再跟風(fēng)夸87歲吳彥姝有多優(yōu)雅了,很多人只看到表面氣質(zhì),

      別再跟風(fēng)夸87歲吳彥姝有多優(yōu)雅了,很多人只看到表面氣質(zhì),

      小光侃娛樂
      2026-05-05 16:45:04
      大陸向全球通告,禁止對岸一件事,話音剛落,鄭麗文火速派人來京

      大陸向全球通告,禁止對岸一件事,話音剛落,鄭麗文火速派人來京

      貓女的小樹屋
      2026-05-13 16:39:29
      鞏俐打破戛納79年貫例,全程中文主持,全場起立久久鼓掌

      鞏俐打破戛納79年貫例,全程中文主持,全場起立久久鼓掌

      夸大其詞的說
      2026-05-13 23:49:32
      不裝了!快船5號簽?zāi)繕?biāo)曝光,3大新秀各有優(yōu)劣,賭天賦還是求穩(wěn)?

      不裝了!快船5號簽?zāi)繕?biāo)曝光,3大新秀各有優(yōu)劣,賭天賦還是求穩(wěn)?

      體育大朋說
      2026-05-14 12:32:49
      美預(yù)言家朱迪再爆猛料:美日中命運已定,此島將首遭災(zāi)

      美預(yù)言家朱迪再爆猛料:美日中命運已定,此島將首遭災(zāi)

      心靈短笛
      2025-05-12 10:05:25
      雷霆西決更想打誰?森林狼馬刺10項對比

      雷霆西決更想打誰?森林狼馬刺10項對比

      賽場速報局
      2026-05-15 00:44:03
      川普恐要打破165年傳統(tǒng),成為美歷史上首位在任簽名上美元的總統(tǒng)

      川普恐要打破165年傳統(tǒng),成為美歷史上首位在任簽名上美元的總統(tǒng)

      瘋狂的小歷史
      2026-05-05 10:12:11
      巴薩0-1意外翻船 恩里克也搞人情世故:90分鐘0射正 無緣百分奪冠

      巴薩0-1意外翻船 恩里克也搞人情世故:90分鐘0射正 無緣百分奪冠

      風(fēng)過鄉(xiāng)
      2026-05-14 05:54:28
      雷軍“追星”馬斯克,秒變迷弟!

      雷軍“追星”馬斯克,秒變迷弟!

      李東陽朋友圈
      2026-05-14 22:24:47
      阿坎吉:決賽是五五開的,希望我們的奪冠經(jīng)驗?zāi)軟Q定比賽

      阿坎吉:決賽是五五開的,希望我們的奪冠經(jīng)驗?zāi)軟Q定比賽

      懂球帝
      2026-05-14 02:58:08
      談崩了還是談成了?特朗普離場憋出四個字,在臺灣問題上他慫了!

      談崩了還是談成了?特朗普離場憋出四個字,在臺灣問題上他慫了!

      可樂談情感
      2026-05-14 21:23:12
      《給阿嬤的情書》破億,史上“最寒酸”贊助商贏麻了

      《給阿嬤的情書》破億,史上“最寒酸”贊助商贏麻了

      首席品牌觀察
      2026-05-12 14:44:48
      千萬不能傷害這3種人,弘一法師警示,后果都是現(xiàn)世報

      千萬不能傷害這3種人,弘一法師警示,后果都是現(xiàn)世報

      阿鄭的讀書日常
      2025-04-07 16:00:11
      英偉達(dá),突然拉升!

      英偉達(dá),突然拉升!

      新浪財經(jīng)
      2026-05-15 02:08:18
      阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

      阿森納VAR爭議再升級:加布里埃爾拉拽球衣畫面曝光

      溫柔且自由
      2026-05-15 01:57:29
      東北3歲小網(wǎng)紅吃播沉浸式吃飯,4大疑點持續(xù)引發(fā)爭議

      東北3歲小網(wǎng)紅吃播沉浸式吃飯,4大疑點持續(xù)引發(fā)爭議

      九方魚論
      2026-05-11 09:16:33
      2026-05-15 02:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12625文章數(shù) 176463關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當(dāng)爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      本地
      親子
      旅游
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      孤獨癥特教老師的工作,遠(yuǎn)不止“教說話”!(下)

      旅游要聞

      日照五蓮:云海日出映青山

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美以伊戰(zhàn)爭期間以總理密訪阿聯(lián)酋

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 99人妻碰碰碰久久久久禁片| 蜜桃少妇av久久久久久久| 国产麻豆放荡av激情演绎| 中文字幕一二区| 久久中文字幕无码专区| 无码伊人久久大蕉中文无码| 国产无套内射普通话对白 | 欧洲精品码一区二区三区| 在线高清亚洲精品二区| 久久久久久尹人网香蕉| 综合激情五月丁香久久| 亚洲黄色一区二区| 婷婷丁香五月中文字幕| 手机看片AV永久免费无码| 67194熟妇在线观看线路| 亚洲天堂久久新| 中文人妻AV高清一区二区| 亚洲18视频在线播放| 欧美精品xx| 豆花av在线| 亚洲第一综合天堂另类专| 微拍福利一区福利二区| 在线高清免费不卡全码| 3p露脸在线播放| 亚洲成人影片| 九九热精品在线视频| 亚洲欧美综合精品二区| 亚洲中文字幕在线第二页| 精品视频在线观看免费观看| 一区二三区国产好的精华液o9| 韩日乱伦| 蜜臀av在线观看| 国产乱人伦偷精品视频免观看| 连平县| 97在线观看高清视频| 亚洲区一区二区| 亚洲欧美综合精品成人导航| 国内少妇人妻偷人精品视频 | 国产精品免费大片| 亚州精品国产精品乱码不99按摩| 国产一区二区三区在线观看免费|