<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      天下苦CUDA久矣,又一國產(chǎn)方案上桌了

      0
      分享至

      允中 發(fā)自 凹非寺
      量子位 | 公眾號 QbitAI

      國產(chǎn)算力基建跑了這么多年,大家最關(guān)心的邏輯一直沒變:芯片夠不夠多?

      但對開發(fā)者來說,真正扎心的問題其實(shí)是:好不好使?

      如果把AI開發(fā)比作做飯,現(xiàn)在的尷尬是——

      國產(chǎn)鍋(硬件)雖然越來越多了,但大部分大廚還是只習(xí)慣用那套進(jìn)口調(diào)料包(生態(tài))

      這正是當(dāng)下AI落地最真實(shí)的一幕。

      模型層繁花似錦,底層卻隱憂重重。大家在參數(shù)規(guī)模上輪番刷新紀(jì)錄,回過頭來卻發(fā)現(xiàn),最難擺脫的還是那套已經(jīng)長進(jìn)骨子里的開發(fā)流程。


      △圖片由AI生成

      算力只是敲門磚,真正的勝負(fù)手,是那段算法與硬件之間的“翻譯權(quán)”

      說白了,如果拿不到這支“翻譯筆”,再強(qiáng)悍的國產(chǎn)硬件,也只能像是一座無法與外界溝通的孤島。

      終于,那個讓開發(fā)者喊了無數(shù)次“天下苦CUDA久矣”的僵局,現(xiàn)在迎來了一個不一樣的國產(chǎn)答案

      KernelCAT:計算加速專家級別的Agent

      這幾年,AI領(lǐng)域的熱鬧幾乎是肉眼可見的。

      模型在密集發(fā)布,應(yīng)用數(shù)據(jù)持續(xù)走高,看上去一切都在加速向前。

      但在工程現(xiàn)場,感受卻更復(fù)雜。

      真正制約落地效率的,并不是模型能力本身,而是底層軟件生態(tài)的成熟度。

      硬件選擇一多,問題反而集中暴露出來:遷移成本高,適配周期長,性能釋放不穩(wěn)定。很多模型即便具備條件切換算力平臺,最終也會被算子支持和工具鏈完整度擋在門外。

      這讓一個事實(shí)變得越來越清晰——突破口不在堆更多算力,而在打通算法到硬件之間那段最容易被忽視的工程鏈路,把芯片的理論性能真正轉(zhuǎn)化為可用性能。

      其中最關(guān)鍵的一環(huán),正是高性能算子的開發(fā)

      算子(Kernel),是連接AI算法與計算芯片的“翻譯官”:它將算法轉(zhuǎn)化為硬件可執(zhí)行的指令,決定了AI模型的推理速度、能耗與兼容性。

      算子開發(fā)可以被理解為內(nèi)核級別的編程工作,目前行業(yè)仍停留在“手工作坊”時代——開發(fā)過程極度依賴頂尖工程師的經(jīng)驗(yàn)與反復(fù)試錯,周期動輒數(shù)月,性能調(diào)優(yōu)如同在迷霧中摸索。

      若把開發(fā)大模型應(yīng)用比作“在精裝修的樣板間里擺放家具”,那么編寫底層算子的難度,無異于“在深海中戴著沉重的手銬,徒手組裝一塊精密機(jī)械表”。

      但如果,讓AI來開發(fā)算子呢?

      傳統(tǒng)大模型或知識增強(qiáng)型Agent在此類任務(wù)面前往往力不從心。因?yàn)樗鼈兩瞄L模式匹配,卻難以理解復(fù)雜計算任務(wù)中的物理約束、內(nèi)存布局與并行調(diào)度邏輯。

      唯有超越經(jīng)驗(yàn)式推理,深入建模問題本質(zhì),才能實(shí)現(xiàn)真正的“智能級”優(yōu)化。

      正是在這一“地獄級”技術(shù)挑戰(zhàn)下,KernelCAT應(yīng)運(yùn)而生。


      △終端版

      具體來看,KernelCAT是一款本地運(yùn)行的AI Agent,它不僅是深耕算子開發(fā)和模型遷移的“計算加速專家”,也能夠勝任日常通用的全棧開發(fā)任務(wù),提供了CLI終端命令行版與簡潔桌面版兩種形態(tài)供開發(fā)者使用。

      不同于僅聚焦特定任務(wù)的工具型Agent,KernelCAT具備扎實(shí)的通用編程能力——不僅能理解、生成和優(yōu)化內(nèi)核級別代碼,也能處理常規(guī)軟件工程任務(wù),如環(huán)境配置、依賴管理、錯誤診斷與腳本編寫,從而在復(fù)雜場景中實(shí)現(xiàn)端到端自主閉環(huán)。


      △桌面版

      為國產(chǎn)芯片生態(tài)寫高性能算子

      在算子開發(fā)中,有一類問題很像“調(diào)參”——面對幾十上百種參數(shù)或策略組合,工程師需要找出讓算子跑得最快的那一組配置。

      傳統(tǒng)做法靠經(jīng)驗(yàn)試錯,費(fèi)時費(fèi)力,而且還容易踩坑。

      KernelCAT的思路是——引入運(yùn)籌優(yōu)化,把“找最優(yōu)參數(shù)”這件事交給算法,讓算法去探索調(diào)優(yōu)空間并收斂到最佳方案

      以昇騰芯片上的FlashAttentionScore算子為例,KernelCAT在昇騰官方示例代碼上,可以自動對該算子的分塊參數(shù)調(diào)優(yōu)問題進(jìn)行運(yùn)籌學(xué)建模,并使用數(shù)學(xué)優(yōu)化算法求解,在十幾輪迭代后就鎖定了最優(yōu)配置,在多種輸入尺寸下延遲降低最高可達(dá)22%,吞吐量提升最高近30%,而且整個過程無需人工干預(yù)。

      這正是KernelCAT的獨(dú)特之處:它不僅具備大模型的智能,能夠理解代碼、生成方案;還擁有運(yùn)籌優(yōu)化算法的嚴(yán)謹(jǐn),能夠系統(tǒng)搜索并收斂到最優(yōu)解。

      智能與算法的結(jié)合,讓算子調(diào)優(yōu)既靈活,又有交付保障。

      在對KernelCAT的另一場測試中,該團(tuán)隊選取了7個不同規(guī)模的向量加法任務(wù),測試目標(biāo)明確——

      即在華為昇騰平臺上,直接對比華為開源算子、“黑盒”封裝的商業(yè)化算子與KernelCAT自研算子實(shí)現(xiàn)的執(zhí)行效率。

      結(jié)果同樣令人振奮,在這個案例的7個測試規(guī)模中,KernelCAT給出的算子版本性能均取得領(lǐng)先優(yōu)勢,且任務(wù)完成僅用時10分鐘

      這意味著,即便面對經(jīng)過商業(yè)級調(diào)優(yōu)的閉源實(shí)現(xiàn),KernelCAT所采用的優(yōu)化方式仍具備一定競爭力。



      這不僅是數(shù)值層面的勝利,更是國產(chǎn)AI Agent在算子領(lǐng)域完成的一次自證。

      沒有堅不可破的生態(tài),包括CUDA

      全球范圍內(nèi),目前超過90%的重要AI訓(xùn)練任務(wù)運(yùn)行于英偉達(dá)GPU之上,推理占比亦達(dá)80%以上;其開發(fā)者生態(tài)覆蓋超590萬用戶,算子庫規(guī)模逾400個,深度嵌入90%頂級AI學(xué)術(shù)論文的實(shí)現(xiàn)流程。

      黃仁勛曾言:

      • 我們創(chuàng)立英偉達(dá),是為了加速軟件,芯片設(shè)計反而是次要的。

      這句話揭示了一個關(guān)鍵真相:在現(xiàn)代計算體系中,軟件才是真正的護(hù)城河。

      英偉達(dá)的持續(xù)領(lǐng)先,源于其從底層算法出發(fā)、貫通架構(gòu)與編程模型的全棧掌控能力。

      參考AMD的歷史經(jīng)驗(yàn),即使在架構(gòu)與制程上具備充足的競爭力,缺乏成熟的生態(tài)系統(tǒng)也仍然難以撼動英偉達(dá)的地位。

      這類案例清晰地表明,模型性能并不簡單等價于算力規(guī)模的堆疊,而是取決于算法設(shè)計、算子實(shí)現(xiàn)與硬件特性的協(xié)同程度。當(dāng)算子足夠成熟,硬件潛力才能被真正釋放。

      沿著這條思路,KernelCAT團(tuán)隊圍繞模型在本土算力平臺上的高效遷移,進(jìn)行了系統(tǒng)性的工程探索。

      DeepSeek-OCR-2模型在華為昇騰910B2 NPU上的部署為例,KernelCAT展示了一種全新的工作范式:

      • 對抗“版本地獄”:KernelCAT對任務(wù)目標(biāo)和限制條件有著深度理解,基于DeepSeek-OCR-2官方的CUDA實(shí)現(xiàn),通過精準(zhǔn)的依賴識別和補(bǔ)丁注入,解決了vLLM、torch和torch_npu的各個依賴庫間版本互鎖的三角矛盾,硬生生從零搭建起了一套穩(wěn)定的生產(chǎn)環(huán)境,結(jié)合基礎(chǔ)Docker鏡像即可實(shí)現(xiàn)模型的開箱即用。
      • 準(zhǔn)確修補(bǔ):它敏銳地識別出原版vLLM的MOE層依賴CUDA專有的操作,和vllm-ascend提供的Ascend原生MOE實(shí)現(xiàn),并果斷通過插件包進(jìn)行調(diào)用替換,讓模型在國產(chǎn)芯片上“說上了母語”。
      • 實(shí)現(xiàn)35倍加速:在引入vllm-ascend原生MOE實(shí)現(xiàn)補(bǔ)丁后,vLLM在高并發(fā)下的吞吐量飆升至550.45toks/s,相比Transformers方案實(shí)現(xiàn)了35倍加速,且在繼續(xù)優(yōu)化中。
      • 無需人工大量介入:在這種復(fù)雜任務(wù)目標(biāo)下,KernelCAT可以自己規(guī)劃和完成任務(wù),無需研發(fā)提供大量提示詞指導(dǎo)模型工作。

      這意味著,原本需要頂尖工程師團(tuán)隊花費(fèi)數(shù)周才能完成進(jìn)行的適配工作,現(xiàn)在可以縮短至小時級(包含模型下載、環(huán)境構(gòu)建的時間)。

      與此同時,它讓國產(chǎn)芯片從“能跑”到“飛起”,實(shí)現(xiàn)了35倍的加速

      也就是說,KernelCAT讓國產(chǎn)芯片不再是被“封印”的算力廢鐵,而是可以通過深度工程優(yōu)化,承載頂級多模態(tài)模型推理任務(wù)的性能引擎。



      “天下苦CUDA久矣”——這句話曾是無奈的自嘲,如今正成為行動的號角。

      KernelCAT所代表的,不只是一個AI Agent新范式的出現(xiàn),更是一種底層能力建設(shè)方式的轉(zhuǎn)向:

      從依賴既有生態(tài),到構(gòu)建能夠自我演進(jìn)的計算基礎(chǔ)。

      KernelCAT正限時免費(fèi)內(nèi)測中,歡迎體驗(yàn):
      https://kernelcat.cn/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      醫(yī)生發(fā)現(xiàn):過了六十歲,凡是白發(fā)少的老人,大多都有這2個共性

      醫(yī)生發(fā)現(xiàn):過了六十歲,凡是白發(fā)少的老人,大多都有這2個共性

      垚垚分享健康
      2026-05-03 15:25:09
      大師賽之王即將誕生!辛納29連勝追平費(fèi)德勒,沖擊史無前例的紀(jì)錄

      大師賽之王即將誕生!辛納29連勝追平費(fèi)德勒,沖擊史無前例的紀(jì)錄

      體育妞世界
      2026-05-10 09:25:48
      社保局提醒:退休證不算啥!這三張“保命紙”不辦,晚年虧大了

      社保局提醒:退休證不算啥!這三張“保命紙”不辦,晚年虧大了

      起喜電影
      2026-05-10 14:12:17
      拆開中國無人機(jī)一看,美媒心涼透了,若插手臺海,美軍必敗無疑?

      拆開中國無人機(jī)一看,美媒心涼透了,若插手臺海,美軍必敗無疑?

      最新聲音
      2026-05-10 02:09:58
      鎖死海峽!阿聯(lián)酋突襲伊朗,埃及陣風(fēng)戰(zhàn)機(jī)馳援:伊朗遭遇兇險包圍

      鎖死海峽!阿聯(lián)酋突襲伊朗,埃及陣風(fēng)戰(zhàn)機(jī)馳援:伊朗遭遇兇險包圍

      知法而形
      2026-05-08 16:39:04
      功夫巨星新片慘敗,三天沒有票房統(tǒng)計,觀眾差評如潮

      功夫巨星新片慘敗,三天沒有票房統(tǒng)計,觀眾差評如潮

      影視高原說
      2026-05-10 13:09:18
      烏軍精準(zhǔn)點(diǎn)穴令普京暴怒,澤連斯基批準(zhǔn)莫斯科免死區(qū)域

      烏軍精準(zhǔn)點(diǎn)穴令普京暴怒,澤連斯基批準(zhǔn)莫斯科免死區(qū)域

      西樓飲月
      2026-05-09 16:34:50
      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因?yàn)檫@兩件事

      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因?yàn)檫@兩件事

      心理觀察局
      2026-05-04 08:51:11
      林彪準(zhǔn)兒媳張寧:獨(dú)子被水管工報復(fù)沉河,逃去美國當(dāng)闊太后為何躲進(jìn)深山當(dāng)了道士?

      林彪準(zhǔn)兒媳張寧:獨(dú)子被水管工報復(fù)沉河,逃去美國當(dāng)闊太后為何躲進(jìn)深山當(dāng)了道士?

      史海孤雁
      2026-05-07 18:01:13
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,F(xiàn)BI顏面盡失

      干史人
      2026-04-14 21:10:03
      喬治:必須向布倫森致敬 他總能找到自己的進(jìn)攻位置

      喬治:必須向布倫森致敬 他總能找到自己的進(jìn)攻位置

      北青網(wǎng)-北京青年報
      2026-05-10 10:22:18
      烏克蘭收復(fù)克里米亞在望,普京面臨歷史性挑戰(zhàn)。

      烏克蘭收復(fù)克里米亞在望,普京面臨歷史性挑戰(zhàn)。

      世界探索發(fā)現(xiàn)
      2026-05-06 18:27:11
      50歲查理茲·塞隆自曝不婚原因:睡小鮮肉太爽了!

      50歲查理茲·塞隆自曝不婚原因:睡小鮮肉太爽了!

      阿廢冷眼觀察所
      2026-05-05 14:57:32
      韓國瑜訪歐嘆臺灣處境艱難,稱呼吸新鮮空氣都難

      韓國瑜訪歐嘆臺灣處境艱難,稱呼吸新鮮空氣都難

      原來仙女不講理
      2026-05-10 11:04:17
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實(shí)情

      健康科普365
      2026-05-09 21:05:04
      一分不得!廣東最強(qiáng)引援完全活在集錦里,球迷:給嘉爺打替補(bǔ)不冤

      一分不得!廣東最強(qiáng)引援完全活在集錦里,球迷:給嘉爺打替補(bǔ)不冤

      弄月公子
      2026-05-10 15:06:46
      吃他汀猝死的人增多?醫(yī)生含淚苦勸:天熱吃他汀,必須多注意4點(diǎn)

      吃他汀猝死的人增多?醫(yī)生含淚苦勸:天熱吃他汀,必須多注意4點(diǎn)

      健康科普365
      2026-05-10 13:55:09
      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      釋永信被一女子爆料:她們姐妹住少林寺3天,爭著往釋永信房間跑

      江山揮筆
      2026-03-23 15:40:31
      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進(jìn)下水道

      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進(jìn)下水道

      談史論天地
      2026-04-27 15:00:03
      1986年的運(yùn)10下馬案,位列中國30年重大間諜案首位,真相令人扼腕

      1986年的運(yùn)10下馬案,位列中國30年重大間諜案首位,真相令人扼腕

      干史人
      2026-01-12 22:07:50
      2026-05-10 16:24:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12598文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      七旬鄰居凌晨爬窗入室無刑責(zé) 上海男子全家被逼搬離

      頭條要聞

      七旬鄰居凌晨爬窗入室無刑責(zé) 上海男子全家被逼搬離

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經(jīng)要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      教育
      手機(jī)
      旅游
      藝術(shù)
      軍事航空

      教育要聞

      去年中考628分,放棄前三所重高選擇職高,這位女生如今怎么樣?

      手機(jī)要聞

      HarmonyOS 7將至?華為開發(fā)者大會HDC 2026活動詳情公布

      旅游要聞

      巴西對華免簽利好南美長線游;三星停止在中國市場銷售所有家電產(chǎn)品|封面科技·周報

      藝術(shù)要聞

      毛主席83歲時寫給華國鋒的6字真相令人震驚!

      軍事要聞

      伊朗革命衛(wèi)隊深夜警告

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 精品久久久久久久久久中文字幕| 99久久国内精品成人免费| 久久久久成人精品无码| 超碰人人人| 亚洲中文字幕无码日韩精品| 国产一区二区丝袜高跟鞋| 国产精品自拍视频我看看| jizz麻豆| 婷婷五月综合色视频| 人妻丝袜中文无码AV影音先锋专区| 久久国产精品99精品| 免费大片黄国产在线观看| 国产在线一区二区在线视频| 亚洲影视在线观看| 露脸国产精品自产拍在线观看| 5d肉蒲团之性战奶水欧美| 人妻少妇精品视频专区| 手机看片欧美日韩| 国产精品一品二品有码| 欧洲亚洲色视频综合在线| 日本欧美大码a在线观看| 老熟妇乱子伦| 亚洲乱色伦图片区小说| 亚州无码片| 成人性爱影院| 亚洲日韩av无码| 久久6久久66热这里只是精品| 97se狠狠狠狠狼鲁亚洲综合色| 制服丝袜在线亚洲| julia无码中文字幕一区| 久久青青草原精品国产app| 亚洲色无码专区在线观看| 精品视频无码一区二区三区| 人人妻人人澡人人爽人人精品电影| 亚洲欧美日韩成人一区| 亚洲乱码精品乱码精品中文| 一本大道卡一卡二卡三乱码全集资源| 亚洲精品中文字幕午夜| 伊人久久精品无码二区麻豆| 欧美激情综合色综合啪啪五月| 国产网友愉拍精品视频手机|