<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      成本0.3美元,耗時26分鐘!CudaForge:顛覆性低成本CUDA優化框架

      0
      分享至




      本文作者包括明尼蘇達大學的張子健(共同第一作者),王嶸(共同第一作者),李世陽,羅越波,洪明毅,丁才文。

      CUDA 代碼的性能對于當今的模型訓練與推理至關重要,然而手動編寫優化 CUDA Kernel 需要很高的知識門檻和時間成本。與此同時,近年來 LLM 在 Code 領域獲得了諸多成功。這推動人們去探索如何利用 LLM 來編寫優化 CUDA kernel。然而,現有的方法面臨諸多問題,例如高昂的訓練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導致的盲目探索。

      那么對于使用 LLM 進行 CUDA 代碼生成,我們能不能設計一個簡單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

      明尼蘇達大學的團隊提出了一種新的方法——CudaForge。這是一種簡單、高效且低成本的多智能體 CUDA Kernel 生成與優化工作流。該工作流受人類專家的實際開發流程啟發,包含初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進等關鍵階段。

      • 論文標題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
      • 論文鏈接:https://arxiv.org/pdf/2511.01884
      • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

      實驗結果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結果,超越了現有的所有方法。值得注意的是,通過 CudaForge 生成一個經過優化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時僅產生約0.3 美元的 API 調用成本!

      CudaForge Workflow 介紹

      正如人類專家所采用的開發方法,包括初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進,我們將 CudaForge 設計為如上所示的迭代式優化框架。

      該框架包含兩個相互獨立的智能體:CoderJudge

      Coder 根據任務描述以及來自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運行時信息對每個候選進行評估。

      具體而言,給定一個 CUDA kernel 生成任務,Coder 首先接收任務要求以及對應的 PyTorch 參考實現,然后生成一個初始的候選 kernel。該 kernel 將被編譯并在測試用例上執行以驗證其正確性。

      如果測試失敗,Judge 會檢查運行時信息(例如編譯錯誤、與 PyTorch 參考結果不一致的輸出),并分析該錯誤 kernel 的問題所在。隨后,Judge 會返回相應的糾錯反饋(如缺少頭文件等),以指導下一輪生成。當某個候選 kernel 通過了正確性測試后,Judge 會使用NCU工具對其進行性能剖析,獲取NCU 性能指標(如內存帶寬、占用率、warp 效率等)。

      結合 GPU 硬件規格,這些指標構成了用于識別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會進一步基于此返回一個明確的優化建議(如使用 shared memory)給 Coder。

      在下一輪中,Coder 會同時接收上一輪的 kernel、Judge 的反饋以及原始任務需求,并生成新的、經過修正或優化的 kernel。該過程最多重復N輪,最終我們會從所有正確的候選結果中選擇效率最高的 kernel作為最終輸出。

      在此,我們給出一個使用 CudaForge 進行 Kernel 優化的案例,并將其與Kevin-32B方法進行對比:

      這一對比進一步凸顯出使用硬件反饋對于 Cuda 代碼優化的重要意義。

      具體來說,CudaForge通過以下三項關鍵設計顯著提升了 CUDA kernel 的生成與優化能力:

      雙智能體分工協作:CudaForge 采用Coder–Judge雙智能體架構,其中 Coder 專注于代碼生成,Judge 負責評估代碼并提供反饋,從而實現“認知負載”的有效分離。

      迭代式優化流程:CudaForge 通過多輪迭代逐步糾錯與提速,使得 Kernel 能在每一輪中持續被改進,特別是在復雜任務中能夠獲得更加穩定的優化效果。

      顯式引入硬件反饋:CudaForge 將GPU 規格NCU 性能指標(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執行的優化指導

      實驗評估

      我們在 KernelBench Levels 1-3 上評估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進行了比較。

      在 RTX 6000 上的 KernelBench Levels 1–3 主要結果:

      在我們的主要實驗中,我們默認將OpenAI-o3同時用作 Coder 與 Judge,并將最大迭代輪數設為N = 10,以在性能提升與推理成本之間取得平衡。

      在 KernelBench 上,CudaForge 達到了 97.6% 的正確率,平均加速比為 1.677×,Fast1 比例為 70.8%,并且實現了1.107× 的中位數加速比1.592× 的 75 分位加速比。這些結果顯著優于基礎模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

      與 Kevin-32B 在 H200 上的對比:

      考慮到 Kevin-32B 是基于 H200 訓練的 RL 模型,我們在 H200 上對比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現對比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

      盡管CudaForge 不需要訓練(training-free),它在KernelBench Level 1–2上的表現依然優于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

      CudaForge 的 API 與計算時間成本分析

      我們進一步分析了 CudaForge 的性能與其 API 調用成本和計算時間之間的關系,如圖所示。隨著 API 成本與計算時間的增加,CudaForge 的性能呈單調提升趨勢。值得注意的是,即使在每個任務耗費不超過 0.15 美元和 10 分鐘的情況下,CudaForge 也已經能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



      基于 KernelBench,我們測評了 CudaForge 所需的時間和 API 成本,結果表明在 KernelBench Levels 1-3 所有任務上,CudaForge 每個任務僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運行時間!

      消融實驗

      在不同 LLM 上實例化 CudaForge:

      為了驗證 CudaForge 是否依賴某個特定基礎模型,我們在實驗中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

      如表所示,所有組合都能夠取得較高的正確率和良好的性能表現,并且在某些情況下甚至超過原始的 O3/O3 配置。

      這一結果表明,CudaForge 并不依賴于某個特定的基礎模型:其有效性主要來源于 Coder–Judge 的工作流機制,并且隨著更強模型的出現,它可以直接受益并進一步提升性能。

      在不同 GPU 架構上使用 CudaForge:

      我們進一步在多種 GPU 架構上評估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

      實驗結果(如表所示)顯示,CudaForge 在所有測試 GPU 上均保持了高正確率和強性能表現,證明其具有良好的硬件通用性和穩定性。

      總結

      我們提出了 CudaForge,一個無需訓練的多智能體 CUDA kernel 生成與優化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實現有針對性的 Kernel 優化,而非盲目搜索。 在 KernelBench 基準上,CudaForge 相較于現有方法取得了最高的正確率和顯著的性能提升,同時在不同 GPU 架構和多種基礎大模型上均表現出強魯棒性與泛化性。

      此外,CudaForge 的性能隨著迭代輪數的增加能夠進一步提升。 最后,得益于其低 API 開銷與低時間成本,CudaForge 為自動化 CUDA Kernel 開發提供了一種高效、實用且可投入實際使用的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本航空拿下宇樹科技,轟動全球!

      日本航空拿下宇樹科技,轟動全球!

      新零售參考Pro
      2026-05-07 17:31:09
      忻口會戰有多慘烈?閻錫山掏空家底,晉綏軍九個炮兵團全部參戰

      忻口會戰有多慘烈?閻錫山掏空家底,晉綏軍九個炮兵團全部參戰

      云霄紀史觀
      2026-05-09 03:16:01
      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      隨著菲律賓0-0,韓國0-3,女足亞洲杯八強對陣出爐:中國PK弱旅

      側身凌空斬
      2026-05-08 21:27:26
      伊朗官員稱美軍襲擊伊民用船只,已致1死10傷

      伊朗官員稱美軍襲擊伊民用船只,已致1死10傷

      界面新聞
      2026-05-09 07:38:49
      社保局提醒:退休證不算啥!這三張“保命紙”不辦,晚年虧大了

      社保局提醒:退休證不算啥!這三張“保命紙”不辦,晚年虧大了

      笑熬漿糊111
      2026-05-09 04:46:27
      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      殺人誅心!澤連斯基簽法令“允許”紅場閱兵,并附上精準GPS!

      老馬拉車莫少裝
      2026-05-09 08:02:47
      官僚主義最陰狠的套路:把所有風險,砸向最底層

      官僚主義最陰狠的套路:把所有風險,砸向最底層

      職場資深秘書
      2026-05-08 20:44:41
      江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

      江蘇省體育局發布退役運動員安置情況:錢天一、何冰嬌均自主擇業

      懂球帝
      2026-05-08 09:54:18
      別碰!別吃!別養!一只就攜帶100條蟲,看到趕緊遠離

      別碰!別吃!別養!一只就攜帶100條蟲,看到趕緊遠離

      齊魯壹點
      2026-05-08 06:35:47
      連續三年財務造假!證監會對清越科技及4名高管開出2億元罰單,公司將被強制退市

      連續三年財務造假!證監會對清越科技及4名高管開出2億元罰單,公司將被強制退市

      澎湃新聞
      2026-05-08 21:58:29
      隊長被打進醫院!皇馬更衣室徹底失控,內亂不止顏面盡失!

      隊長被打進醫院!皇馬更衣室徹底失控,內亂不止顏面盡失!

      田先生籃球
      2026-05-08 08:16:44
      人走茶涼!《陳翔六點半》賺不到錢球球退出,根本原因早已注定

      人走茶涼!《陳翔六點半》賺不到錢球球退出,根本原因早已注定

      橙星文娛
      2026-05-06 11:09:03
      一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

      一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

      澎湃新聞
      2026-05-08 15:36:29
      44歲阿隆索親承后悔執教皇馬!聽聞內訌如釋重負:慶幸我不用處理

      44歲阿隆索親承后悔執教皇馬!聽聞內訌如釋重負:慶幸我不用處理

      我愛英超
      2026-05-09 07:38:09
      47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

      47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

      嘴角上翹的弧度
      2026-05-06 19:51:52
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      黯泉
      2026-05-03 20:25:37
      誰也沒想到,丁克大半輩子的張譯,如今終于在48歲迎來了高光時刻

      誰也沒想到,丁克大半輩子的張譯,如今終于在48歲迎來了高光時刻

      東方不敗然多多
      2026-05-09 01:22:30
      吃個大瓜杜卡迪索賠9!3億全球禁售820RR張雪機車怕是要涼真相揭曉了

      吃個大瓜杜卡迪索賠9!3億全球禁售820RR張雪機車怕是要涼真相揭曉了

      藍色海邊
      2026-05-09 04:57:54
      深圳萬人社區出行路被挖,盼了4年仍未修復!部門:加快還建

      深圳萬人社區出行路被挖,盼了4年仍未修復!部門:加快還建

      南方都市報
      2026-05-08 22:49:08
      奪冠僅2天,吳宜澤私生活被扒,惡心一幕發生 丁俊暉的話早有預兆

      奪冠僅2天,吳宜澤私生活被扒,惡心一幕發生 丁俊暉的話早有預兆

      攬星河的筆記
      2026-05-08 23:23:45
      2026-05-09 09:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12950文章數 142646關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      房產
      藝術
      健康
      游戲
      親子

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      藝術要聞

      清風拂面,心曠神怡

      干細胞能讓人“返老還童”嗎

      《生化危機9》為何不做極致恐怖 卡普空道出了原因

      親子要聞

      小銳銳會走路后笑得很開心

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品免费看久久久无码| 久久熟女| 人妻内射一区二区在线视频 | 亚洲伊人久久综合影院| 天堂av一区二区三区| 久久综合精品国产一区二区三区无| 3p人妻少妇对白精彩视频| 狼群社区视频WWW| 日本伊人色综合网| 337p日本欧洲亚洲大胆色噜噜| 国产 字幕 制服 中文 在线| 天天插天天透| 亚洲乱亚洲乱少妇无码| 国产精品一区自拍视频| 国产一区二区色婬影院| 亚洲乱亚洲乱少妇无码| 国产精品视频在线观看| 伊人av一区| 又大又粗又爽18禁免费看| 国产免费福利一区二区| 国产重口老太伦Ⅱ15| 天堂资源在线官网bt| 久久亚洲精品成人无码网站夜色| 欧美亚洲日本国产综合在线美利坚| 精品人无码一区二区三区| 日本边添边摸边做边爱| 亚洲天堂一区二区三区| 日本丰满老妇bbb| 国产激情一区二区三区成人免费| 国产无遮挡乱子伦免费精品| 日本护士毛茸茸高潮| 麻豆亚洲精品一区二区| 成人性欧美丨区二区三区| 岛国精品在线播放| 无码人妻精品一区二区三区不卡 | 91乱子伦国产乱子伦www.sz-sd.cn| 97av在线| 欧美日韩国产网站| 亚洲国产婷婷香蕉久久久久久| 国产综合精品91老熟女| 久久精品女|