<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      英偉達力薦,小團隊兩個月開源一款「光速級」智能體推理引擎

      0
      分享至



      機器之心編輯部

      智能體時代的核心是算力。

      尤其是在 Coding Agent 爆發之后,算力問題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產品正在把 AI 從「問答工具」變成「持續運行的軟件協作者」,單次會話輕松突破 50K tokens,系統負載轉向了更極端、更復雜的智能體負載。

      最近有關算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達成了重磅協議,超過 22 萬塊英偉達 GPU 將為 Anthropic 所用。而 Anthropic 對與 SpaceX 合作開發未來的太空算力體系「表示有興趣」。

      在如此龐大的算力需求下,除了開源還有節流。也是今天的最新消息:OpenAI 發布了多路徑可靠連接 (MRC),可幫助大型 AI 訓練集群更快、更可靠地運行,并減少 GPU 時間的浪費。

      我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應用到生產級集群中,也能夠在服務持續增長需求的同時,節約相當可觀的算力。

      來自 LightSeek Foundation 的一個小團隊,在兩個月時間內打造了一個全新的,號稱「光速」的大模型推理引擎 TokenSpeed。



      這一引擎擁有TensorRT LLM 級別的性能,vLLM 級別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內核。

      一經發布,TokenSpeed 就受到了英偉達發推文力薦。



      目前,該引擎已經開源。讓我們參閱其技術博客,來深入了解「光速」引擎的技術細節。



      • 博客標題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
      • 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
      • Github 鏈接:https://github.com/lightseekorg/tokenspeed

      TokenSpeed 技術簡介

      TokenSpeed 從第一性原理出發,專門為智能體推理場景設計。它為智能體負載提供接近「光速級」的推理能力,核心包括:基于編譯器的并行建模機制、高性能調度器、安全的 KV 資源復用約束、支持異構加速器的可插拔分層 kernel 系統,以及用于低開銷 CPU 側請求入口的 SMG 集成。

      建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數據)設計,在性能與易用性之間取得平衡。TokenSpeed 允許開發者在模塊邊界指定 I/O placement 注解。隨后,一個輕量級靜態編譯器會在模型構建過程中自動生成所需的 collective operation,從而無需手動實現通信邏輯。

      TokenSpeed 調度器將控制平面(control plane)與執行平面(execution plane)解耦。

      控制平面使用 C++ 實現,并被構建為一個有限狀態機(FSM),結合類型系統,在編譯期而非運行期強制執行安全資源管理,包括 KV cache 狀態轉移與使用。請求生命周期、KV cache 資源以及重疊執行時序,都通過顯式 FSM 狀態遷移與所有權語義進行表示,因此系統正確性并非依賴約定,而是由一個可驗證的控制系統來保證。

      執行平面則使用 Python 實現,以保持開發效率,使研究人員與工程師能夠更快進行功能迭代,并降低整體認知負載。

      TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級模塊化子系統。它提供了可移植的公共 API、集中的注冊與選擇機制、組織良好的實現結構、面向異構加速器的可擴展插件機制、經過整理的依賴體系,以及統一的快速迭代基礎設施。

      與此同時,團隊還針對 NVIDIA Blackwell 架構進行了大量性能優化。例如,他們構建了當前智能體負載場景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場景下「num_heads」較小,團隊通過對「q_seqlen」與「num_heads」進行分組,以更充分利用 Tensor Core 的計算能力。而 binary prefill kernel 則包含了經過精細調優的 softmax 實現。

      目前,TokenSpeed MLA 已被 vLLM 采用。

      TokenSpeed 性能預覽

      Coding Agents(編碼智能體)帶來了異常嚴苛的推理工作負載,上下文通常會超過 50K tokens,對話也經??缭綌凳啞4蠖鄶倒_基準測試并不能充分捕捉這種行為。

      研發團隊與 EvalScope 團隊一起,基于 SWE-smith 軌跡對 TokenSpeed 進行評估,這些軌跡密切反映了生產環境中 Coding Agents 的流量情況。由于生成速度對 Agent 的用戶體驗至關重要,因此,團隊的目標是在維持單用戶 TPS(每秒 token 數)下限的同時,最大化單 GPU 的 TPM(每分鐘 token 數)—— 通常是 70 TPS,有時是 200 TPS 或更高。

      此外,研發團隊針對 TensorRT-LLM(目前 NVIDIA Blackwell 平臺上的最高水平)對這一設計進行了基準測試,并在認為針對 Agentic workloads 存在更好權衡的地方,采取了與之不同的設計方案。

      下圖展示了在不同部署配置下(無 PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。

      每條曲線都以 TPS/User(橫軸)作為延遲指標,以 TPM/GPU(縱軸)作為吞吐指標,并通過掃描并發數繪制而成。對于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

      在這一配置下,TokenSpeed 在整個帕累托前沿上均優于 TensorRT-LLM:在最低延遲場景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。



      團隊表示,他們的核心優化之一是 TokenSpeed MLA。下圖對比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



      可以看出來,優化后的二進制版本預填充內核(prefill kernel),使用 NVIDIA 內部旋鈕來微調 softmax 實現,在 Coding Agents 的五種典型預填充工作負載(帶長前綴 KV cache 的 prefill)中,都超過了 TensorRT-LLM 的 MLA。解碼內核則將查詢序列軸折疊進頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。

      結合其他優化,在帶有 speculative decoding 的典型解碼工作負載中(batch size 為 4、8、16,且帶長前綴 KV cache),這使得相對于 TensorRT-LLM 來說,延遲幾乎降低了一半。

      最后,研發團隊也表示,該項目于 2026 年 3 月中旬啟動開發,雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲等)正在合并和完善中,接下來將繼續推進。

      從上述性能表現來看,不難看出,TokenSpeed 的出現旨在通過更現代化的架構設計,打破傳統推理框架在易用性與極致性能之間的平衡點,為大規模 Agent 部署提供了一個高性能、開源的底座。而英偉達的力薦,也說明推理引擎正在成為 Agent 時代基礎設施競爭的一個新焦點。

      更多信息,請參閱原博客!

      https://x.com/lightseekorg/status/2052048105412141376

      https://x.com/NVIDIAAI/status/2052061195381911806

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被終身禁足!36歲前國門時隔3年再露面 曾收80萬踢假球助泰山奪冠

      被終身禁足!36歲前國門時隔3年再露面 曾收80萬踢假球助泰山奪冠

      我愛英超
      2026-05-10 12:31:04
      看王曼昱全程冷著臉,我真的特別難受。

      看王曼昱全程冷著臉,我真的特別難受。

      小光侃娛樂
      2026-03-13 07:55:12
      2026禁賭整治鋪開!棋牌室家庭麻將合法邊界

      2026禁賭整治鋪開!棋牌室家庭麻將合法邊界

      小鹿姐姐情感說
      2026-05-10 10:01:38
      Lisa被曝出新瓜,慘遭LV三公子虐棄后瘋魔,拉同伴下水當上位籌碼

      Lisa被曝出新瓜,慘遭LV三公子虐棄后瘋魔,拉同伴下水當上位籌碼

      花哥扒娛樂
      2026-05-10 21:34:54
      拉菲尼亞:弗里克就像我足球上的“父親”,這場勝利獻給他

      拉菲尼亞:弗里克就像我足球上的“父親”,這場勝利獻給他

      懂球帝
      2026-05-11 05:39:00
      巴塞羅那2-0皇馬,賽后評分出爐:巴塞羅那14號排第一

      巴塞羅那2-0皇馬,賽后評分出爐:巴塞羅那14號排第一

      側身凌空斬
      2026-05-11 04:58:36
      籃板王!西班牙MVP,賽季結束了…

      籃板王!西班牙MVP,賽季結束了…

      左右為籃
      2026-05-10 21:33:23
      蒯曼真扶不起!又輸日本,秦志戩許昕指點也沒用,又靠孫穎莎救場

      蒯曼真扶不起!又輸日本,秦志戩許昕指點也沒用,又靠孫穎莎救場

      三十年萊斯特城球迷
      2026-05-10 21:04:41
      去年披國安戰袍、今年是海港猛將,張源:賽前反復告誡自己不能把球傳給老隊友

      去年披國安戰袍、今年是海港猛將,張源:賽前反復告誡自己不能把球傳給老隊友

      上觀新聞
      2026-05-11 04:45:05
      拉什福德飆世界波+2-0擊敗皇馬,巴薩提前3輪衛冕,迎西甲2連冠

      拉什福德飆世界波+2-0擊敗皇馬,巴薩提前3輪衛冕,迎西甲2連冠

      側身凌空斬
      2026-05-11 04:57:12
      你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

      你坐火車有過哪些奇葩經歷?網友:怪自己那時候太單純!

      夜深愛雜談
      2025-12-21 17:37:52
      2026年中國經濟能好起來嗎?一個憋了20年的問題,終于要解了

      2026年中國經濟能好起來嗎?一個憋了20年的問題,終于要解了

      柏年說政經
      2026-05-09 18:00:03
      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      汪峰森林北分手了?女方回應堪比教科書!網友:段位碾壓章子怡

      汪峰森林北分手了?女方回應堪比教科書!網友:段位碾壓章子怡

      奇怪的鯊魚們
      2026-05-11 05:13:32
      預計11日1時至8時,濟南歷下區、市中區、槐蔭區、天橋區、歷城區、南山區和起步區將有雷陣雨,局部10級以上陣風!

      預計11日1時至8時,濟南歷下區、市中區、槐蔭區、天橋區、歷城區、南山區和起步區將有雷陣雨,局部10級以上陣風!

      魯中晨報
      2026-05-10 17:54:04
      特朗普訪華還有4天,白宮前高管直言不諱:中國可以減少讓步!

      特朗普訪華還有4天,白宮前高管直言不諱:中國可以減少讓步!

      共工之錨
      2026-05-11 00:06:47
      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      TVB的四小花
      2026-05-10 10:38:33
      恥辱!阿森納 7000 萬水貨坑慘全隊,險成丟分罪人

      恥辱!阿森納 7000 萬水貨坑慘全隊,險成丟分罪人

      奶蓋熊本熊
      2026-05-11 02:00:28
      原本只是想壓價,輿論讓央視進退兩難!不買版權或造成更大損失

      原本只是想壓價,輿論讓央視進退兩難!不買版權或造成更大損失

      中國足球的那些事兒
      2026-05-09 17:34:11
      張文宏:病毒傳播路徑異常!中國涉郵輪人員核酸陰性!美英荷等國相繼表態

      張文宏:病毒傳播路徑異常!中國涉郵輪人員核酸陰性!美英荷等國相繼表態

      縱相新聞
      2026-05-10 13:56:12
      2026-05-11 05:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      頭條要聞

      王楚欽助男乒12連冠+生日捧杯:球迷陪伴是最好禮物

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      房產
      數碼
      旅游
      時尚
      親子

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      數碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      旅游要聞

      北京“二綠地區”郊野公園煥新升級

      真愛大牌|| 用了4年都不舍得換,終于把小貴的價格也磨下來了

      親子要聞

      從第一聲呼喚開始,愛就有了名字

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 在线观看国产日本| 国产人妻精品无码av在线| 特级欧美视频aaaaaa| 国产香蕉尹人在线视频你懂的| 亚洲精品字幕| 久久亚洲不卡一区二区| 97视频精品全国免费观看| 99免费视频| 国产精品香蕉在线观看不卡| 国产精品免费看香蕉| 国产精品普通话国语对白露脸 | 国产精品一品二区三区日韩 | 免费人成网ww555kkk在线| 欧美肥老太牲交大战| 亚洲欧美?va天堂人熟伦| 国产麻豆精品在线观看| 五月丁香成人网| 亚洲色大成网站www应用| 天天躁夜夜躁天干天干2020| 国产成人a在线观看视频免费| 欧美性交视屏| 嫩草院一区二区乱码| 亚洲综合无码| 性色av极品无码专区亚洲| 国产精品欧美亚洲韩国日本久久| 日韩国产中文字幕精品| 3P视频网站视频网站视频网站在线播放| 91大神福利视频| 无码avav无码中文字幕| 狠狠色婷婷久久一区二区| 国产午夜精品av一区二区麻豆| 激情狠狠| 亚洲av综合色区无码一区爱av| 亚洲天堂av免费在线看| 国产精品久久久久久久白晢女i| 人妻视频一区二三区| 无码一区二区三区在线观看 | 国产免费毛卡片| 无码av无码一区二区| 亚洲伊人成综合网2222| 国产午夜av秒播在线观看|