<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      英偉達(dá)力薦,小團(tuán)隊(duì)兩個(gè)月開(kāi)源一款「光速級(jí)」智能體推理引擎

      0
      分享至



      機(jī)器之心編輯部

      智能體時(shí)代的核心是算力。

      尤其是在 Coding Agent 爆發(fā)之后,算力問(wèn)題變得前所未有地尖銳。Claude Code、Codex、Cursor 等產(chǎn)品正在把 AI 從「問(wèn)答工具」變成「持續(xù)運(yùn)行的軟件協(xié)作者」,單次會(huì)話輕松突破 50K tokens,系統(tǒng)負(fù)載轉(zhuǎn)向了更極端、更復(fù)雜的智能體負(fù)載。

      最近有關(guān)算力的大新聞層出不窮。今天的最新消息:馬斯克的 SpaceX 與 Anthropic 宣布達(dá)成了重磅協(xié)議,超過(guò) 22 萬(wàn)塊英偉達(dá) GPU 將為 Anthropic 所用。而 Anthropic 對(duì)與 SpaceX 合作開(kāi)發(fā)未來(lái)的太空算力體系「表示有興趣」。

      在如此龐大的算力需求下,除了開(kāi)源還有節(jié)流。也是今天的最新消息:OpenAI 發(fā)布了多路徑可靠連接 (MRC),可幫助大型 AI 訓(xùn)練集群更快、更可靠地運(yùn)行,并減少 GPU 時(shí)間的浪費(fèi)。

      我們知道,即便只是單 GPU 吞吐率上的微小提升,一旦應(yīng)用到生產(chǎn)級(jí)集群中,也能夠在服務(wù)持續(xù)增長(zhǎng)需求的同時(shí),節(jié)約相當(dāng)可觀的算力。

      來(lái)自 LightSeek Foundation 的一個(gè)小團(tuán)隊(duì),在兩個(gè)月時(shí)間內(nèi)打造了一個(gè)全新的,號(hào)稱「光速」的大模型推理引擎 TokenSpeed。



      這一引擎擁有TensorRT LLM 級(jí)別的性能,vLLM 級(jí)別的易用性。并且擁有 NVIDIA Blackwell 上最快的 MLA 注意力內(nèi)核。

      一經(jīng)發(fā)布,TokenSpeed 就受到了英偉達(dá)發(fā)推文力薦。



      目前,該引擎已經(jīng)開(kāi)源。讓我們參閱其技術(shù)博客,來(lái)深入了解「光速」引擎的技術(shù)細(xì)節(jié)。



      • 博客標(biāo)題:TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads
      • 博客鏈接:https://lightseek.org/blog/lightseek-tokenspeed.html
      • Github 鏈接:https://github.com/lightseekorg/tokenspeed

      TokenSpeed 技術(shù)簡(jiǎn)介

      TokenSpeed 從第一性原理出發(fā),專門(mén)為智能體推理場(chǎng)景設(shè)計(jì)。它為智能體負(fù)載提供接近「光速級(jí)」的推理能力,核心包括:基于編譯器的并行建模機(jī)制、高性能調(diào)度器、安全的 KV 資源復(fù)用約束、支持異構(gòu)加速器的可插拔分層 kernel 系統(tǒng),以及用于低開(kāi)銷 CPU 側(cè)請(qǐng)求入口的 SMG 集成。

      建模層采用本地 SPMD(Single Program, Multiple Data,單程序多數(shù)據(jù))設(shè)計(jì),在性能與易用性之間取得平衡。TokenSpeed 允許開(kāi)發(fā)者在模塊邊界指定 I/O placement 注解。隨后,一個(gè)輕量級(jí)靜態(tài)編譯器會(huì)在模型構(gòu)建過(guò)程中自動(dòng)生成所需的 collective operation,從而無(wú)需手動(dòng)實(shí)現(xiàn)通信邏輯。

      TokenSpeed 調(diào)度器將控制平面(control plane)與執(zhí)行平面(execution plane)解耦。

      控制平面使用 C++ 實(shí)現(xiàn),并被構(gòu)建為一個(gè)有限狀態(tài)機(jī)(FSM),結(jié)合類型系統(tǒng),在編譯期而非運(yùn)行期強(qiáng)制執(zhí)行安全資源管理,包括 KV cache 狀態(tài)轉(zhuǎn)移與使用。請(qǐng)求生命周期、KV cache 資源以及重疊執(zhí)行時(shí)序,都通過(guò)顯式 FSM 狀態(tài)遷移與所有權(quán)語(yǔ)義進(jìn)行表示,因此系統(tǒng)正確性并非依賴約定,而是由一個(gè)可驗(yàn)證的控制系統(tǒng)來(lái)保證。

      執(zhí)行平面則使用 Python 實(shí)現(xiàn),以保持開(kāi)發(fā)效率,使研究人員與工程師能夠更快進(jìn)行功能迭代,并降低整體認(rèn)知負(fù)載。

      TokenSpeed 的 kernel 層將 kernel 從核心引擎中解耦,并將其視為一級(jí)模塊化子系統(tǒng)。它提供了可移植的公共 API、集中的注冊(cè)與選擇機(jī)制、組織良好的實(shí)現(xiàn)結(jié)構(gòu)、面向異構(gòu)加速器的可擴(kuò)展插件機(jī)制、經(jīng)過(guò)整理的依賴體系,以及統(tǒng)一的快速迭代基礎(chǔ)設(shè)施。

      與此同時(shí),團(tuán)隊(duì)還針對(duì) NVIDIA Blackwell 架構(gòu)進(jìn)行了大量性能優(yōu)化。例如,他們構(gòu)建了當(dāng)前智能體負(fù)載場(chǎng)景下速度最快的 MLA(Multi-head Latent Attention,多頭潛在注意力)kernel 之一。在 decode kernel 中,由于部分場(chǎng)景下「num_heads」較小,團(tuán)隊(duì)通過(guò)對(duì)「q_seqlen」與「num_heads」進(jìn)行分組,以更充分利用 Tensor Core 的計(jì)算能力。而 binary prefill kernel 則包含了經(jīng)過(guò)精細(xì)調(diào)優(yōu)的 softmax 實(shí)現(xiàn)。

      目前,TokenSpeed MLA 已被 vLLM 采用。

      TokenSpeed 性能預(yù)覽

      Coding Agents(編碼智能體)帶來(lái)了異常嚴(yán)苛的推理工作負(fù)載,上下文通常會(huì)超過(guò) 50K tokens,對(duì)話也經(jīng)??缭綌?shù)十輪。大多數(shù)公開(kāi)基準(zhǔn)測(cè)試并不能充分捕捉這種行為。

      研發(fā)團(tuán)隊(duì)與 EvalScope 團(tuán)隊(duì)一起,基于 SWE-smith 軌跡對(duì) TokenSpeed 進(jìn)行評(píng)估,這些軌跡密切反映了生產(chǎn)環(huán)境中 Coding Agents 的流量情況。由于生成速度對(duì) Agent 的用戶體驗(yàn)至關(guān)重要,因此,團(tuán)隊(duì)的目標(biāo)是在維持單用戶 TPS(每秒 token 數(shù))下限的同時(shí),最大化單 GPU 的 TPM(每分鐘 token 數(shù))—— 通常是 70 TPS,有時(shí)是 200 TPS 或更高。

      此外,研發(fā)團(tuán)隊(duì)針對(duì) TensorRT-LLM(目前 NVIDIA Blackwell 平臺(tái)上的最高水平)對(duì)這一設(shè)計(jì)進(jìn)行了基準(zhǔn)測(cè)試,并在認(rèn)為針對(duì) Agentic workloads 存在更好權(quán)衡的地方,采取了與之不同的設(shè)計(jì)方案。

      下圖展示了在不同部署配置下(無(wú) PD 解耦),TokenSpeed 與 TensorRT-LLM 的 Kimi K2.5 性能帕累托曲線(Pareto curves)。

      每條曲線都以 TPS/User(橫軸)作為延遲指標(biāo),以 TPM/GPU(縱軸)作為吞吐指標(biāo),并通過(guò)掃描并發(fā)數(shù)繪制而成。對(duì)于 Coding Agents(高于 70 TPS/User),最佳配置是 Attention TP4 + MoE TP4。

      在這一配置下,TokenSpeed 在整個(gè)帕累托前沿上均優(yōu)于 TensorRT-LLM:在最低延遲場(chǎng)景下(batch size 1)大約快 9%,在 100 TPS/User 附近吞吐量大約高 11%。



      團(tuán)隊(duì)表示,他們的核心優(yōu)化之一是 TokenSpeed MLA。下圖對(duì)比了 TokenSpeed MLA 與 TensorRT-LLM 的 MLA,后者是目前 NVIDIA Blackwell 上的 SoTA。



      可以看出來(lái),優(yōu)化后的二進(jìn)制版本預(yù)填充內(nèi)核(prefill kernel),使用 NVIDIA 內(nèi)部旋鈕來(lái)微調(diào) softmax 實(shí)現(xiàn),在 Coding Agents 的五種典型預(yù)填充工作負(fù)載(帶長(zhǎng)前綴 KV cache 的 prefill)中,都超過(guò)了 TensorRT-LLM 的 MLA。解碼內(nèi)核則將查詢序列軸折疊進(jìn)頭軸,以更好地填充 BMM1 的 M tile,從而提升 Tensor Core 利用率。

      結(jié)合其他優(yōu)化,在帶有 speculative decoding 的典型解碼工作負(fù)載中(batch size 為 4、8、16,且?guī)чL(zhǎng)前綴 KV cache),這使得相對(duì)于 TensorRT-LLM 來(lái)說(shuō),延遲幾乎降低了一半。

      最后,研發(fā)團(tuán)隊(duì)也表示,該項(xiàng)目于 2026 年 3 月中旬啟動(dòng)開(kāi)發(fā),雖然目前展示了驚人的性能,但仍有大量底層代碼(如 PD 分離、KV 存儲(chǔ)等)正在合并和完善中,接下來(lái)將繼續(xù)推進(jìn)。

      從上述性能表現(xiàn)來(lái)看,不難看出,TokenSpeed 的出現(xiàn)旨在通過(guò)更現(xiàn)代化的架構(gòu)設(shè)計(jì),打破傳統(tǒng)推理框架在易用性與極致性能之間的平衡點(diǎn),為大規(guī)模 Agent 部署提供了一個(gè)高性能、開(kāi)源的底座。而英偉達(dá)的力薦,也說(shuō)明推理引擎正在成為 Agent 時(shí)代基礎(chǔ)設(shè)施競(jìng)爭(zhēng)的一個(gè)新焦點(diǎn)。

      更多信息,請(qǐng)參閱原博客!

      https://x.com/lightseekorg/status/2052048105412141376

      https://x.com/NVIDIAAI/status/2052061195381911806

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      身家上億又如何?58歲名利雙收的江珊,如今27歲女兒成了“心病”

      身家上億又如何?58歲名利雙收的江珊,如今27歲女兒成了“心病”

      杰絲聊古今
      2026-05-08 13:27:19
      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      芹姐說(shuō)生活
      2026-04-19 15:52:53
      張?zhí)m曬一家三口合影!汪小菲眼睛出問(wèn)題,張?zhí)m心軟,主動(dòng)低頭和解

      張?zhí)m曬一家三口合影!汪小菲眼睛出問(wèn)題,張?zhí)m心軟,主動(dòng)低頭和解

      阿纂看事
      2026-05-07 16:51:49
      火箭隊(duì)不必大交易??jī)墒装l(fā)歸隊(duì),可組2套強(qiáng)陣,整體實(shí)力不降反升

      火箭隊(duì)不必大交易??jī)墒装l(fā)歸隊(duì),可組2套強(qiáng)陣,整體實(shí)力不降反升

      熊哥愛(ài)籃球
      2026-05-08 12:48:18
      A股,異動(dòng)拉升!600536,直線拉漲停

      A股,異動(dòng)拉升!600536,直線拉漲停

      中國(guó)基金報(bào)
      2026-05-08 11:09:11
      秋千墜亡女子身后排隊(duì)游客發(fā)聲:該女子同行朋友開(kāi)玩笑稱“沒(méi)綁緊”嚇唬她,事發(fā)后其朋友一直哭泣,深感愧疚

      秋千墜亡女子身后排隊(duì)游客發(fā)聲:該女子同行朋友開(kāi)玩笑稱“沒(méi)綁緊”嚇唬她,事發(fā)后其朋友一直哭泣,深感愧疚

      洪觀新聞
      2026-05-07 14:44:22
      三星手機(jī)中國(guó)正常銷售背后:去年投放13款機(jī)型 銷量至少百萬(wàn)

      三星手機(jī)中國(guó)正常銷售背后:去年投放13款機(jī)型 銷量至少百萬(wàn)

      快科技
      2026-05-07 15:40:20
      青島市長(zhǎng)調(diào)研山姆,第二家店要來(lái)了?

      青島市長(zhǎng)調(diào)研山姆,第二家店要來(lái)了?

      鳳凰網(wǎng)青島
      2026-05-08 09:36:06
      歐盟計(jì)劃將中國(guó)可再生能源設(shè)備制造商逐出市場(chǎng)

      歐盟計(jì)劃將中國(guó)可再生能源設(shè)備制造商逐出市場(chǎng)

      俄羅斯衛(wèi)星通訊社
      2026-05-07 15:10:15
      1936年親手活捉蔣介石的孫銘九:建國(guó)后,上級(jí)部門(mén)破例為他謀工作

      1936年親手活捉蔣介石的孫銘九:建國(guó)后,上級(jí)部門(mén)破例為他謀工作

      磊子講史
      2026-01-22 10:13:17
      盧靖珊二胎兒子乳糖不耐受,4歲女兒嫉妒弟弟,她的處理方式很贊

      盧靖珊二胎兒子乳糖不耐受,4歲女兒嫉妒弟弟,她的處理方式很贊

      椰黃娛樂(lè)
      2026-05-08 10:33:36
      主動(dòng)發(fā)聲,撿漏的機(jī)會(huì)來(lái)了!雷霆棄將適配勇士,庫(kù)里身邊終有幫手

      主動(dòng)發(fā)聲,撿漏的機(jī)會(huì)來(lái)了!雷霆棄將適配勇士,庫(kù)里身邊終有幫手

      體育大朋說(shuō)
      2026-05-08 13:05:29
      足協(xié)杯:賈秀全過(guò)招李瑋鋒!上海倆老板率隊(duì)出戰(zhàn),青島紅獅換主場(chǎng)

      足協(xié)杯:賈秀全過(guò)招李瑋鋒!上海倆老板率隊(duì)出戰(zhàn),青島紅獅換主場(chǎng)

      實(shí)事球是
      2026-05-08 13:04:56
      廣東主場(chǎng)戰(zhàn)北京,G2開(kāi)球時(shí)間確定,許利民打富裕仗,杜鋒還有后手

      廣東主場(chǎng)戰(zhàn)北京,G2開(kāi)球時(shí)間確定,許利民打富裕仗,杜鋒還有后手

      體育大學(xué)僧
      2026-05-07 12:56:04
      23歲女子報(bào)名徒步,因身體不適獨(dú)自返回途中死亡,法院:旅行社免責(zé)聲明無(wú)效

      23歲女子報(bào)名徒步,因身體不適獨(dú)自返回途中死亡,法院:旅行社免責(zé)聲明無(wú)效

      環(huán)球網(wǎng)資訊
      2026-05-08 08:31:15
      張萌在上海時(shí)裝周上一個(gè)雙手托胸的動(dòng)作,照片炸了全網(wǎng)。

      張萌在上海時(shí)裝周上一個(gè)雙手托胸的動(dòng)作,照片炸了全網(wǎng)。

      阿廢冷眼觀察所
      2026-05-06 02:00:26
      一公務(wù)員受邀釣魚(yú)溺亡,親屬:其手機(jī)里發(fā)現(xiàn)該鎮(zhèn)領(lǐng)導(dǎo)干部大量違法違紀(jì)證據(jù),當(dāng)?shù)鼗貞?yīng)

      一公務(wù)員受邀釣魚(yú)溺亡,親屬:其手機(jī)里發(fā)現(xiàn)該鎮(zhèn)領(lǐng)導(dǎo)干部大量違法違紀(jì)證據(jù),當(dāng)?shù)鼗貞?yīng)

      蓬勃新聞
      2026-05-07 22:03:59
      心理學(xué)上說(shuō):如果一個(gè)人對(duì)伴侶百般嫌棄、動(dòng)輒冷戰(zhàn),對(duì)朋友卻體貼入微、有求必應(yīng),不是婚姻死了,根源無(wú)外乎有兩點(diǎn)

      心理學(xué)上說(shuō):如果一個(gè)人對(duì)伴侶百般嫌棄、動(dòng)輒冷戰(zhàn),對(duì)朋友卻體貼入微、有求必應(yīng),不是婚姻死了,根源無(wú)外乎有兩點(diǎn)

      心理觀察局
      2026-05-08 09:22:11
      心理學(xué)有個(gè)殘忍發(fā)現(xiàn):讓別人對(duì)你產(chǎn)生敬畏感的,不是你的強(qiáng)勢(shì),不是你的反擊,而是你骨子里的這兩種“人性破綻”利用術(shù)

      心理學(xué)有個(gè)殘忍發(fā)現(xiàn):讓別人對(duì)你產(chǎn)生敬畏感的,不是你的強(qiáng)勢(shì),不是你的反擊,而是你骨子里的這兩種“人性破綻”利用術(shù)

      心理觀察局
      2026-05-08 09:32:17
      秦昊真坦誠(chéng)?。汉鸵聊莒o結(jié)婚時(shí),她卡里有6000萬(wàn),我就20萬(wàn)

      秦昊真坦誠(chéng)?。汉鸵聊莒o結(jié)婚時(shí),她卡里有6000萬(wàn),我就20萬(wàn)

      阿廢冷眼觀察所
      2026-05-06 15:16:12
      2026-05-08 14:00:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12939文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國(guó)商業(yè)火箭離SpaceX有多遠(yuǎn)?

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開(kāi)業(yè)

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開(kāi)業(yè)

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂(lè)要聞

      黃子佼獲緩刑4年,無(wú)需入獄服刑

      財(cái)經(jīng)要聞

      一覺(jué)醒來(lái),美伊又打起來(lái)了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      健康
      游戲
      軍事航空

      家居要聞

      流動(dòng)的尺度 打破家的形式主義

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      干細(xì)胞治燒燙傷面臨這些“瓶頸”

      《Tokyo Stories》將由Happinet發(fā)行并將出展BitSummit

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢(shì)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 40岁大乳的熟妇在线观看| 我把护士日出水了视频90分钟| 国产日韩精品视频无码| 少妇一晚三次一区二区三区| julia中文字幕久久亚洲| 牲交欧美兽交欧美| 国产黄色自拍视频| 亚洲精品美女久久7777777| 精品人妻一区二区三区|?| 亚洲国产精品尤物YW在线观看| 2018av天堂在线视频精品观看| 福利在线视频一区二区| 中国女明星做爰视频网站| 国产在线精品福利91香蕉| 亚洲美腿丝袜无码专区| 色天使色偷偷色噜噜| 亚洲欧美国产国产综合一区| 国产精品人成在线播放| 国产亚洲精品一区二区不卡| 午夜伊人网| 微拍福利一区二区三区| 国产一区二区三区禁18| 欧美人与牲动交a欧美精品| 精品国产自在久久现线拍| 久久人人97超碰人人澡爱香蕉| 精品久久人人爽天天玩人人妻| 熟女?国产?精品| 亚洲AV第二区国产精品| 久久久精品456亚洲影院| 亚洲精品不卡无码福利在线观看| 亚洲欧美综合精品成人导航| 久久国产亚洲偷自| 亚洲一区二区av偷偷| 日韩一二区在线| 久热这里只有精品视频3| 丰满人妻被中出中文字幕| 亚洲无吗av在线播放| 亚洲成av人片在线观看天堂无| 日日碰狠狠躁久久躁| 日韩一区在线中文字幕| 99re热这里只有精品最新|