<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大版本更新,vLLM 0.20 來了,支持 DeepSeek V4

      0
      分享至


      大家好,我是 Ai 學習的老章

      vLLM 是公眾號的老朋友了,每次更新我都有介紹

      今天再來聊聊昨晚剛發布的 vLLM v0.20.0,這一版動靜實在不小,我看完 release notes 第一反應是——這哪是版本更新,這是把推理引擎的天花板又往上頂了一截!!!


      簡介

      v0.20.0 是 vLLM 一次相當激進的版本,官方數據是 752 次提交、320 位貢獻者(其中 123 位是新面孔),開源社區的火力還在持續加碼

      挑幾個我覺得最值得說的:


      1. DeepSeek V4 首發支持

      DSV4 剛出頭,vLLM 這邊初始化支持就跟上了(),還順帶修了 DSV4/3.2 的 token 泄漏()、DSA + MTP 的非法訪問(),共享專家上的 silu clamp 限幅也補上了

      國內做大模型部署的朋友應該會很關心這條,DeepSeek 系列這兩年是 vLLM 主要的優化對象之一,新一代模型一出就能跑,這個響應速度沒誰了

      2. CUDA 13.0 成為默認

      PyPI 上的默認 CUDA wheel 和 vllm/vllm-openai:v0.20.0 鏡像都切到了 CUDA 13.0(),跟著 PyTorch 2.11.0 一起升到了 13.0.2()

      官方那句話很明確——vLLM 的 CUDA 策略跟著 PyTorch 走,如果你機器上還是 CUDA 12.9,建議用 uv 安裝并加 --torch-backend=cu129,別硬剛

      3. PyTorch 2.11 + Python 3.14

      這次 vLLM 直接上了 torch 2.11(),XPU 也不再卡在 2.10(),Python 3.14 也進了官方支持列表()

      提醒一句,這是個 breaking change,老環境直接 pip install 大概率翻車,建議干凈環境裝

      4. Transformers v5 適配完成

      vLLM 現在能跑在 HuggingFace transformers>=5 上了(),各種視覺編碼器、PaddleOCR、Mistral YaRN、Jina ColBERT 的兼容問題都修了一遍

      5. FlashAttention 4 默認開啟 MLA prefill

      FA4 重新成為 MLA prefill 默認后端(),SM90+ 上支持 head-dim 512 + paged-KV()

      跑 DeepSeek 這類 MLA 架構的,prefill 階段會有肉眼可見的提速

      6. TurboQuant 2-bit KV cache(這個是真硬核)

      新加了一個 attention backend,2-bit KV 緩存壓縮,等效容量翻 4 倍(),FA3/FA4 prefill 都已經接上()

      KV cache 一直是長上下文場景下顯存的最大殺手,2-bit 這個量級要是精度損失可控,對 32K/128K 長文場景就是降維打擊

      7. 在線量化前端

      端到端的在線量化前端落地(),文檔也補全了();experts_int8 合并進 FP8 在線路徑(),MXFP8 也遷到新前端()

      意思是——以后跑量化模型不用提前折騰權重,加載階段就給你量化好

      8. vLLM IR 初步成型

      新加了 IR 骨架和 rms_norm 算子(),OOT 平臺 kernel 導入鉤子(),gemma_rms_norm 改造到 IR 上(),還配套了測試和 benchmark 基礎設施()

      這是個長線工作,未來 kernel 層會越來越解耦,對接國產硬件也會更順

      9. Model Runner V2 持續推進

      Eagle prefill 全 CUDA 圖()、根據 attention 后端自動確定 cudagraph 模式和尺寸()、融合的概率拒絕采樣 kernel()、多 prompt logprobs 支持(),還有一個修了精度回歸的提交()

      MRV2 這條線已經搞了好幾個版本,眼看著越來越成熟

      10. 新模型一大把

      DeepSeek V4、Hunyuan v3 preview、Granite 4.1 Vision、EXAONE-4.5、Phi-4-reasoning-vision-15B、jina-reranker-v3、Jina Embeddings v5、Nemotron-v3 VL Nano/Super

      看了一眼,幾乎覆蓋了最近一兩個月所有值得跑的開源模型

      安裝

      按官方推薦用 uv 安裝最穩:

      uv pip install vllm==0.20.0

      如果你機器上 CUDA 是 12.9 而不是 13.0:

      uv pip install vllm==0.20.0 --torch-backend=cu129

      Docker 鏡像直接拉:

      docker pull vllm/vllm-openai:v0.20.0
      使用

      跑個 DeepSeek 系列試試水(API 兼容 OpenAI):

      vllm serve deepseek-ai/DeepSeek-V3.2 \
      --tensor-parallel-size 8 \
      --max-model-len 32768

      啟用新的 2-bit KV cache(注意是實驗特性):

      vllm serve 
                      
       \ 
              
      --kv-cache-dtype turboquant \
      --max-model-len 131072

      在線量化(無需提前轉權重):

      vllm serve meta-llama/Llama-3.1-70B-Instruct \
      --quantization fp8
      實測建議

      我的幾點判斷:

      值得升級的場景

      • 跑 DeepSeek V4/V3.2、Hunyuan v3、Gemma4 這些新模型——v0.20.0 是當前最優解

      • 長上下文場景,2-bit KV cache 值得一試,省下來的顯存夠多塞一個模型

      • 國產硬件部署,新的 IR 和 ROCm/XPU 路徑修復了一堆坑(華為昇騰、AMD MI300、Intel XPU 都有專項更新)

      先別急著升的情況

      • 生產環境跑得穩定的 v0.19.x,沒必要湊熱鬧,等 v0.20.1 patch 出來再說

      • CUDA 還是 12.x 的環境,要么升 CUDA 要么加 --torch-backend=cu129 ,別硬裝

      • Python 還在 3.10/3.11 的,上來要么先升 Python 要么留意 wheel 是否匹配

      幾個有意思的細節

      • Ray 這次還是不是默認依賴(v0.18.0 移除的),需要的話單獨裝

      • 默認開啟 CUDAGraph 的內存 profiling(),啟動時顯存賬單更清晰,但啟動會稍微慢一點

      • DBO 微批優化已經泛化到通用模型(v0.19.0 加的),v0.20.0 又疊了一堆 MoE 重構,吞吐場景的優化是真沒停過

      總結

      vLLM v0.20.0 是個分水嶺式的版本——CUDA 13、PyTorch 2.11、Transformers v5 一起切,意味著老環境基本得重建一遍,但換來的是 DeepSeek V4 首日支持、2-bit KV cache、FlashAttention 4 默認開啟、在線量化前端這一整套硬通貨

      簡單說就是:折騰一次環境,換未來半年的部署紅利,值

      對推理引擎選型還在糾結的朋友,老規矩——并發量大、追性能上限選 vLLM,單機本地玩玩選 Ollama,混合場景看 SGLang,沒有銀彈

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奶奶騎臺鈴電動車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發生七八次事故;臺鈴回應

      奶奶騎臺鈴電動車接6歲孫子,NFC解鎖后方向突然鎖死兩人摔傷;家屬:不到一年發生七八次事故;臺鈴回應

      大象新聞
      2026-05-12 19:46:06
      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      小叨娛樂
      2026-05-12 13:39:10
      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      界面新聞
      2026-05-12 21:23:09
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      環球網資訊
      2026-05-12 16:52:39
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財經Pro
      2026-05-12 14:04:28
      下降6%!一季度結婚數再創新低,同比減少11萬對,離婚數也少了

      下降6%!一季度結婚數再創新低,同比減少11萬對,離婚數也少了

      網易新聞出品
      2026-05-12 15:45:59
      雖遭橫掃!但41歲詹姆斯賽后仍霸氣發聲:我已做到聯盟所有!

      雖遭橫掃!但41歲詹姆斯賽后仍霸氣發聲:我已做到聯盟所有!

      田先生籃球
      2026-05-12 15:00:22
      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      瀟拾億郎
      2026-05-12 18:03:02
      越來越多的小城市和縣城,只剩下體制內經濟了!

      越來越多的小城市和縣城,只剩下體制內經濟了!

      燈錦年
      2026-05-12 21:06:47
      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      策前論
      2026-05-11 18:13:56
      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      財聞
      2026-05-12 14:53:07
      張本美和態度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      張本美和態度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      小徐講八卦
      2026-05-12 10:07:29
      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      每日經濟新聞
      2026-05-12 17:45:51
      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      李晚書
      2026-05-12 18:54:35
      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      正面連接
      2026-05-12 17:55:48
      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      環球網資訊
      2026-05-11 14:21:45
      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      呼呼歷史論
      2026-05-11 00:22:15
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      以前叫人家強哥,現在請叫植物

      以前叫人家強哥,現在請叫植物

      阿亮評論
      2026-05-12 12:18:33
      2026-05-13 01:55:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      教育
      家居
      本地
      健康
      公開課

      教育要聞

      求求你試試「5+1+1」學習法!!!

      家居要聞

      極簡主義下的居住場域與空間

      本地新聞

      用蘇繡的方式,打開江西婺源

      干細胞能讓人“返老還童”嗎

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 视频一区二区 国产视频| 日韩成人无码影院| 99国产精成人午夜视频一区二区| 亚洲欧美偷拍另类A∨| 亚洲a∨无码精品色午夜| 国产精品久久久久7777按摩| 一区二区三区久久含羞草| 一区二区三区无码被窝影院| 亚洲AV永久无码一区| 国产精品久久久久久久久久妞妞| 夜夜爽影院| 国语做受对白XXXXX在线| 国产JJIZZ女人多水喷水| 乱色老熟妇一区二区三区| 色狠狠久久av五月综合| 久艾草国产成人综合在线视频| 日本一卡二卡四卡无卡乱码视频免费 | 久久久日韩精品一区二区| 国产毛片A啊久久久久| 亚洲日韩欧美在线观看| 欧美三级视频网站| 午夜理论在线观看不卡大地影院| 国产熟妇搡bbbb搡bbbb| 亚洲天堂av日韩精品| 极品人妻少妇一区二区三区| 小嫩批日出水无码视频免费| 日韩一区二区三区射精-百度| 亚洲色一区二区三区四区| 日本一区二区不卡| 99国产三级| 国内精品久久久久久影院8f| 无码中文字幕在线播放2| 伊人成人在线| 色综亚洲国产vv在线观看| 少妇丰满爆乳被呻吟进入 | 国产一区二区三区激情| 国产亚洲精品久久yy50| 中文 国产 无码免费| 天堂tv亚洲tv无码tv| 亚洲尤码不卡av麻豆| 亚洲人女屁股眼交3之懂色|