<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達加速版 Qwen3.6-35B,雙4090本地部署,性能實測

      0
      分享至

      前文:,我用 vLLM 部署的這個版本


      本文測下 Red Hat 量化團隊 Qwen3.6-35B-A3B-NVFP4(4-bit 浮點)的性能

      NVFP4 量化版:Red Hat 出品
      模型地址:huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

      這個 NVFP4 版本由 Red Hat AI 團隊使用 llm-compressor 完成量化

      ? llm-compressor 是 vLLM 項目下的量化工具庫,專門為 vLLM 推理做優(yōu)化,支持 GPTQ、AWQ、SmoothQuant、FP8、NVFP4 等多種方案

      NVFP4 的核心:權(quán)重和激活都量化到 FP4(W4A4),使用 E2M1 格式 + 16 元素微塊縮放

      Red Hat 跑了 GSM8K Platinum 評測,初步結(jié)果相當驚艷:

      版本

      GSM8K Platinum 準確率

      原版 BF16

      NVFP4 量化版

      恢復率

      100.69%

      量化后精度居然比原版高了一丟丟

      當然這有統(tǒng)計波動因素,但至少說明 NVFP4 量化對精度的損失可以忽略不計

      實測部署:vLLM + Docker

      我在雙 4090 GPU 服務器上用 Docker + vLLM 部署了這個模型

      Docker 啟動命令

      docker run -d --name qwen36-35b-a3b-int4 \
      --gpus all \
      -v /data/llm-models/Qwen3.6-35B-A3B-NVFP4:/model \
      -p 8000:8000 \
      vllm/vllm-openai:v0.19.1 \
      --model /model \
      --served-model-name qwen3.6-35-int4 \
      --tensor-parallel-size 2 \
      --max-model-len 102400 \
      --kv-cache-dtype fp8 \
      --enable-prefix-caching \
      --language-model-only \
      --max-num-batched-tokens 8192 \
      --max-num-seqs 24 \
      --default-chat-template-kwargs '{"enable_thinking": false}'

      幾個關(guān)鍵參數(shù)說明

      • --tensor-parallel-size 2:雙卡張量并行

      • --kv-cache-dtype fp8:KV Cache 用 FP8 存儲,進一步節(jié)省顯存

      • --language-model-only:跳過視覺編碼器,把顯存省給 KV Cache

      • --enable-prefix-caching:開啟前綴緩存加速

      • --default-chat-template-kwargs '{"enable_thinking": false}':默認關(guān)閉思考模式,需要的時候再開

      部署數(shù)據(jù)一覽

      從啟動日志里扒出來的關(guān)鍵數(shù)據(jù):

      指標

      數(shù)值

      vLLM 版本

      0.19.1

      模型加載耗時

      24 秒

      模型顯存占用10.61 GiB

      (每卡)

      torch.compile 編譯耗時

      39.49 秒

      初始化總耗時

      136.49 秒

      GPU KV Cache 容量

      494,656 tokens

      最大并發(fā)(102K 上下文)

      17.18x

      CUDA Graph 顯存

      0.81 GiB


      非 Blackwell GPU 跑 NVFP4

      WARNING: Your GPU does not have native support for FP4 computation 
      but FP4 quantization is being used. Weight-only FP4 compression
      will be used leveraging the Marlin kernel. This may degrade
      performance for compute-heavy workloads.

      我的 GPU 設備能力是 8.9(Ada Lovelace 架構(gòu)),不支持原生 FP4 計算

      vLLM 自動退回到Marlin 內(nèi)核做 weight-only FP4 解壓——推理時權(quán)重從 FP4 解壓到高精度再參與計算,激活量化的加速效果就沒了

      GPU 架構(gòu)

      FP4 原生支持

      NVFP4 實際行為

      Blackwell (B100/B200)

      支持

      W4A4 全量化加速

      Hopper (H100/H200)

      不支持

      Weight-only + Marlin 解壓

      Ada (L40S/4090)不支持Weight-only + Marlin 解壓

      所以如果你和我一樣用 Ada 架構(gòu)的 GPU,NVFP4 的核心收益是省顯存

      推理速度的提升主要來自模型變小后降低的內(nèi)存帶寬需求,要拿到 NVFP4 真正的 W4A4 全量化加速,需要 Blackwell GPU

      還有兩個值得留意的細節(jié):

      • Mamba Cache 實驗性支持:日志里提示 prefix caching 對 Mamba 層的支持還在實驗階段。Qwen3.6 用了 Gated DeltaNet(一種線性注意力變體),vLLM 對這類層的緩存機制還在打磨中

      • Custom AllReduce 被禁用:因為 GPU 之間不支持 P2P 直連,退回到 NCCL 通信。多卡并行的效率會有一點點損失

      對比前文同為 vLLM 0.19.1 拉起的 Qwen3.6-35B-A3B-AWQ-4bit

      各方面都有提升


      部署建議

      硬件選擇

      • 最低 2x RTX 4090(24GB),可以跑 100K 上下文,或許可以更高,我沒再加

      • 有 Blackwell GPU 的話能獲得最完整的 NVFP4 加速

      推理框架

      • vLLM 版本 0.19.0 以上,推薦 0.19.1,前文我也測了 v0.17 也可以

      • 官方同時支持 SGLang 和 KTransformers

      采樣參數(shù)建議

      • Thinking 模式:temperature=1.0, top_p=0.95, top_k=20, presence_penalty=1.5

      • 精確編程任務:temperature=0.6, top_p=0.95, top_k=20, presence_penalty=0.0

      • 非思考模式:temperature=0.7, top_p=0.8, top_k=20, presence_penalty=1.5

      Agent 場景推薦開啟preserve_thinking,能在多輪對話中保留思維鏈上下文,減少重復推理的 token 消耗

      .6

      制作不易,如果這篇文章對你有幫助,可否幫我個忙。給我個三連擊:點贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個星標,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      4死1傷!遼寧遼陽發(fā)布一起較大交通事故調(diào)查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      4死1傷!遼寧遼陽發(fā)布一起較大交通事故調(diào)查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      揚子晚報
      2026-05-12 20:57:58
      干了20年殯葬,我希望所有家屬拿到骨灰后,不要把親人塞進后備箱

      干了20年殯葬,我希望所有家屬拿到骨灰后,不要把親人塞進后備箱

      千秋文化
      2026-05-12 20:21:18
      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問題

      張本智和回到日本 當眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問題

      風過鄉(xiāng)
      2026-05-12 20:36:06
      穿禮服后退款后續(xù):女子身份曝光社死,工作遭牽連,商家準備起訴

      穿禮服后退款后續(xù):女子身份曝光社死,工作遭牽連,商家準備起訴

      八斗小先生
      2026-05-12 17:23:09
      女子跪求丈夫諒解后續(xù):妻子被捉奸兩次,望丈夫再原諒自己一次

      女子跪求丈夫諒解后續(xù):妻子被捉奸兩次,望丈夫再原諒自己一次

      漢史趣聞
      2026-05-12 15:53:02
      中方阻斷令收意外之喜,27國開始共振,美將面臨三重“地震”

      中方阻斷令收意外之喜,27國開始共振,美將面臨三重“地震”

      鳥兒太能吃
      2026-05-11 16:27:45
      英媒蓋棺定論:特朗普未登機,美國債務爆雷,時代已然終結(jié)

      英媒蓋棺定論:特朗普未登機,美國債務爆雷,時代已然終結(jié)

      古事尋蹤記
      2026-05-12 07:12:15
      劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

      劉嘉玲曬法國生活,梁朝偉在老婆鏡頭下?lián)祀u蛋,兩口子生活好愜意

      喜歡歷史的阿繁
      2026-05-12 12:12:22
      雅迪愛瑪不香了?內(nèi)行人透露:最值得買的6個高性價比電動車品牌

      雅迪愛瑪不香了?內(nèi)行人透露:最值得買的6個高性價比電動車品牌

      老特有話說
      2026-05-12 15:40:47
      工作中刁難群眾、吃拿卡要!珠海香洲區(qū)住建系統(tǒng)3人被查

      工作中刁難群眾、吃拿卡要!珠海香洲區(qū)住建系統(tǒng)3人被查

      南方都市報
      2026-05-12 12:00:13
      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      不是盟友,勝似盟友!以色列“激光盾牌”馳援阿聯(lián)酋

      上觀新聞
      2026-05-12 15:48:11
      1940年最完美的暗殺:“23名保鏢貼身保護,但腦袋卻被人砍掉”

      1940年最完美的暗殺:“23名保鏢貼身保護,但腦袋卻被人砍掉”

      紀實文錄
      2025-05-08 16:15:44
      國際足聯(lián)輸了,他輸給的不是電視轉(zhuǎn)播,他輸給了中國球迷!

      國際足聯(lián)輸了,他輸給的不是電視轉(zhuǎn)播,他輸給了中國球迷!

      故事終將光明磊落
      2026-05-12 14:04:16
      男團、女團奪冠僅1天,韓媒、日媒接連發(fā)聲銳評,態(tài)度出奇一致

      男團、女團奪冠僅1天,韓媒、日媒接連發(fā)聲銳評,態(tài)度出奇一致

      夢醉為紅顏一笑
      2026-05-12 11:54:46
      多名家長反映成都又一幼兒園將閉園 教育局回應

      多名家長反映成都又一幼兒園將閉園 教育局回應

      天府觀察
      2026-05-11 15:59:43
      疫情向十多國擴散?美國放走漢坦病毒感染者,開始給全世界埋雷?

      疫情向十多國擴散?美國放走漢坦病毒感染者,開始給全世界埋雷?

      明天見灌裝冰塊
      2026-05-12 21:10:57
      53歲古巨基首曬半歲次子,大眼仔呆萌可愛,表白57歲太太:相守30年,你最偉大

      53歲古巨基首曬半歲次子,大眼仔呆萌可愛,表白57歲太太:相守30年,你最偉大

      手工制作阿殲
      2026-05-12 15:36:56
      美國體操丑聞再爆發(fā)!教練暗藏攝像頭,偷拍6至14歲少女換衣

      美國體操丑聞再爆發(fā)!教練暗藏攝像頭,偷拍6至14歲少女換衣

      夜白侃球
      2026-05-12 10:32:21
      有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

      有100萬存款的家庭,日子過得咋樣?網(wǎng)友分享讓人大跌眼鏡!

      夜深愛雜談
      2026-03-02 22:37:17
      50歲才醒悟:飯局上,領(lǐng)導低聲對你說“去把賬結(jié)了”,千萬別說“好”,聰明人都這么辦

      50歲才醒悟:飯局上,領(lǐng)導低聲對你說“去把賬結(jié)了”,千萬別說“好”,聰明人都這么辦

      心理觀察局
      2026-05-12 09:39:11
      2026-05-13 00:47:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區(qū)淪陷

      財經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      教育
      游戲
      房產(chǎn)
      親子
      本地

      教育要聞

      求求你試試「5+1+1」學習法!!!

      三國望神州:馬云祿技能前瞻分析!又一個暴擊怪+再動怪的誕生!

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      親子要聞

      有點東西。周寧運動空間

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久香综合精品久久伊人| 98国产精品永久在线观看| 午夜大片男女免费观看爽爽爽尤物 | 国内精品久久久久影院网站| 国产熟女a?v| 亚洲国产成人精品无码一区二区| 亚洲AV无码成人精品区一区| 牛鞭伸入女人下身的真视频| 久久伊人精品| 波多野美乳人妻hd电影欧美| 新绛县| 熟女中文字幕?在线| 国产精品亚洲а∨天堂2021| 精久久久久无码区中文字幕| 久久亚洲综合色| 亚洲 自拍 另类 欧美 综合 | 久久精品国产蜜臀av| 亚洲中文字幕av无码专区| 欧洲国产精品无码专区影院| 国产精品美女久久久网av| 免费男人和女人牲交视频全黄| 在线高清亚洲精品二区| 人人妻人人藻人人爽欧美一区 | 亚洲男女一区二区三区| 亚洲线精品一区二区三八戒| 国产成人8x视频一区二区| 免费国产在线一区二区 | 九九免费精品视频在线观看 | 国产成人亚洲日韩欧美| 亚洲人操人| WWW.四虎成人影院.CN| 国产精品久草不停| 久久久精品免费国产四虎| 在线五月婷婷| 日韩精品一区二区三区无| 亚洲AV秘?无码不卡在线观看| 日本熟妇hdsex视频| 男人的天堂無碼| 国产国拍亚洲精品福利| 国产精品视频一区二区三区四| 成人午夜福利精品一区二区|