<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.6-35B,量化、蒸餾版本推薦

      0
      分享至

      一文中我已經把這個模型和部署(原版 + 量化版)介紹的很清楚了,閑逛又發現幾個版本(4bit 量化版、推理加速版、Claude Opus 蒸餾版)很亮眼,推薦給大家。

      第一路:三個 4bit 量化版本

      Qwen3.6 發布還沒捂熱,社區已經搞出了三個 4bit 量化版本

      目標很明確:把顯存需求壓下來,讓消費級顯卡能跑起來

      1. cyankiwi/Qwen3.6-35B-A3B-AWQ-4bit

      AWQ(Activation-aware Weight Quantization)量化,可以用 vLLM 0.19 直接拉起來

      網友測試 2x4060 可以跑出 83tok/s


      2. QuantTrio/Qwen3.6-35B-A3B-AWQ

      同樣是 AWQ 量化,這個版本出自 QuantTrio 團隊,量化后模型大小約 24GB

      有詳細的 vLLM 啟動腳本,支持 MTP(Multi-Token Prediction)推測解碼

      啟動命令參考:

      vllm serve QuantTrio/Qwen3.6-35B-A3B-AWQ \
      --served-model-name MY_MODEL \
      --max-model-len 32768 \
      --gpu-memory-utilization 0.9 \
      --tensor-parallel-size 4 \
      --enable-expert-parallel \
      --reasoning-parser qwen3 \
      --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
      --trust-remote-code

      注意 TP=8 時要加--enable-expert-parallel,否則專家參數分片不均勻會出問題。

      效果在線


      3. RedHatAI/Qwen3.6-35B-A3B-NVFP4

      這個來自 Red Hat AI 團隊,用的是 NVFP4 格式——權重和激活都量化到 FP4

      用 llm-compressor 工具做的量化

      初步評測結果有個小驚喜:

      模型

      GSM8K Platinum 準確率

      Qwen3.6-35B-A3B(原版)

      95.62%

      Qwen3.6-35B-A3B-NVFP4

      96.28%

      恢復率

      100.69%

      量化后準確率居然還漲了一點點

      當然 Red Hat 團隊也說了這只是初步結果,更嚴格的評測還在進行中

      三個量化版本怎么選?

      版本

      量化格式

      特點

      推薦場景

      cyankiwi

      AWQ 4bit

      快速可用

      想嘗鮮、快速驗證

      QuantTrio

      AWQ

      文檔詳細、附啟動腳本

      生產部署參考

      RedHatAI

      NVFP4

      權重 + 激活雙量化、官方團隊出品

      追求更極致壓縮

      三個版本都兼容 vLLM 0.19+,直接vllm serve就能跑

      第二路:DFlash 推理加速版

      DFlash 我介紹過兩次了,老讀者應該不陌生

      簡單回顧一下:DFlash 是一種基于塊擴散模型(Block Diffusion)的推測解碼方法。傳統推測解碼(比如 EAGLE-3)的草稿模型還是自回歸的,一次只能預測一個 token。DFlash 換了個思路——用一個輕量的擴散模型,一次并行生成一整個 block 的 token

      核心技巧在于:DFlash 不讓小模型從零開始預測,而是從目標大模型的隱層特征中提取上下文信息,注入到草稿模型的每一層 KV Cache 中。這樣即使草稿模型很小,也能"借用"大模型的推理能力。

      在 Qwen3-8B 上的實測數據:

      基準測試

      原版

      EAGLE-3 加速

      DFlash 加速

      GSM8K

      2.13×

      5.20×

      MATH-500

      2.18×

      6.17×

      HumanEval

      2.48×

      5.20×

      MBPP

      2.27×

      4.75×

      EAGLE-3 大概 2-2.5 倍加速,DFlash 直接拉到 5-6 倍

      而且這是完全無損的——輸出跟原版一模一樣

      現在 z-lab 團隊第一時間跟進了 Qwen3.6:

      ? z-lab/Qwen3.6-35B-A3B-DFlash

      需要注意的是,這個草稿模型還在訓練中(目前 2000 步),所以效果還會繼續提升。

      使用方式也很簡單,vLLM 一行命令:

      vllm serve Qwen/Qwen3.6-35B-A3B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' \
      --attention-backend flash_attn \
      --max-num-batched-tokens 32768

      SGLang 也已經支持了:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-35B-A3B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.6-35B-A3B-DFlash \
      --speculative-num-draft-tokens 16 \
      --tp-size 1 \
      --attention-backend fa3 \
      --mem-fraction-static 0.75 \
      --trust-remote-code

      早期測試的接受長度(Accept Length)數據:

      數據集

      接受長度

      GSM8K

      6.5

      Math500

      7.2

      HumanEval

      6.2

      MBPP

      5.6

      MT-Bench

      5.0

      接受長度越高意味著加速比越大

      Math500 上平均每次能接受 7.2 個 token,這個數字相當可觀


      第三路:Claude Opus 4.6 蒸餾版

      這條路線大家也應該很熟悉了,我一直在追

      Jackrong 在 Qwen3.5 上做的 Claude Opus 蒸餾系列我介紹過 V2 和 V3,每一版都有明顯提升

      現在社區開發者 hesamation 把這套思路搬到了 Qwen3.6 上:

      ? hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled

      核心思路:保留 Qwen3.6 強大的 Agentic Coding 底座,同時注入 Claude Opus 4.6 風格的結構化推理能力

      訓練方式是用 LoRA 做有監督微調(SFT),然后合并回完整模型

      訓練數據來自三個公開數據集:

      數據集

      樣本量

      用途

      nohurry/Opus-4.6-Reasoning-3000x-filtered

      3,900

      Claude Opus 推理軌跡

      Jackrong/Qwen3.5-reasoning-700x

      700

      精選 Qwen 推理樣本

      Roman1111111/claude-opus-4.6-10000x

      9,633

      更多 Claude Opus 推理示例

      總共約 14,000 條數據,規模不大,但質量很高——都是經過篩選的鏈式推理(Chain-of-Thought)示例。

      訓練配置:

      配置項

      微調方法

      LoRA(僅 Attention 模塊)

      LoRA rank / alpha

      32 / 32

      梯度累積

      32

      訓練輪次

      2

      最終訓練 loss

      最大序列長度

      初步評測數據很亮眼:

      基準測試

      Base 模型

      蒸餾后

      提升

      MMLU-Pro(70 題子集)

      42.86%

      75.71%+32.85pp

      當然,作者也說了這只是 70 道題的小規模測試(14 個學科各 5 題),應該當做 smoke test 看,不是完整評測。但 +32.85 個百分點的提升還是很說明問題的——Claude Opus 的推理數據確實能顯著增強模型的結構化推理能力。

      值得注意的是,這個微調是純文本的。Qwen3.6 底座雖然自帶視覺編碼器,但這輪訓練沒有用到圖像/視頻數據,所以多模態能力基本就是繼承自 base model。

      三路并行,選哪個?

      需求

      推薦方案

      顯存有限,想跑 Qwen3.6

      AWQ/NVFP4 量化版

      追求推理速度,愿意多占點顯存

      DFlash 加速版

      需要更強的推理/分析能力

      Claude Opus 蒸餾版

      又想快又想省顯存

      量化版 + DFlash(理論可疊加,待驗證)

      這三條路線其實不沖突

      量化解決的是"跑得起"的問題

      DFlash 解決的是"跑得快"的問題

      蒸餾解決的是"跑得好"的問題

      我的看法

      1. 評測數據普遍不夠充分。蒸餾版只跑了 70 道 MMLU-Pro 題,NVFP4 版只有一個 GSM8K 分數,量化版基本沒有獨立評測。社區還需要更多人來做嚴格的 benchmark

      2. DFlash 版本還在訓練中。2000 步的草稿模型效果肯定不是最終水平,現階段的性能數據參考價值有限

      3. Qwen3.6 的 base model 本身也是新出的。官方 benchmark 看著很強,但實際使用中的表現還需要時間檢驗

      總的來說,開源 AI 社區圍繞一個模型形成了量化→加速→蒸餾的完整優化鏈,每條路線都有獨立團隊在推進。

      這種分布式協作的效率和活力,可能比任何單個模型的發布都更值得關注

      .6

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      湖南衡陽一居民樓凌晨火災致5死2傷,事發小區無物業;附近居民稱火勢從5樓蔓延至6樓,“5樓的人受傷,6樓的人不幸遇難了,住著一家5口 ”

      湖南衡陽一居民樓凌晨火災致5死2傷,事發小區無物業;附近居民稱火勢從5樓蔓延至6樓,“5樓的人受傷,6樓的人不幸遇難了,住著一家5口 ”

      臺州交通廣播
      2026-05-12 20:49:47
      我50歲才悟出一個道理:凡是從不參加同學聚會、不愛發動態、不混圈子的人,十有八九在這兩個方面遠超常人,觀察了身邊上百人屢試不爽

      我50歲才悟出一個道理:凡是從不參加同學聚會、不愛發動態、不混圈子的人,十有八九在這兩個方面遠超常人,觀察了身邊上百人屢試不爽

      心理觀察局
      2026-05-08 10:35:21
      比亞迪把5分鐘閃充塞進15萬級車型,燃油車最后防線破了

      比亞迪把5分鐘閃充塞進15萬級車型,燃油車最后防線破了

      閃存獵手
      2026-05-12 06:36:51
      剛剛, 澳洲40年來最重磅改革! 移民打分制大改, 買房要交更多錢!

      剛剛, 澳洲40年來最重磅改革! 移民打分制大改, 買房要交更多錢!

      澳微Daily
      2026-05-12 18:59:08
      遭內地“永久封殺”的5部高分影片,尺度突破天際,你看過幾部?

      遭內地“永久封殺”的5部高分影片,尺度突破天際,你看過幾部?

      小微看電影
      2026-05-13 06:55:03
      北京一男子意外收到7年前捐贈退款!受助人渡過難關后,向7000人返還近27萬元善款并留言:感謝幫助,祝好心人一切順遂

      北京一男子意外收到7年前捐贈退款!受助人渡過難關后,向7000人返還近27萬元善款并留言:感謝幫助,祝好心人一切順遂

      背包旅行
      2026-05-12 17:18:04
      伊朗官員:若伊再次遭襲或將鈾濃縮豐度提升至90%

      伊朗官員:若伊再次遭襲或將鈾濃縮豐度提升至90%

      新華社
      2026-05-12 14:58:17
      現實版“高達”!宇樹發布載人變形機甲,定價390萬元起

      現實版“高達”!宇樹發布載人變形機甲,定價390萬元起

      界面新聞
      2026-05-12 13:56:02
      穆杰塔巴高調亮相,伊朗軍方集體力挺,美以這下徹底坐不住了

      穆杰塔巴高調亮相,伊朗軍方集體力挺,美以這下徹底坐不住了

      古史青云啊
      2026-05-11 14:34:40
      惠州一20歲男子跳河身亡,16歲女友:幾天前吵過架,他發來自殘照!

      惠州一20歲男子跳河身亡,16歲女友:幾天前吵過架,他發來自殘照!

      深圳晚報
      2026-05-12 20:55:05
      皇馬銀河戰艦崩塌內幕:喝酒的巨星、嫉妒的勞爾、管就下課的教練

      皇馬銀河戰艦崩塌內幕:喝酒的巨星、嫉妒的勞爾、管就下課的教練

      老曁科普
      2026-04-20 21:28:34
      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      阿傖說事
      2026-05-12 16:30:31
      他轉走6000美金那天,你才發現信任有多脆

      他轉走6000美金那天,你才發現信任有多脆

      時光慢郵啊
      2026-05-12 06:46:57
      姚來英已任中國煙草總公司總經理

      姚來英已任中國煙草總公司總經理

      大風新聞
      2026-05-12 11:53:04
      交易喬治!費城操作引爆聯盟,3個首輪簽,保留恩比德的爭冠希望

      交易喬治!費城操作引爆聯盟,3個首輪簽,保留恩比德的爭冠希望

      體育大朋說
      2026-05-12 11:58:17
      互聯網是有記憶的,她的黑歷史一大堆啊!

      互聯網是有記憶的,她的黑歷史一大堆啊!

      BenSir本色說
      2026-04-15 22:38:07
      梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復婚后超寵妻

      梁靖崑:幸福嘍!明星老婆特意去倫敦見證奪冠,離婚復婚后超寵妻

      樂悠悠娛樂
      2026-05-12 14:37:35
      4月MPV銷量榜殺瘋了:前三全是插混,GL8跌出前五奧德賽只剩零頭

      4月MPV銷量榜殺瘋了:前三全是插混,GL8跌出前五奧德賽只剩零頭

      藍色海邊
      2026-05-12 17:53:54
      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      不瞞了!馬斯克罕見承認:美國是第一,但第二到第十全都來自中國

      瀲滟晴方DAY
      2026-04-25 23:29:34
      2026-05-13 07:32:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3396文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      手機
      房產
      旅游
      數碼
      軍事航空

      手機要聞

      谷歌攜手蘋果升級換機體驗:iPhone轉安卓可遷移密碼、主屏布局

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      旅游要聞

      中東戰事影響持續,約旦旅游業仍面臨挑戰

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日本一区二区三区在线不卡| 久久国产精品77777| 成人午夜影院| 91福利社| 成人亚洲一区无码久久| 欧美日产国产精选| 中文字幕亚洲无线码在线一区| 999精品在线视频| 日本人妻中文字幕乱码系列| 欧美一道本| 双腿张开被9个黑人调教影片| 一本久道综合色婷婷五月| 日本精品啪啪一区二区三区| 性色欲情网站| 日本在线一级高清自拍| 国产无遮挡又黄又爽又色| 国产欧美日韩视频怡春院| 亚洲AV无码成人精品区| 内射视频在线观看| 很很的日夜夜操| 成本人妻片无码中文字幕免费| 玛多县| 久久精品成人欧美大片| av一本久道久久波多野结衣| 亚洲激情一区二区三区视频| 日韩乱码卡一卡2卡三卡四| 亚洲真人无码永久在线| 国产成人精品a视频| 丰满少妇高潮惨叫久久久一| 亚洲欧洲AV一区二区三区| 少妇与黑人xoyyyyy视频| 国产色综合网| 欧美色a电影精品aaaa| 夫妻拳交自拍| 久久精品国产亚洲AV麻豆长发| 经典国产乱子伦精品视频| 国内黄色精品| 亚洲一区二区在线| 高清无码一区| 亚色天堂| 18禁午夜宅男成年网站|