<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      大模型推理8倍加速,完全無損,以Qwen3.5-27B-DFlash為例

      0
      分享至

      前文介紹了 Qwen3.5-27B-DFlash,非常神奇

      本文更進一步,深入了解一下 DFlash 技術細節


      DFlash + DDTree 加速流水線 先說背景:推測解碼(Speculative Decoding)

      大模型生成文本的時候,最大的瓶頸是什么?一個 token 一個 token 地吐

      不管你 GPU 有多猛,自回歸生成就是一步一步來,快不了

      推測解碼(Speculative Decoding)是目前主流的加速思路:用一個小模型快速"猜"一串 token,再讓大模型一次性驗證。猜對了就賺了,猜錯了也不虧——大模型自己糾正就行

      但傳統推測解碼有個問題:小模型也是自回歸的,猜的速度也不夠快。

      DFlash:用擴散模型替代自回歸草稿

      DFlash(Block Diffusion for Flash Speculative Decoding)來自 Z Lab,核心創新就一句話:用輕量級 block diffusion 模型,單次前向傳播并行生成整個 token block 作為草稿

      傳統小模型一個一個猜,DFlash 一次猜一整塊(block size = 16)


      DFlash 方法流水線

      怎么做到的?

      關鍵技術叫 KV Injection——把目標大模型多層 hidden features 融合后注入草稿小模型的 KV cache,讓小模型也能高質量預測

      加速效果有多猛?

      基準

      模型

      DFlash 加速

      HumanEval T=0.0

      Qwen3-30B-MoE

      6.09x

      MATH-500 T=0.0

      Qwen3-8B

      6.17x

      GSM8K T=0.0

      Qwen3-8B

      5.20x

      AIME24 T=0.0

      Qwen3-8B

      5.91x

      MBPP T=0.0

      Qwen3-8B

      4.75x

      對比 EAGLE-3(目前最流行的推測解碼方案),DFlash 快了約 2.5 倍。EAGLE-3 的極限大概 2-3x 加速,DFlash 直接干到 5-6x

      而且在采樣模式(Temperature=1)和 thinking mode 下仍然保持約 4.5x 加速,這一點非常重要——大部分加速方案在有隨機性的時候就拉胯了

      DDTree:把 DFlash 再推一把

      DDTree(Diffusion Draft Tree)是以色列理工學院 Liran Ringel 在 DFlash 基礎上做的進一步優化

      核心思路:DFlash 一次前向傳播輸出的是每個位置的概率分布。DDTree 不是從中只取一條路徑,而是用 best-first heap 算法構建一棵草稿樹,選出最有希望的多條分支,然后讓目標模型一次前向傳播驗證整棵樹


      DDTree 四步流程:

      1. Block diffusion 一次前向生成 L 個位置的分布

      2. Best-first heap 在節點預算 B 下構建最優草稿樹

      3. Tree attention 編譯為目標模型輸入

      4. 驗證遍歷:匹配子節點則繼續,不匹配則取 bonus token 進入下輪

      這套方案有個數學保證:構建的樹在 draft 模型分布下可證明最大化期望接受長度

      效果:

      在 HumanEval T=0.0 上,DDTree 把 DFlash 的 6.09x 直接拉到了 8.22x,額外多賺了 2.13x。

      最關鍵的是——完全無損。目標模型用自己的解碼規則,DDTree 只是幫它更高效地探索搜索空間,輸出分布和不加速時完全一致。

      已支持的模型

      DFlash 已經為一批主流模型訓好了 Draft 模型:

      目標模型

      Draft 模型

      Kimi-K2.5 (Preview)

      z-lab/Kimi-K2.5-DFlash

      Qwen3.5-4B/9B/27B

      z-lab/Qwen3.5-*-DFlash

      Qwen3.5-35B-A3B

      z-lab/Qwen3.5-35B-A3B-DFlash

      Qwen3-Coder-30B-A3B

      z-lab/Qwen3-Coder-30B-A3B-DFlash

      Llama-3.1-8B-Instruct

      z-lab/LLaMA3.1-8B-Instruct-DFlash

      Qwen3.5-122B、397B 和 GLM-5.1 的 Draft 模型也在路上了。

      怎么用?

      DFlash 已經接入了三大推理框架:

      SGLang:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-35B-A3B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
      --tp-size 1 --attention-backend trtllm_mha

      vLLM:

      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}'

      Apple Silicon(MLX):

      pip install -e ".[mlx]"

      對,Mac 用戶也能用。

      DDTree 跑基準測試:

      git clone https://github.com/liranringel/ddtree
      cd ddtree
      pip install -r requirements.txt
      bash run_benchmark.sh
      python3 plot_results.py
      總結

      DFlash + DDTree 這對組合拳,代表了推測解碼的下一個階段:

      • DFlash 解決了"猜得慢"的問題 ——用 block diffusion 一次猜一整塊

      • DDTree 解決了"猜得不夠多"的問題 ——用概率樹探索多條路徑

      最終效果是 8x+ 無損加速,而且已經接入 SGLang、vLLM、MLX 三大框架,實際可用。

      對于部署大模型推理服務的團隊來說,這幾乎是免費的午餐——加速 5-8 倍,不犧牲任何輸出質量,只需要加載一個很小的 Draft 模型

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      騰訊張軍:微信“訪客功能”已焊死,不會開發,不會提供

      騰訊張軍:微信“訪客功能”已焊死,不會開發,不會提供

      界面新聞
      2026-05-12 10:29:50
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      環球網資訊
      2026-05-12 16:52:39
      忍無可忍,烏克蘭與川普徹底攤牌,20國爭相與烏展開合作

      忍無可忍,烏克蘭與川普徹底攤牌,20國爭相與烏展開合作

      史政先鋒
      2026-05-12 14:44:10
      3-1勝東南亞勁旅,日本3連勝,以頭名進亞洲杯8強+進U17世界杯

      3-1勝東南亞勁旅,日本3連勝,以頭名進亞洲杯8強+進U17世界杯

      側身凌空斬
      2026-05-13 01:56:29
      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      正面連接
      2026-05-12 17:55:48
      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      策前論
      2026-05-11 18:13:56
      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      中國外交部發聲:堅決反對、強烈譴責巴方有關行徑!

      一個有靈魂的作者
      2026-05-12 21:21:19
      女子結婚不到一周,卻因摩洛哥新娘視頻導致離婚

      女子結婚不到一周,卻因摩洛哥新娘視頻導致離婚

      映射生活的身影
      2026-05-12 12:13:28
      賈躍亭突然殺回來了

      賈躍亭突然殺回來了

      新行情
      2026-05-12 14:09:08
      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      白宮公布名單,16位美國商界領袖將隨特朗普訪華

      界面新聞
      2026-05-12 21:23:09
      隨著日本3-1,卡塔爾0-2,亞洲杯8強已經誕生6席:中國男足壓哨晉級

      隨著日本3-1,卡塔爾0-2,亞洲杯8強已經誕生6席:中國男足壓哨晉級

      側身凌空斬
      2026-05-13 02:02:59
      世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

      世乒賽結束第2天,林詩棟處罰懸念揭曉 國際乒聯發文,日球迷破防

      大秦壁虎白話體育
      2026-05-12 09:27:57
      震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

      震驚!理查德·費曼IQ只有125,卻被物理學家譽為20世紀最偉大頭腦

      知識圈
      2026-05-12 20:33:37
      58歲日本籍主帥神了:率中國男足絕境爆發,時隔21年殺入世界杯賽場

      58歲日本籍主帥神了:率中國男足絕境爆發,時隔21年殺入世界杯賽場

      側身凌空斬
      2026-05-13 02:15:26
      特斯拉宣布停產,震驚全網!

      特斯拉宣布停產,震驚全網!

      財經三分鐘pro
      2026-05-12 15:10:58
      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      前腳剛考上公務員獲公示,他轉身就將攝像頭伸進女生裙底!這一次真的該感謝舉報者

      瀟拾億郎
      2026-05-12 18:03:02
      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      重慶57歲主任醫師車禍致2死6傷!正面照曝出,丈夫身份浮出水面

      重慶57歲主任醫師車禍致2死6傷!正面照曝出,丈夫身份浮出水面

      老貓觀點
      2026-05-12 06:43:00
      0分,全部0分!兩大核心啊!廣東隊正式淘汰出局

      0分,全部0分!兩大核心啊!廣東隊正式淘汰出局

      籃球實戰寶典
      2026-05-12 21:48:38
      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      復旦解剖326名糖尿病逝者,意外發現:得糖尿病的人,大多有5共性

      芹姐說生活
      2026-05-12 15:38:02
      2026-05-13 02:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      數碼
      藝術
      健康
      教育
      手機

      數碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      干細胞能讓人“返老還童”嗎

      教育要聞

      求求你試試「5+1+1」學習法!!!

      手機要聞

      傳iPhone 18 Pro或在內存危機中將繼續維持“激進定價”策略

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 18禁免费无码无遮挡不卡网站| 午夜男女无遮挡拍拍视频| 欧美日批| 日本一卡二卡四卡无卡乱码视频免费 | 97夜夜澡人人双人人人喊| 国产免费羞羞视频| 91精品丝袜久久久久久| 不卡AV中文字幕手机看| 熟女视频在线观看| 免费看久久妇女高潮a| 伊人久久大香线蕉av五月天| 在线欧美国产| 欧美黑人换爱交换乱理伦片| 国产va精品免费观看| 人妻丰满精品一区二区A片| 狠狠色丁香久久婷婷综合五月| 亚洲AV激情一区二区二三区| 麻豆国产影院| 67194熟妇在线观看线路| 亚洲精品久久久口爆吞精| 大陆精大陆国产国语精品1024| 欧美A区| 欧美黑人添添高潮a片www| 久久精品国产99国产精品澳门| 亚洲国产精品第一区二区| a一级毛片免费播放| 精品无码一区在线观看| 男人天堂AV在线麻豆| 亚洲一二三四五区视频| 亚洲综合在线一区二区三区| 国产亚洲AV| 国产精品高潮呻吟av久久| 成人综合人人爽一区二区| 国产精品无码人妻一区二区在线 | 精品久久久无码中字| 热思思久久免费视频| 青青热久免费精品视频在线播放| 人妻无码网站| 国产v综合v亚洲欧美大天堂| av日韩亚洲| 日本中出熟女一区二区|