<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型推理,加速王者:DFlash,即將支持 DeepSeek-V4

      0
      分享至

      前文介紹了

      然后發(fā)現(xiàn) DFlash 更猛:加速高達(dá) 6 倍 ?

      同等輸出質(zhì)量、完全無損,開源、即插即用 ?

      DFlash 其實(shí)我之前簡單介紹過:

      本文事無巨細(xì)把 DFlash 這個(gè)項(xiàng)目掰開揉碎講一遍

      簡介

      大模型生成的本質(zhì)是「自回歸」 —— 第 N 個(gè) token 必須等第 N-1 個(gè) token 算完才能開始,token 之間是串行的,怎么也快不起來

      業(yè)界目前最主流的解法叫 Speculative Decoding(投機(jī)解碼)

      1. 找一個(gè)小的 draft 模型先飛快地"猜"出一串 token

      2. 大的 target 模型并行驗(yàn)證這串 token

      3. 驗(yàn)證通過的直接采納,驗(yàn)證不過的丟掉重來

      理論上能把吞吐拉很高,但目前最強(qiáng)的 EAGLE-3 也只能做到 2-3× 加速,因?yàn)?draft 模型自己也是自回歸的,仍然是一個(gè) token 一個(gè) token 出,draft 這步本身就是瓶頸

      DFlash 干的事很狠:把 draft 模型從自回歸換成了 block diffusion(塊擴(kuò)散)模型

      一次前向傳播直接生成一整塊 16 個(gè) token,不再串行

      結(jié)果就是:

      • Qwen3-8B 上做到 6× 無損加速

      • 比 EAGLE-3 快 2.5×

      • 推理模型(開 thinking)上也有 4.5× 加速

      核心思路 關(guān)鍵洞察:Target 模型的隱藏特征里藏著未來

      直接把 diffusion 模型縮小當(dāng) drafter,效果其實(shí)很一般(5 層的樸素?cái)U(kuò)散 drafter 加速只有 3× 左右)—— 因?yàn)樗×耍霃牧泐A(yù)測未來 token 不現(xiàn)實(shí)

      但作者發(fā)現(xiàn)了一個(gè)白吃的午餐:大的 target 模型在生成第 N 個(gè) token 時(shí),hidden states 里其實(shí)已經(jīng)隱含了第 N+1、N+2、N+3...的信息

      那思路就清晰了 —— 把 target 的 hidden features 喂給 draft,讓 draft "站在巨人的肩膀上"猜,而不是從零猜

      為什么 diffusion 才是最佳形態(tài)

      自回歸 drafter 的成本隨 token 數(shù)線性增長,所以 EAGLE-3 不得不把網(wǎng)絡(luò)砍到只剩 1 層 transformer,質(zhì)量自然受限

      擴(kuò)散 drafter 一次前向出全部 token,成本和 token 數(shù)幾乎無關(guān)

      ? 一個(gè)多層的 DFlash 生成 16 個(gè) token,比 1 層 EAGLE-3 生成 8 個(gè) token 還快

      更深的網(wǎng)絡(luò) + 更多的 token + 更低的延遲,聽起來像作弊但確實(shí)成立


      draft 模型直接復(fù)用 target 的 embedding 和 LM head,只有中間幾層是新訓(xùn)練的,參數(shù)量保持極低

      整套流程分三步:

      1. Feature Fusion :從 target 模型多層均勻采樣 hidden features,經(jīng)過一個(gè)輕量級投影融合

      2. KV Injection :融合后的特征直接注入 draft 模型 每一層 的 K/V 投影里,存進(jìn) KV cache —— 這是和 EAGLE-3 最關(guān)鍵的區(qū)別。EAGLE-3 只在第一層喂特征,越往后稀釋越嚴(yán)重;DFlash 每層都灌,acceptance length 隨深度 正向 增長

      3. Parallel Drafting :基于這套豐富 context 一次性預(yù)測下一塊 token

      實(shí)測數(shù)據(jù)

      Qwen3-8B 在各類 benchmark 上的 greedy decoding 加速倍數(shù)(DFlash 用 block 16 + 1 步去噪,EAGLE-3 用 spec 長度 7):

      任務(wù)

      原速

      EAGLE-3

      DFlash

      GSM8K

      2.13×

      5.20×

      MATH-500

      2.18×

      6.17×

      AIME24

      2.25×

      5.91×

      AIME25

      2.18×

      5.85×

      HumanEval

      2.48×

      5.20×

      MBPP

      2.27×

      4.75×

      LiveCodeBench

      2.24×

      5.43×

      SWE-Bench

      1.90×

      2.92×

      MT-Bench

      1.94×

      2.79×

      Alpaca

      1.88×

      2.27×

      數(shù)學(xué)和代碼場景下,DFlash 直接是 EAGLE-3 的 2 倍以上速度

      溫度采樣(temp=1)以及開 thinking 模式下,DFlash 同樣有 ~4.5× 的穩(wěn)定加速

      已支持的模型

      DFlash 把現(xiàn)在的開源主力基本兜住了:

      類別

      模型

      Gemma 系列

      gemma-4-26B-A4B-it / gemma-4-31B-it

      Qwen 系列

      Qwen3.6-27B / Qwen3.6-35B-A3B / Qwen3.5-4B/9B/27B/35B-A3B/122B-A10B

      Coder 系列

      Qwen3-Coder-Next / Qwen3-Coder-30B-A3B

      大廠模型

      MiniMax-M2.5(preview)/ Kimi-K2.5

      OSS

      gpt-oss-20b / gpt-oss-120b

      即將到來

      DeepSeek-V4-Flash / V4-Pro / MiniMax-M2.7 / GLM-5.1

      要新模型?GitHub 提 issue 就行,作者也表示會開源訓(xùn)練 recipe,到時(shí)候你自己訓(xùn)一個(gè) draft 模型加速任意 LLM

      安裝

      DFlash 同時(shí)支持四個(gè)后端 —— vLLM、SGLang、Transformers、MLX(M 系列 Mac),按需選

      # Transformers
      uv pip install -e ".[transformers]"

      # SGLang
      uv pip install -e ".[sglang]"

      # vLLM(v0.20.1+ 已經(jīng)核內(nèi)核支持)
      uv pip install -e ".[vllm]"

      # MLX(Apple Silicon)
      pip install -e ".[mlx]"

      Gemma 4 的 vLLM 支持還在 PR 階段,作者直接給了 docker 鏡像:

      docker pull ghcr.io/z-lab/vllm-openai:gemma4-dflash-cu130
      使用 vLLM 啟服務(wù)(以 Qwen3.5-27B 為例)

      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}' \
      --attention-backend flash_attn \
      --max-num-batched-tokens 32768
      Gemma 4 用 docker 一把梭

      docker run --rm -it \
      --gpus all --ipc=host --shm-size=16g \
      -p 8000:8000 \
      -v ~/.cache/huggingface:/root/.cache/huggingface \
      ghcr.io/z-lab/vllm-openai:gemma4-dflash-cu130 \
      google/gemma-4-26B-A4B-it \
      --host 0.0.0.0 --port 8000 \
      --speculative-config '{"method": "dflash", "model": "z-lab/gemma-4-26B-A4B-it-DFlash", "num_speculative_tokens": 15, "attention_backend": "flash_attn"}' \
      --attention-backend triton_attn \
      --max-num-batched-tokens 32768 \
      --trust-remote-code
      SGLang

      export SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1


      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-35B-A3B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-35B-A3B-DFlash \
      --speculative-num-draft-tokens 16 \
      --tp-size 1 \
      --attention-backend trtllm_mha \
      --speculative-draft-attention-backend fa4 \
      --mem-fraction-static 0.75 \
      --trust-remote-code
      Transformers (Qwen3 / LLaMA-3.1)

      from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

      draft = AutoModel.from_pretrained("z-lab/Qwen3-8B-DFlash-b16",
      trust_remote_code=True, dtype="auto", device_map="cuda:0").eval()
      target = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3-8B",
      dtype="auto", device_map="cuda:0").eval()
      tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-8B")

      messages = [{"role": "user", "content": "How many positive whole-number divisors does 196 have?"}]
      input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt",
      add_generation_prompt=True, enable_thinking=False).to(draft.device)

      output = draft.spec_generate(
      input_ids=input_ids, max_new_tokens=2048, temperature=0.0,
      target=target, stop_token_ids=[tokenizer.eos_token_id])
      print(tokenizer.decode(output[0], skip_special_tokens=False))
      MLX(M5 Pro 實(shí)測可用)

      from dflash.model_mlx import load, load_draft, stream_generate

      model, tokenizer = load("Qwen/Qwen3.5-4B")
      draft = load_draft("z-lab/Qwen3.5-4B-DFlash")

      messages = [{"role": "user", "content": "How many positive whole-number divisors does 196 have?"}]
      prompt = tokenizer.apply_chat_template(messages, tokenize=False,
      add_generation_prompt=True, enable_thinking=True)

      tps = 0.0
      for r in stream_generate(model, draft, tokenizer, prompt,
      block_size=16, max_tokens=2048, temperature=0.6):
      print(r.text, end="", flush=True)
      tps = r.generation_tps
      print(f"\nThroughput: {tps:.2f} tok/s")

      Mac 用戶終于能在本地享受到 5× 推理加速了,這條對蘋果用戶非常友好

      總結(jié)

      DFlash 這個(gè)項(xiàng)目最大的價(jià)值,老章總結(jié)成一句話:

      ? 它把擴(kuò)散模型的角色重新定義了 —— 擴(kuò)散模型不需要去和自回歸 LLM 比生成質(zhì)量,它只要做好「極快極準(zhǔn)的 drafter」就夠了,質(zhì)量由 target 模型最后做投機(jī)驗(yàn)證來兜底

      適合誰用?

      • 生產(chǎn)環(huán)境部署 LLM 的同學(xué) :vLLM / SGLang 都已經(jīng)原生支持,加個(gè) --speculative-config 就能上,開發(fā)成本極低

      • 手頭有 Apple Silicon 的同學(xué) :MLX 后端實(shí)測可用,本地大模型一夜之間快 5 倍

      • 做推理加速 / 投機(jī)解碼方向研究的同學(xué) :論文 + 代碼 + 訓(xùn)練 recipe 即將全開源,是個(gè)好的二次創(chuàng)新基礎(chǔ)

      不適合誰?

      • 單卡顯存吃緊的同學(xué)要注意,draft 模型也要占顯存

      • 極小模型(< 3B)加速空間本身就不大,性價(jià)比一般

      支持的模型清單還在快速擴(kuò)張,DeepSeek-V4 系列、GLM-5.1 都在 coming soon 里,未來一段時(shí)間值得持續(xù)關(guān)注

      制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      湖北一小學(xué)要求學(xué)生填“父母職業(yè)觀察單”?教育局回應(yīng)來了!

      湖北一小學(xué)要求學(xué)生填“父母職業(yè)觀察單”?教育局回應(yīng)來了!

      閃電新聞
      2026-05-12 14:29:11
      上海地鐵突發(fā)惡性事件!全網(wǎng)震怒!官方通報(bào):嚴(yán)懲不貸!

      上海地鐵突發(fā)惡性事件!全網(wǎng)震怒!官方通報(bào):嚴(yán)懲不貸!

      金哥說新能源車
      2026-05-12 19:22:03
      重慶奔馳撞人后續(xù):被撞女孩很漂亮,家屬發(fā)聲,留下2個(gè)年幼女兒

      重慶奔馳撞人后續(xù):被撞女孩很漂亮,家屬發(fā)聲,留下2個(gè)年幼女兒

      魔都姐姐雜談
      2026-05-12 12:48:32
      國家一級“殺人王”誤闖小區(qū),當(dāng)?shù)夭块T倒吸一口氣:山里都少見

      國家一級“殺人王”誤闖小區(qū),當(dāng)?shù)夭块T倒吸一口氣:山里都少見

      夏末moent
      2026-05-13 04:57:03
      忠臣,還是“資敵、賣國”?六件事實(shí)表明,崇禎殺袁崇煥,沒問題

      忠臣,還是“資敵、賣國”?六件事實(shí)表明,崇禎殺袁崇煥,沒問題

      南生今世說
      2026-05-08 15:39:32
      唏噓!因市場供需失衡,武漢一地標(biāo)型商業(yè)暫緩開發(fā)

      唏噓!因市場供需失衡,武漢一地標(biāo)型商業(yè)暫緩開發(fā)

      童童聊娛樂啊
      2026-05-13 03:19:44
      小勒布倫談對王楚欽8連敗:他不只克我一個(gè)!他是世界第1很難被打敗

      小勒布倫談對王楚欽8連敗:他不只克我一個(gè)!他是世界第1很難被打敗

      818體育
      2026-05-12 23:35:17
      楊受成“霸占”容祖兒半生:27年不娶不放,她到底圖什么?

      楊受成“霸占”容祖兒半生:27年不娶不放,她到底圖什么?

      草莓解說體育
      2026-05-13 01:44:36
      U17國足生死戰(zhàn)夢幻開局!何思凡轟世界波,亞洲杯4戰(zhàn)卡塔爾均破門

      U17國足生死戰(zhàn)夢幻開局!何思凡轟世界波,亞洲杯4戰(zhàn)卡塔爾均破門

      奧拜爾
      2026-05-13 00:19:27
      特斯拉FSD入華倒計(jì)時(shí):中國智駕的鯰魚,已經(jīng)游進(jìn)池塘了

      特斯拉FSD入華倒計(jì)時(shí):中國智駕的鯰魚,已經(jīng)游進(jìn)池塘了

      新浪財(cái)經(jīng)
      2026-05-10 23:49:22
      美媒:美國三次加價(jià)求購,中國果斷拒絕!全球僅中國掌握這項(xiàng)技術(shù)

      美媒:美國三次加價(jià)求購,中國果斷拒絕!全球僅中國掌握這項(xiàng)技術(shù)

      聚焦最新動(dòng)態(tài)
      2026-05-12 13:20:22
      從巴薩棄將到阿森納副隊(duì)長,用了10年時(shí)間,悍將敗也巴薩成也巴薩

      從巴薩棄將到阿森納副隊(duì)長,用了10年時(shí)間,悍將敗也巴薩成也巴薩

      足籃大世界
      2026-05-12 18:04:10
      隨著馬競2-1,西甲最新積分榜出爐:爭三和保級爭奪皆白熱化

      隨著馬競2-1,西甲最新積分榜出爐:爭三和保級爭奪皆白熱化

      側(cè)身凌空斬
      2026-05-13 05:35:48
      攜程再次卷入“大數(shù)據(jù)殺熟”爭議:鉆石會員訂房比普通會員貴一倍

      攜程再次卷入“大數(shù)據(jù)殺熟”爭議:鉆石會員訂房比普通會員貴一倍

      識礁Farsight
      2026-05-12 21:44:56
      京滬高鐵宣布漲價(jià)!無錫到北京二等座票價(jià)約漲115元

      京滬高鐵宣布漲價(jià)!無錫到北京二等座票價(jià)約漲115元

      江南晚報(bào)
      2026-05-12 18:22:27
      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      21年首次晉級世少賽!U17國足一雪前恥,2026五大目標(biāo)已完成

      奧拜爾
      2026-05-13 01:56:27
      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價(jià),就懂了

      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價(jià),就懂了

      陳述影視
      2026-05-11 23:58:30
      佛山一套法拍別墅帶800平米花園,5800萬元起拍,園內(nèi)16棵樹木估價(jià)76萬元

      佛山一套法拍別墅帶800平米花園,5800萬元起拍,園內(nèi)16棵樹木估價(jià)76萬元

      極目新聞
      2026-05-12 23:57:32
      從歐洲杯冠軍到意乙降級:因西涅的斷崖式墜落

      從歐洲杯冠軍到意乙降級:因西涅的斷崖式墜落

      綠茵狂熱者
      2026-05-12 11:41:55
      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進(jìn)入式性服務(wù),是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      2026-05-13 07:35:00
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3396文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      數(shù)碼
      家居
      旅游

      教育要聞

      “為你,千千萬萬遍”——那些讓人心碎的經(jīng)典文學(xué)句子大盤點(diǎn)

      藝術(shù)要聞

      這位女?dāng)z影師的航拍風(fēng)景照片,簡直太美了!

      數(shù)碼要聞

      看電視的人越來越多了 3億臺電視在線 小米第一

      家居要聞

      極簡主義下的居住場域與空間

      旅游要聞

      中東戰(zhàn)事影響持續(xù),約旦旅游業(yè)仍面臨挑戰(zhàn)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 毛片| 久久国产劲暴∨内射新川| 一区二区三区av| 青青草网址| 亚洲国产精品成人无码A片软件| 精品久久久久久中文字幕大豆网 | 中文字幕精品亚洲无线码一区应用 | 亚洲国产精品久久久久久无码| 宕昌县| 色哟哟中文字幕在线| 一个添下面两个吃奶把腿扒开| 亚洲图片视频丝袜| 久久无码av一区二区三区电影网| 三级网站在线免费观看| 久久狠狠中文字幕2017 | 亚洲精品一区中文字幕| 精品久久久久久无码国产 | 色悠久久久久综合网国产| 国产盗摄视频一区二区三区| 91精品人人妻人人澡人人爽人人精东影业 | 调兵山市| 97se综合| 成在人线aⅴ免费视频| 黑人巨大超大另类videos| 97久久超碰亚洲视觉盛宴| 色综合久久久久久久久五月| 成年网站未满十八禁视频天堂| 亚洲精品无码久久一线| 亚洲一区中文字幕在线观看| 欧美性群另类交| 天天干国产| 午夜福利97| 丰满亚洲大尺度无码无码专线| 起碰免费公开97在线视频| 3PAV乱伦视频| 狠狠躁18三区二区一区| www天堂在线观看ww| 免费精品国产男女性高| 青草青草久热精品视频在线播放 | 福利视频欧美一区二区三区 | 免费国产在线精品一区二区三区|