<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      一個(gè)更神奇的Qwen3.5-27B版本,推理速度暴漲5倍

      0
      分享至

      Nobody Knows Qwen3.5-27B Better Than Me

      證據(jù)如下:

      寫(xiě)無(wú)可寫(xiě),居然還有高手——Qwen3.5-27B-DFlash

      它讓Qwen3.5-27B的推理速度直接起飛,最高能到5 倍加速,而且是無(wú)損加速,生成質(zhì)量完全不打折

      簡(jiǎn)介

      用大模型寫(xiě)代碼、做數(shù)學(xué)題,模型想半天才吐一個(gè) token 出來(lái),GPU 利用率低得讓人心疼?

      這就是自回歸解碼的老毛病了——一個(gè) token 一個(gè) token 地生,串行瓶頸在那擺著

      之前業(yè)界用Speculative Decoding(推測(cè)解碼)來(lái)解決這個(gè)問(wèn)題:先用一個(gè)小模型快速猜一串 token,再讓大模型并行驗(yàn)證。EAGLE-3 是這個(gè)方向的 SOTA,但它的小模型還是自回歸的,加速比也就 2-3 倍,上限明顯

      DFlash(z-lab.ai/projects/dflash)來(lái)了,直接把「猜」的過(guò)程從自回歸換成了擴(kuò)散模型。一次前向傳播就能并行生成一整個(gè) block 的 token,配合大模型驗(yàn)證,在 Qwen3-8B 上實(shí)現(xiàn)了6 倍以上的無(wú)損加速,比 EAGLE-3 快了將近2.5 倍

      下圖是 DFlash 的系統(tǒng)架構(gòu):


      DFlash 架構(gòu)圖

      DFlash 來(lái)自z-lab(UCSD ML Systems Group),這幫人專(zhuān)做「讓 AI 更小、更快、更高效」的事,從算法到系統(tǒng)到應(yīng)用全棧搞。論文已發(fā)(arXiv: 2602.06036),而且代碼全開(kāi)源。

      為什么 DFlash 這么快?

      核心原因有兩個(gè),搞懂了你就知道為什么這東西比 EAGLE-3 強(qiáng)這么多:

      1. 擴(kuò)散模型天然適合做「猜測(cè)」

      EAGLE-3 的 drafter 是自回歸的,猜 8 個(gè) token 就要跑 8 次前向傳播,成本線性增長(zhǎng)。為了控制延遲,EAGLE-3 只能用極淺的模型(1 層 Transformer),猜測(cè)質(zhì)量自然上不去

      DFlash 用的是block diffusion模型——不管你要猜 8 個(gè)還是 16 個(gè) token,都是一次前向傳播搞定。這意味著 drafter 可以做得更深(5 層 Transformer),模型更有表達(dá)力,猜得更準(zhǔn),但延遲反而更低。論文里有個(gè)數(shù)據(jù)很能說(shuō)明問(wèn)題:一個(gè) 5 層的 DFlash 生成 16 個(gè) token 的延遲,比 1 層的 EAGLE-3 生成 8 個(gè) token 還低

      2. 關(guān)鍵洞察:「大模型自己就知道未來(lái)」

      光用擴(kuò)散模型還不夠。如果小模型完全從零開(kāi)始猜,猜不準(zhǔn)的。DFlash 的核心創(chuàng)新是:從大模型(target model)的隱藏層抽取特征,注入到 drafter 的每一層 KV cache 里

      這跟 EAGLE-3 的做法有本質(zhì)區(qū)別——EAGLE-3 只在輸入層融合 target 的特征,信息隨著層數(shù)增加會(huì)衰減。DFlash 是在 drafter 的每一層都注入,信息保持一致。這就是為什么 DFlash 的 acceptance length(被接受的草稿 token 數(shù)量)能隨著 drafter 層數(shù)有效增長(zhǎng),而 EAGLE-3 加層數(shù)收益遞減

      Qwen3.5-27B-DFlash:最熱門(mén)的版本

      DFlash 系列目前覆蓋了不少模型(huggingface.co/collections/z-lab/dflash),完整列表如下:

      目標(biāo)模型

      DFlash Drafter

      Kimi-K2.5 (Preview)

      z-lab/Kimi-K2.5-DFlash

      Qwen3.5-4B

      z-lab/Qwen3.5-4B-DFlash

      Qwen3.5-9B

      z-lab/Qwen3.5-9B-DFlash

      Qwen3.5-27Bz-lab/Qwen3.5-27B-DFlash

      Qwen3.5-35B-A3B

      z-lab/Qwen3.5-35B-A3B-DFlash

      Qwen3-Coder-Next

      z-lab/Qwen3-Coder-Next-DFlash

      Qwen3-Coder-30B-A3B

      z-lab/Qwen3-Coder-30B-A3B-DFlash

      gpt-oss-20b

      z-lab/gpt-oss-20b-DFlash

      gpt-oss-120b

      z-lab/gpt-oss-120b-DFlash

      其中Qwen3.5-27B-DFlash是目前最熱門(mén)的版本,HuggingFace 上 5200+ 下載量、47 個(gè) likes,drafter 模型只有2B 參數(shù),非常輕量

      為什么 27B 最受歡迎?因?yàn)樗切詢(xún)r(jià)比最優(yōu)點(diǎn)——27B 夠強(qiáng),能處理大部分任務(wù),又不像 122B/397B 那樣對(duì)顯卡要求太高,配合 DFlash 加速后更是如虎添翼

      實(shí)測(cè)數(shù)據(jù)

      官方在單張 NVIDIA B200 上做了全面測(cè)試,數(shù)據(jù)很有說(shuō)服力。以 Qwen3.5-27B 為例,block size = 16,thinking 模式開(kāi)啟:

      吞吐量對(duì)比(tok/s,越高越好):

      任務(wù)

      并發(fā)

      原版 (AR)

      MTP

      DFlash

      Math500

      1

      84

      243 (2.9x)

      397 (4.7x)

      Math500

      8

      625

      1457 (2.3x)

      2270 (3.6x)

      HumanEval

      1

      83

      236 (2.9x)

      427 (5.2x)

      HumanEval

      8

      602

      1345 (2.2x)

      2079 (3.5x)

      MBPP

      1

      84

      200 (2.4x)

      347 (4.2x)

      MT-Bench

      1

      84

      169 (2.0x)

      255 (3.0x)

      單并發(fā)場(chǎng)景下,HumanEval 上直接5.2 倍加速,Math500 上4.7 倍

      哪怕在并發(fā) 32 的高壓場(chǎng)景下,依然能維持1.5-1.9 倍的加速,這在生產(chǎn)環(huán)境里非常有價(jià)值

      對(duì)比 MTP(Multi-Token Prediction),DFlash 在所有任務(wù)上都大幅領(lǐng)先。而且記住——這是無(wú)損加速,輸出質(zhì)量跟原版一模一樣。

      Acceptance Length 對(duì)比:

      任務(wù)

      B16 (MTP / DFlash)

      Math500

      7.14 /7.93

      HumanEval

      7.38 /9.18

      MBPP

      5.94 /7.27

      MT-Bench

      5.30 /5.47

      HumanEval 上 DFlash 平均每輪能被接受9.18 個(gè) token,這意味著一次猜測(cè)就能「猜中」大部分內(nèi)容,效率極高

      安裝與使用

      DFlash 已經(jīng)適配了三大主流推理框架:vLLMSGLangTransformers

      vLLM(推薦生產(chǎn)環(huán)境)

      # 安裝(需要 nightly 版本)
      uv pip install vllm
      uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly


      # 啟動(dòng)服務(wù)
      vllm serve Qwen/Qwen3.5-27B \
      --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.5-27B-DFlash", "num_speculative_tokens": 15}' \
      --attention-backend flash_attn \
      --max-num-batched-tokens 32768
      SGLang

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.5-27B \
      --speculative-algorithm DFLASH \
      --speculative-draft-model-path z-lab/Qwen3.5-27B-DFlash \
      --speculative-num-draft-tokens 16 \
      --tp-size 1 \
      --attention-backend fa3 \
      --mem-fraction-static 0.75 \
      --mamba-scheduler-strategy extra_buffer \
      --trust-remote-code

      啟動(dòng)后就是標(biāo)準(zhǔn)的 OpenAI 兼容 API,調(diào)用方式跟平時(shí)一樣:

      from openai import OpenAI

      client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY")

      response = client.chat.completions.create(
      model="Qwen/Qwen3.5-27B",
      messages=[{"role": "user", "content": "Write a quicksort in Python."}],
      max_tokens=4096,
      temperature=0.0
      )
      print(response.choices[0].message.content)

      Tip:對(duì)于長(zhǎng)上下文或 Agent 場(chǎng)景,可以加--speculative-dflash-draft-window-size WINDOW_SIZE開(kāi)啟 drafter 的滑動(dòng)窗口注意力。

      Transformers(本地快速體驗(yàn))

      from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer

      # 加載 drafter 和 target
      draft = AutoModel.from_pretrained(
      "z-lab/Qwen3.5-27B-DFlash",
      trust_remote_code=True, dtype="auto", device_map="cuda:0"
      ).eval()
      target = AutoModelForCausalLM.from_pretrained(
      "Qwen/Qwen3.5-27B", dtype="auto", device_map="cuda:0"
      ).eval()
      tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3.5-27B")

      messages = [{"role": "user", "content": "How many positive whole-number divisors does 196 have?"}]
      input_ids = tokenizer.apply_chat_template(
      messages, return_tensors="pt",
      add_generation_prompt=True, enable_thinking=False
      ).to(draft.device)

      # 推測(cè)解碼生成
      output = draft.spec_generate(
      input_ids=input_ids, max_new_tokens=2048,
      temperature=0.0, target=target,
      stop_token_ids=[tokenizer.eos_token_id]
      )
      print(tokenizer.decode(output[0], skip_special_tokens=False))
      技術(shù)細(xì)節(jié)補(bǔ)充

      幾個(gè)值得關(guān)注的設(shè)計(jì)細(xì)節(jié):

      1. 訓(xùn)練成本極低

      Drafter 模型復(fù)用了 target model 的 embedding 層和 LM head(凍結(jié)),只訓(xùn)練中間幾層 Transformer。以 27B 版本為例,drafter 才 2B 參數(shù),訓(xùn)練集用了大約 80 萬(wàn)條樣本(來(lái)自 NVIDIA Nemotron 和 CodeAlpaca),用 target model 重新生成了響應(yīng)來(lái)做訓(xùn)練數(shù)據(jù),保證對(duì)齊效果

      2. 只需一步去噪

      DFlash 推理時(shí)只做一步去噪(single denoising step),這跟傳統(tǒng)擴(kuò)散模型需要多步迭代完全不同。因?yàn)樗?target model 的隱藏特征做條件,一步就夠了。這也是它比其他擴(kuò)散解碼方法(如 DiffuSpec 需要 7B drafter)輕量得多的原因

      3. Reasoning 模型也能加速

      DFlash 對(duì)開(kāi)啟了 thinking mode 的推理模型同樣有效。在 Qwen3-8B thinking 模式下,仍然能達(dá)到大約4.5 倍加速。對(duì)于動(dòng)輒生成上千 token 思維鏈的推理模型來(lái)說(shuō),這個(gè)加速太有價(jià)值了

      總結(jié)

      DFlash 的核心貢獻(xiàn)可以用一句話概括:擴(kuò)散模型不需要跟自回歸模型在生成質(zhì)量上競(jìng)爭(zhēng),它只需要做一個(gè)優(yōu)秀的「猜測(cè)者」

      這個(gè)思路確實(shí)精妙——擴(kuò)散模型負(fù)責(zé)高速并行猜測(cè),自回歸模型負(fù)責(zé)驗(yàn)證保底,兩全其美

      優(yōu)點(diǎn):

      • 加速比碾壓 EAGLE-3,實(shí)測(cè)高達(dá) 5 倍以上

      • 完全無(wú)損,輸出跟原版一模一樣

      • drafter 極其輕量(27B 版本 drafter 才 2B 參數(shù))

      • 已適配 vLLM + SGLang + Transformers 三大框架

      • 覆蓋模型廣泛,Qwen3、Qwen3.5、Kimi-K2.5、gpt-oss 全都有

      局限:

      • 需要 nightly 版本的 vLLM/SGLang,穩(wěn)定性可能有坑

      • 目前 drafter 訓(xùn)練代碼還未開(kāi)源(不過(guò)已經(jīng)承諾即將放出)

      • 高并發(fā)場(chǎng)景加速比會(huì)下降(這是 speculative decoding 的通病)

      • Qwen3.5-122B 和 397B 的 DFlash 版本還在路上

      如果你在用 Qwen3.5-27B 做推理服務(wù),DFlash 幾乎是個(gè)無(wú)腦加分項(xiàng)。多加載一個(gè) 2B 的 drafter,就能讓吞吐量翻好幾倍,簡(jiǎn)直是免費(fèi)的午餐

      .5

      制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      糖尿病一口番茄不能?chē)L?再次強(qiáng)調(diào):不想得糖尿病腎病,遠(yuǎn)離這6物

      糖尿病一口番茄不能?chē)L?再次強(qiáng)調(diào):不想得糖尿病腎病,遠(yuǎn)離這6物

      健康之光
      2026-05-11 16:35:09
      我60歲了絕經(jīng)已經(jīng)6年,被閨蜜拉著跟67歲退休醫(yī)生去云南玩8天

      我60歲了絕經(jīng)已經(jīng)6年,被閨蜜拉著跟67歲退休醫(yī)生去云南玩8天

      小虎新車(chē)推薦員
      2026-05-08 19:40:44
      青海17歲女學(xué)生溺亡!主動(dòng)去的橋邊,知情人曝猛料,恐不止是意外

      青海17歲女學(xué)生溺亡!主動(dòng)去的橋邊,知情人曝猛料,恐不止是意外

      北緯的咖啡豆
      2026-05-12 11:29:42
      女子線上買(mǎi)榴蓮破防,5房果開(kāi)出3房幾乎沒(méi)肉的“榴蓮糖”,聯(lián)系客服后退款50%

      女子線上買(mǎi)榴蓮破防,5房果開(kāi)出3房幾乎沒(méi)肉的“榴蓮糖”,聯(lián)系客服后退款50%

      大象新聞
      2026-05-12 22:46:09
      申花簽下馬萊加三年長(zhǎng)約,鋒線補(bǔ)強(qiáng)球迷期待新賽季

      申花簽下馬萊加三年長(zhǎng)約,鋒線補(bǔ)強(qiáng)球迷期待新賽季

      漫川舟船
      2026-05-13 00:16:35
      入住兩年,發(fā)現(xiàn)打再多柜子,都不如一個(gè)800庫(kù)好用,讓雜物全消失

      入住兩年,發(fā)現(xiàn)打再多柜子,都不如一個(gè)800庫(kù)好用,讓雜物全消失

      室內(nèi)設(shè)計(jì)師有料兒
      2026-05-11 09:30:15
      特朗普上飛機(jī)前坦白,對(duì)華稱(chēng)呼已變,美參議員:不能再向中國(guó)讓步

      特朗普上飛機(jī)前坦白,對(duì)華稱(chēng)呼已變,美參議員:不能再向中國(guó)讓步

      觸摸史跡
      2026-05-13 01:59:17
      褲子上這兩根繩,一定還有它存在的道理!

      褲子上這兩根繩,一定還有它存在的道理!

      新住家居
      2026-05-12 06:06:10
      蚌埠演唱會(huì)驚天騙局?成龍20 分鐘撈金離場(chǎng)?觀眾花千元看場(chǎng)笑話

      蚌埠演唱會(huì)驚天騙局?成龍20 分鐘撈金離場(chǎng)?觀眾花千元看場(chǎng)笑話

      做一個(gè)合格的吃瓜群眾
      2026-05-12 15:10:23
      張本智和回到日本 當(dāng)眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問(wèn)題

      張本智和回到日本 當(dāng)眾懺悔:本該贏下梁靖崑 心理和技術(shù)都有問(wèn)題

      風(fēng)過(guò)鄉(xiāng)
      2026-05-12 20:36:06
      南京一學(xué)區(qū)房小區(qū)24小時(shí)狂增250套!一學(xué)區(qū)房5天大降70萬(wàn)元!

      南京一學(xué)區(qū)房小區(qū)24小時(shí)狂增250套!一學(xué)區(qū)房5天大降70萬(wàn)元!

      科學(xué)發(fā)掘
      2026-05-13 00:01:50
      季后賽被橫掃后就退役!湖人離隊(duì)第一人!三年“躺賺”3300萬(wàn)美元

      季后賽被橫掃后就退役!湖人離隊(duì)第一人!三年“躺賺”3300萬(wàn)美元

      鳴哥說(shuō)體育
      2026-05-12 18:44:49
      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      女子因18元奶茶被親姐拉黑,崩潰大哭:離婚帶娃5年,都看不起我

      辣媒專(zhuān)欄記錄
      2026-05-11 08:21:59
      卡塞米羅驚人評(píng)價(jià):貝爾比C羅更全面,梅西是防守者的噩夢(mèng)

      卡塞米羅驚人評(píng)價(jià):貝爾比C羅更全面,梅西是防守者的噩夢(mèng)

      星耀國(guó)際足壇
      2026-05-13 00:14:08
      太神奇了!場(chǎng)場(chǎng)三分命中率五成以上,苦熬七年,終于能拿億元合同

      太神奇了!場(chǎng)場(chǎng)三分命中率五成以上,苦熬七年,終于能拿億元合同

      球毛鬼胎
      2026-05-12 21:38:02
      寶媽就兒子割包皮跟寶爸吵了八百回,網(wǎng)友說(shuō):割了能更持久?

      寶媽就兒子割包皮跟寶爸吵了八百回,網(wǎng)友說(shuō):割了能更持久?

      燈錦年
      2026-05-10 19:22:52
      以軍被炸上天,給全世界教訓(xùn):大意輕敵,再精銳也能輸?shù)靡凰?>
    </a>
        <h3>
      <a href=愛(ài)吃醋的貓咪
      2026-05-10 22:06:14
      2026最火的6部韓劇,每部都太適合熬夜追了

      2026最火的6部韓劇,每部都太適合熬夜追了

      小Q侃電影
      2026-05-12 22:20:48
      專(zhuān)家:女性生育力“余額”無(wú)聲流失,35歲后呈斷崖式下降

      專(zhuān)家:女性生育力“余額”無(wú)聲流失,35歲后呈斷崖式下降

      南方都市報(bào)
      2026-05-12 08:48:40
      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      水谷隼徹底揭穿張本宇一家在日本受尊重的謊言!

      生活新鮮市
      2026-05-13 02:38:57
      2026-05-13 04:48:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3395文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹(shù)發(fā)布載人變形機(jī)甲,定價(jià)390萬(wàn)元起

      頭條要聞

      特朗普稱(chēng)將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱(chēng)將同中方討論對(duì)臺(tái)軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂(lè)要聞

      白鹿風(fēng)波升級(jí)!掉粉20萬(wàn)評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      利潤(rùn)再腰斬 京東干外賣(mài)后就沒(méi)過(guò)過(guò)好日子

      汽車(chē)要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      親子
      本地
      教育
      數(shù)碼

      家居要聞

      極簡(jiǎn)主義下的居住場(chǎng)域與空間

      親子要聞

      夏天建議:把孩子的空調(diào)服換成它!

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      教育要聞

      求求你試試「5+1+1」學(xué)習(xí)法!!!

      數(shù)碼要聞

      看電視的人越來(lái)越多了 3億臺(tái)電視在線 小米第一

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲天堂av无码| 亚洲黄色AV| 午夜福利午夜福利1000| 一本色道久久东京热| 日韩精品亚洲专区在线观看| 亚洲日韩精品欧美一区二区 | 国产成人啪精品午夜网站| 综合网天天| 3p视频在线观看| 成人综合在线观看| 欧美牲交a免费| 成人免费无码不卡毛片视频| 成人在线国产| 奇米成人| 一区二区三区人妻av| 高潮内射免费看片| 成人亚洲国产精品一区不卡| 无码人妻丝袜在线视频红杏| 欧美日韩综合在线| 亚洲欧美成人一区二区在线| 活大器粗np高h一女多夫| 隔壁老王国产在线精品| 精品 日韩 国产 欧美 视频| 99久久精品一区二区国产| 国产精品无码素人福利| 亚洲欧美日韩精品久久| 亚洲精选无码| 国模小黎自慰337p人体| 狠狠综合亚洲综合亚洲色| 狠狠色丁香婷婷亚洲综合| 国产内射老熟女aaaa∵| 中文字幕日韩精品有码视频| 福利天天看| 国产艳妇av在线观看果冻传媒| 人人爽人人爽人人爽| 国产福利精品导航网址| 日韩人妻无码一区二区三区| 国产一級A片免费看| 一本色道亚洲久久综合| 国产aⅴ爽av久久久久久| 天干天干天啪啪夜爽爽av|