<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Qwen3.6-27B 開源了,27B 小身板干翻 397B 巨無霸

      0
      分享至

      一文中,我就表達了對 Qwen 開源順序的稍稍不滿,大家明明最期待的是 27B 啊

      后來又測了幾個 Qwen3.6-35B 的量化版本,都是關(guān)閉思考,已經(jīng)完全可以取代釘子戶 Qwen3-32B 了

      剛剛,萬眾期待的 Qwen3.6-27B 終于來了


      FP8 版的模型權(quán)重已經(jīng)來到 30GB 級別,后面再來個 AWQ-4bit,簡直完美,單卡 4090 都輕松

      簡介

      先說結(jié)論:這是一個 27B 的 Dense 多模態(tài)模型,把上一代開源旗艦 Qwen3.5-397B-A17B(397B 總參 / 17B 激活)在幾乎所有編碼 Benchmark 上都干翻了

      是的,你沒看錯,小了 15 倍,反手給了老大哥一巴掌


      上圖是官方放出的分數(shù)對比,我挑幾個關(guān)鍵的給大家翻譯翻譯:

      • SWE-bench Verified :77.2(3.5-397B 是 76.2)

      • SWE-bench Pro :53.5(3.5-397B 是 50.9)

      • Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)

      • SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,這個差距有點離譜)

      • GPQA Diamond :87.8

      • AIME 2026 :94.1

      橫向?qū)Ρ?Claude 4.5 Opus 這種閉源旗艦,編碼上基本也就差個 1~5 分,Terminal-Bench 居然打平(都是 59.3)

      這個參數(shù)量做到這個水平,我只能說阿里這波是真卷出來了,對得起大家的期待

      這次更新的核心賣點就兩個:

      • Agentic Coding :前端任務(wù)、倉庫級代碼推理都明顯更順滑,這次是 real-world coding 直接對標(biāo) Claude

      • Thinking Preservation :多輪對話時可以保留歷史的 thinking 上下文,代碼迭代開發(fā)場景下,不用每輪都重新"想一遍"了

      模型架構(gòu)也有點意思:

      • 參數(shù)量:27B(Dense,不是 MoE,部署簡單)

      • 上下文:原生 262,144 tokens,可擴展到 1,010,000 tokens (百萬級)

      • 層數(shù):64 層,隱藏維度 5120

      • Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

      • 多模態(tài):自帶 Vision Encoder,圖片、視頻、文檔通吃

      • 支持 MTP(Multi-Token Prediction),推理速度有加成

      Gated DeltaNet + Gated Attention 的混合架構(gòu),是 Qwen3.5 就開始用的,和純 Attention 比,長上下文時顯存友好很多。這也是為什么它敢說百萬上下文。

      順便提一句,這次還同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方說「性能指標(biāo)幾乎與原始模型一致」,顯存能砍掉一半左右,對本地部署是重磅利好

      為什么這個 27B 值得你重點關(guān)注

      老章這里掰開聊一下,27B Dense 這個尺寸對社區(qū)為什么是 sweet spot:

      1. 部署簡單 :Dense 架構(gòu)沒有 MoE 路由那一套,不用折騰專家并行,vLLM/SGLang 直接一把梭

      2. 硬件門檻適中 :BF16 大約需要 54GB 顯存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,單張 48G 的 L40S / A6000 Ada 就能跑

      3. 能力不妥協(xié) :前面 benchmark 已經(jīng)證明了,它比上一代 397B 還強

      4. 純開源權(quán)重 :Hugging Face 和 ModelScope 都有官方權(quán)重,商用隨便

      你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不動的,現(xiàn)在中間這檔終于有了像樣的選手

      本地部署(重點來了)

      這次官方推薦 3 條路子:SGLang / vLLM / Hugging Face Transformers,另外還支持 KTransformers 做 CPU-GPU 異構(gòu)推理。

      老章個人生產(chǎn)環(huán)境里最喜歡的是 vLLM

      1. vLLM 部署(推薦)

      版本要求 vllm>=0.19.0,裝新一點準(zhǔn)沒錯:

      uv pip install vllm --torch-backend=auto

      標(biāo)準(zhǔn)啟動(8 卡 tensor parallel、262K 上下文):

      vllm serve Qwen/Qwen3.6-27B \
      --port 8000 \
      --tensor-parallel-size 8 \
      --max-model-len 262144 \
      --reasoning-parser qwen3

      帶 Tool Call(Coding Agent 場景必開):

      vllm serve Qwen/Qwen3.6-27B \
      --port 8000 \
      --tensor-parallel-size 8 \
      --max-model-len 262144 \
      --reasoning-parser qwen3 \
      --enable-auto-tool-choice \
      --tool-call-parser qwen3_coder

      開啟 MTP(多 Token 預(yù)測,推理提速)

      vllm serve Qwen/Qwen3.6-27B \
      --port 8000 \
      --tensor-parallel-size 8 \
      --max-model-len 262144 \
      --reasoning-parser qwen3 \
      --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

      只用文本能力(省顯存,砍掉視覺編碼器,給 KV Cache 讓路):

      vllm serve Qwen/Qwen3.6-27B \
      --port 8000 \
      --tensor-parallel-size 8 \
      --max-model-len 262144 \
      --reasoning-parser qwen3 \
      --language-model-only

      老章提個醒:官方明確說"如果 OOM 別無腦降 context,建議最少保留 128K,否則 thinking 能力會被閹割"

      2. SGLang 部署

      版本 sglang>=0.5.10

      uv pip install sglang[all]

      標(biāo)準(zhǔn)啟動:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-27B \
      --port 8000 \
      --tp-size 8 \
      --mem-fraction-static 0.8 \
      --context-length 262144 \
      --reasoning-parser qwen3

      帶 Tool Use:

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-27B \
      --port 8000 --tp-size 8 \
      --mem-fraction-static 0.8 \
      --context-length 262144 \
      --reasoning-parser qwen3 \
      --tool-call-parser qwen3_coder

      開啟 MTP(投機解碼):

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-27B \
      --port 8000 --tp-size 8 \
      --mem-fraction-static 0.8 \
      --context-length 262144 \
      --reasoning-parser qwen3 \
      --speculative-algo NEXTN \
      --speculative-num-steps 3 \
      --speculative-eagle-topk 1 \
      --speculative-num-draft-tokens 4
      3. Transformers 輕量部署(測試用)

      顯存夠、但懶得裝 vLLM/SGLang,直接官方 Transformers 自帶的 server 也行:

      pip install "transformers[serving]"
      transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

      注意這個是輕量級的,測試可以,上生產(chǎn)還是老老實實 vLLM/SGLang。

      4. 顯存不夠?上 FP8 版

      本地卡不夠的兄弟,直接把模型名換成 Qwen/Qwen3.6-27B-FP8 即可,其他啟動參數(shù)一毛一樣

      官方說指標(biāo)幾乎無損,顯存需求直接腰斬

      vllm serve Qwen/Qwen3.6-27B-FP8 \
      --port 8000 \
      --tensor-parallel-size 2 \
      --max-model-len 131072 \
      --reasoning-parser qwen3

      雙卡 4090、單卡 L40S/A6000 Ada 跑起來都挺香

      使用

      起好服務(wù)后,接口完全兼容 OpenAI,老配方了

      采樣參數(shù)官方推薦值(這個很關(guān)鍵,別瞎調(diào)):

      • 思考模式(通用): temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0

      • 思考模式(精確編碼,如 WebDev): temperature=0.6, top_p=0.95, top_k=20

      • 非思考模式: temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

      純文本請求:

      from openai import OpenAI
      client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

      messages = [
      {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
      ]

      resp = client.chat.completions.create(
      model="Qwen/Qwen3.6-27B",
      messages=messages,
      max_tokens=81920,
      temperature=1.0,
      top_p=0.95,
      presence_penalty=0.0,
      extra_body={"top_k": 20},
      )
      print(resp)

      默認開啟思考,輸出里會有 ... 包裹的思考內(nèi)容,不想要就按非思考模式的參數(shù)調(diào)。

      多模態(tài)(圖片)請求:

      messages = [{
      "role": "user",
      "content": [
      {"type": "image_url",
      "image_url": {"url": "https://your-image-url.jpg"}},
      {"type": "text", "text": "這張圖里有幾個圓?"},
      ]
      }]


      resp = client.chat.completions.create(
      model="Qwen/Qwen3.6-27B",
      messages=messages,
      max_tokens=81920,
      temperature=1.0,
      top_p=0.95,
      extra_body={"top_k": 20},
      )

      視頻輸入也一樣,把 type 換成 video_url 即可,官方 demo 里都有。

      老章小結(jié)

      優(yōu)點:

      • 27B Dense,部署友好,社區(qū)期盼已久的甜點尺寸終于來了

      • Agentic Coding 能力真的強,SWE-bench 干翻 397B MoE 老大哥

      • 原生 262K,可擴到 1M 上下文,倉庫級代碼任務(wù)夠用

      • 多模態(tài) + 文本雙修,一個模型吃到底

      • FP8 量化版同步放出,本地部署門檻再降一半

      • vLLM / SGLang / Transformers / KTransformers 全棧支持

      局限:

      • 27B 的盤子再怎么煉,HLE 這種超硬核推理題還是打不過 397B 和 Claude 4.5 Opus

      • 默認開啟 thinking,某些對延遲敏感的線上場景要注意切模式

      • context 不建議壓縮到 128K 以下,否則 thinking 會退化(說明這個長上下文是設(shè)計內(nèi)的,硬核縮不動)

      • 關(guān)注?一波,明天出本地部署性能實測

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      2026抗癌新突破!中晚期患者的春天來了,目前已全額納入醫(yī)保

      2026抗癌新突破!中晚期患者的春天來了,目前已全額納入醫(yī)保

      牛鍋巴小釩
      2026-05-12 18:55:38
      美防長曾警告中國,沙特大手筆欲購12艘052D,美國不允許此事發(fā)生

      美防長曾警告中國,沙特大手筆欲購12艘052D,美國不允許此事發(fā)生

      紅岸衛(wèi)士
      2026-05-11 22:12:18
      特朗普應(yīng)邀訪華3天,中方準(zhǔn)備了高規(guī)格禮遇,他想邀中方回訪美國

      特朗普應(yīng)邀訪華3天,中方準(zhǔn)備了高規(guī)格禮遇,他想邀中方回訪美國

      別讓往昔的悲傷和對未來的恐懼
      2026-05-13 02:30:26
      過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準(zhǔn)是你

      過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準(zhǔn)是你

      心理觀察局
      2026-05-03 08:29:04
      男子2天內(nèi)嫖娼2次被行拘

      男子2天內(nèi)嫖娼2次被行拘

      觀威海
      2026-05-12 10:47:08
      7年敗光2個億,鄒市明冉瑩穎共同發(fā)文,終究還是踏出了這一步

      7年敗光2個億,鄒市明冉瑩穎共同發(fā)文,終究還是踏出了這一步

      林輕吟
      2026-02-11 11:29:40
      歷史重演,騎士2-2追平活塞,就看哈登學(xué)的是06年詹姆斯還是07年

      歷史重演,騎士2-2追平活塞,就看哈登學(xué)的是06年詹姆斯還是07年

      鐵甲西奇
      2026-05-12 15:46:20
      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      杰絲聊古今
      2026-05-02 11:06:33
      當(dāng)代網(wǎng)友大無語事件:集體破防名場面來了!

      當(dāng)代網(wǎng)友大無語事件:集體破防名場面來了!

      夜深愛雜談
      2026-03-25 22:26:58
      亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現(xiàn)最出色的球員

      亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現(xiàn)最出色的球員

      北青網(wǎng)-北京青年報
      2026-05-12 20:22:04
      退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

      退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

      心理觀察局
      2026-05-07 08:18:05
      想安穩(wěn)活到81歲?66歲起,兩性關(guān)系這8句一定要聽進去

      想安穩(wěn)活到81歲?66歲起,兩性關(guān)系這8句一定要聽進去

      新時代的兩性情感
      2026-04-24 12:36:15
      人民日報發(fā)聲:機關(guān)事業(yè)單位的隱性收入,正在消失

      人民日報發(fā)聲:機關(guān)事業(yè)單位的隱性收入,正在消失

      細說職場
      2026-05-09 12:16:27
      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能向中國妥協(xié)

      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能向中國妥協(xié)

      娛樂的宅急便
      2026-05-13 00:36:36
      常吃輔酶Q10不能與這4類藥物搭配,每天都有人吃錯,醫(yī)生科普真相

      常吃輔酶Q10不能與這4類藥物搭配,每天都有人吃錯,醫(yī)生科普真相

      健康之光
      2026-05-03 13:10:12
      貝蒂斯2-1埃爾切鎖定歐冠席位,庫喬建功,福爾納爾斯制勝

      貝蒂斯2-1埃爾切鎖定歐冠席位,庫喬建功,福爾納爾斯制勝

      懂球帝
      2026-05-13 04:33:27
      大媽打掃指揮部時,猛然發(fā)現(xiàn)眼前的八路軍參謀長有可能是日軍特務(wù)

      大媽打掃指揮部時,猛然發(fā)現(xiàn)眼前的八路軍參謀長有可能是日軍特務(wù)

      云端小院
      2026-05-12 06:43:51
      比美國更怕中國崛起的是俄羅斯,俄怕的并不只是領(lǐng)土那點事

      比美國更怕中國崛起的是俄羅斯,俄怕的并不只是領(lǐng)土那點事

      小輧喜歡解說
      2026-05-13 00:17:23
      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當(dāng)?shù)氐纳鷳B(tài)災(zāi)難

      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當(dāng)?shù)氐纳鷳B(tài)災(zāi)難

      怪羅
      2026-05-11 10:01:52
      一位上海媽媽的親身經(jīng)歷:當(dāng)孩子確診ADHD,我是這樣走過來的

      一位上海媽媽的親身經(jīng)歷:當(dāng)孩子確診ADHD,我是這樣走過來的

      小美教育筆
      2026-05-10 15:03:19
      2026-05-13 05:08:49
      Ai學(xué)習(xí)的老章 incentive-icons
      Ai學(xué)習(xí)的老章
      Ai學(xué)習(xí)的老章
      3395文章數(shù) 11150關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應(yīng)

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風(fēng)波升級!掉粉20萬評論區(qū)淪陷

      財經(jīng)要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      親子
      教育
      公開課

      房產(chǎn)要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      干細胞能讓人“返老還童”嗎

      親子要聞

      夏天建議:把孩子的空調(diào)服換成它!

      教育要聞

      求求你試試「5+1+1」學(xué)習(xí)法!!!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 亚洲AV成人中文无码专区| aaa少妇高潮大片免费看| 99久久精品免费看国产| 日韩欧群交p片内射中文| 精品国产乱码久久久久久郑州公司| 国产精品丝袜久久久久久不卡| 超碰热| 人妻少妇无码中文幕久久| 国产精品久久久久久久久齐齐| 亚洲日韩成人无码| 亚洲 小说区 图片区 都市| 国产成人一区二区视频免费| 永久免费男同AV无码入口| 国产精品午夜福利视频| 国产熟女在线播放第一页| 一本色道久久综合亚洲色| 中文字幕av无码专区第一页| 国产精品视频第一区二区三区| www.com黄色| 中国AV网| 特黄特色的大片观看免费视频| 国产成人高清在线观看视频| 国产精品扒开腿做爽爽爽视频| 亚洲精品高清国产一线久久| 亚洲av有码在线天堂| 精品综合久久久久久97超人| 久久婷婷综合色丁香五月| 无码av中文一二三区| 亚洲少妇人妻无码视频| 国产精品一一在线观看| 久久精品国产只有精品2020 | 久久人妻系列无码一区| 色欲天天网站欧美成人福利网 | 国产精品无码dvd在线观看| 私人午夜影院| 国产乱码精品一区三上| 国产98在线 | 欧美| 国产综合内射日韩久| 日本视频一区二区免费播放| 无码中文字幕乱在线观看| 国产激情久久久久影院老熟女|