<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.6-35B-A3B開源了,本地部署教程

      0
      分享至

      剛剛,Qwen3.6-開源了 Qwen3.6-35B-A3B

      比較失望,不是我,還有眾多網友期待的 Qwen3.6-27B


      簡介

      Qwen3.6-35B-A3B 是一個 MoE 架構的小身材大能量選手:35B 參數總量,但實際推理只激活 3B

      這意味著什么?運行它的算力消耗,大概只相當于一個 3B 稠密模型,但效果能打 27B、30B 的稠密大模型


      Qwen3.6-35B-A3B 綜合評測得分

      這次開源的核心亮點:

      • Agentic Coding 能力大幅提升 :前端工作流和倉庫級代碼推理,明顯上了一個臺階

      • Thinking Preservation(思維保留) :全新特性,可以在多輪對話中保留歷史推理鏈,迭代開發場景下減少重復思考開銷

      • 原生多模態 :視覺 + 語言雙修,不是縫合怪,內置了視覺編碼器

      • 超長上下文 :原生支持 262,144 tokens,開啟 YaRN 后可擴展到 100 萬 tokens

      架構揭秘:35B 總量 / 3B 激活,怎么做到的?

      Qwen3.6 用的是一種混合架構——把 Gated DeltaNet(線性注意力)Gated Attention(標準注意力) 交替堆疊,不是純 Transformer,也不是純線性注意力,而是兩者的融合體

      再配上 MoE(混合專家)層:

      • 256 個專家 ,每次推理只激活 8 個路由專家 + 1 個共享專家

      • 40 層堆疊,隱層維度 2048

      這套架構的好處是:推理時大量專家處于"休眠"狀態,算力需求極低;但模型的總參數量帶來了豐富的知識密度。說白了,錢都花在學習上,推理時省著用

      性能實測:Agent 編程這項,真的飛了

      先上核心評測數據,對比選手是同規模的 Qwen3.5-35B-A3B(前代)、Gemma4-31B、Qwen3.5-27B(稠密 27B):

      評測基準

      Qwen3.5-27B

      Gemma4-31B

      Qwen3.5-35BA3B

      Qwen3.6-35BA3B

      SWE-bench Verified

      75.0

      52.0

      70.0

      73.4

      Terminal-Bench 2.0

      41.6

      42.9

      40.5

      51.5

      QwenWebBench(前端)

      1068

      1197

      978

      1397

      Claw-Eval Avg

      64.3

      48.5

      65.4

      68.7

      Terminal-Bench 從 40.5 跳到 51.5,提升了 11 個百分點

      QwenWebBench(前端代碼生成)直接從 978 干到 1397,基本上是把上一代甩出了一條街

      我個人最感興趣的是 QwenWebBench 這個指標——它評測的是生成網頁/小游戲/數據可視化等實際前端任務,這個分數說明 Qwen3.6 在"一句話生成 App"這類場景里有了質的飛躍

      多模態這邊也不差:視覺問答在空間智能方面(RefCOCO: 92.0,ODInW13: 50.8)甚至超過了 Claude Sonnet 4.5,文檔理解和 OCR 類任務也處于 SOTA 水平。

      部署

      本人還在龜速下載中,先看看幾個推理引擎下部署指南

      地址:modelscope.cn/models/Qwen/Qwen3.6-35B-A3B


      推薦方案一:SGLang(高吞吐生產場景)


      uv pip install sglang[all]


      # 啟動服務(8 卡,262K 上下文)
      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-35B-A3B \
      --port 8000 \
      --tp-size 8 \
      --mem-fraction-static 0.8 \
      --context-length 262144 \
      --reasoning-parser qwen3

      加速推理可以開 MTP(多 token 預測):

      python -m sglang.launch_server \
      --model-path Qwen/Qwen3.6-35B-A3B \
      --port 8000 --tp-size 8 \
      --reasoning-parser qwen3 \
      --speculative-algo NEXTN \
      --speculative-num-steps 3 \
      --speculative-eagle-topk 1 \
      --speculative-num-draft-tokens 4

      推薦方案二:vLLM

      uv pip install vllm --torch-backend=auto


      vllm serve Qwen/Qwen3.6-35B-A3B \
      --port 8000 \
      --tensor-parallel-size 8 \
      --max-model-len 262144 \
      --reasoning-parser qwen3

      如果只做文本推理,不需要視覺能力,加上 --language-model-only 可以省下視覺編碼器的顯存給 KV Cache 用,吞吐量更高

      使用

      最重要的新特性:preserve_thinking,強烈推薦 Agent 場景開啟。

      默認情況下,模型每輪只保留最新一條消息的推理過程。開啟 preserve_thinking=True 之后,歷史輪次的推理鏈都會被保留并復用,對多步任務特別有用——減少重復思考,KV Cache 利用率也更高。

      from openai import OpenAI

      client = OpenAI(
      api_key="DASHSCOPE_API_KEY",
      base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
      )

      completion = client.chat.completions.create(
      model="qwen3.6-flash",
      messages=[{"role": "user", "content": "幫我分析這個 Python 項目結構"}],
      extra_body={
      "enable_thinking": True,
      "preserve_thinking": True, # Agent 場景開啟
      },
      stream=True,
      )

      關掉思維鏈(非思考模式) 也很簡單,日常對話場景速度更快:

      extra_body={
      "chat_template_kwargs": {"enable_thinking": False},
      }
      ? 注意:Qwen3.6 不再支持 /think/nothink 軟切換指令,需要通過參數控制。
      Coding Agent 工具集成

      Qwen3.6-35B-A3B 可以直接對接三款主流 Coding Agent:

      方案一:Qwen Code(推薦,專為 Qwen 系列優化)

      npm install -g @qwen-code/qwen-code@latest
      qwen
      # 進入后運行 /auth 配置 API Key

      方案二:OpenClaw(開源,支持自部署)

      curl -fsSL https://molt.bot/install.sh | bash
      export DASHSCOPE_API_KEY=
      openclaw dashboard

      方案三:Claude Code + Qwen API(驚喜組合)

      Qwen 支持 Anthropic API 協議,意味著可以直接用 Claude Code 套殼調用 Qwen 模型:

      npm install -g @anthropic-ai/claude-code

      export ANTHROPIC_MODEL="qwen3.6-flash"
      export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
      export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
      export ANTHROPIC_AUTH_TOKEN=

      claude

      這個玩法挺有意思的:Claude Code 的 UI 體驗 + Qwen 的模型能力,而且 API 費用走阿里云那邊,比 Anthropic 便宜不少

      本地運行:Mac / PC 也能跑(Unsloth GGUF)

      Unsloth 已經跑通了 Qwen3.6-35B-A3B 的 GGUF 量化版本,用 llama.cpp 在本地跑完全可行

      他們用自家的 Dynamic 2.0 量化方案——對重要層做精度補償,效果比普通 Q4 強不少

      官方說 22GB 內存的 Mac 就能跑


      內存需求參考(RAM + VRAM 合計):

      量化精度

      所需內存

      Q2 極限壓縮

      ~17 GB

      Q4_K_XL(推薦)

      ~23 GB

      Q5

      ~30 GB

      Q6

      ~38 GB

      BF16 全精度

      ~70 GB


      ? ?? 重要提示:目前 Qwen3.6 的 GGUF 版本不支持 Ollama,因為視覺編碼器(mmproj)需要單獨加載文件,Ollama 暫時處理不了這個。請用 llama.cpp 兼容后端(Unsloth Studio 或 llama-server)。

      方案一:Unsloth Studio(圖形界面,新手友好)

      一行命令安裝,自動搞定 llama.cpp 環境:

      # macOS / Linux / WSL
      curl -fsSL https://unsloth.ai/install.sh | sh


      # 啟動 Web UI
      unsloth studio -H 0.0.0.0 -p 8888

      打開瀏覽器訪問 http://localhost:8888,搜索 Qwen3.6 下載對應量化版本,參數會自動配好,還有思維鏈開關,對小白極其友好。

      方案二:llama-server 命令行

      適合需要自定義參數或接入 Agent 工具的場景:

      ./llama.cpp/llama-server \
      --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
      --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
      --alias "unsloth/Qwen3.6-35B-A3B" \
      --temp 0.6 \
      --top-p 0.95 \
      --top-k 20 \
      --min-p 0.00 \
      --ctx-size 16384 \
      --port 8001

      注意兩個文件都要下載:模型主體 .gguf + 視覺編碼器 mmproj-F16.gguf,缺一不可。

      啟動后用 OpenAI 兼容 API 調用:

      from openai import OpenAI

      client = OpenAI(
      base_url="http://127.0.0.1:8001/v1",
      api_key="sk-no-key-required",
      )

      completion = client.chat.completions.create(
      model="unsloth/Qwen3.6-35B-A3B",
      messages=[{"role": "user", "content": "幫我寫個貪吃蛇游戲"}],
      )
      print(completion.choices[0].message.content)

      切換思維鏈模式也很簡單,在啟動參數里加一行:

      # 關閉思維鏈(更快,日常對話)
      --chat-template-kwargs '{"enable_thinking":false}'


      # 開啟思維鏈(更強,復雜推理)
      --chat-template-kwargs '{"enable_thinking":true}'

      llama-server 拉起來之后,同樣可以對接 Claude Code 或 Qwen Code,把本地量化模型當 Agent 后端用,完全離線,不花一分 API 費

      總結

      Qwen3.6-35B-A3B 是一個讓人難以挑剔的開源 MoE 模型

      • ? 3B 激活參數,推理成本極低,個人顯卡也能跑

      • ? Agent 編程能力顯著提升,QwenWebBench 大幅領先前代

      • ? 原生多模態,視覺理解能力對標 Claude Sonnet 4.5

      • ? preserve_thinking 新特性,多步 Agent 場景如虎添翼

      • ? 262K 原生上下文,YaRN 后可擴展到 100 萬

      • ?? 不再支持 /think /nothink 軟切換,需要注意遷移成本

      • ?? 完整精度部署仍需多卡,但 Unsloth GGUF 量化版 22GB Mac 可跑

      • ?? GGUF 版本暫不支持 Ollama,需用 llama.cpp 或 Unsloth Studio

      有需要在自己服務器上部署 Coding Agent 的朋友,這個應該是目前性價比最高的開源選擇了

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      妍妍教育日記
      2026-05-10 11:50:07
      卡塞米羅:C羅是外星人,防梅西鏟完我只敢道歉

      卡塞米羅:C羅是外星人,防梅西鏟完我只敢道歉

      仰臥撐FTUer
      2026-05-12 19:00:05
      245%!巴西對華鎂錠突然下狠手?手握全球90%產能,咱們真不用慌

      245%!巴西對華鎂錠突然下狠手?手握全球90%產能,咱們真不用慌

      潮鹿逐夢
      2026-05-12 17:15:55
      意甲加冕,國米不只贏了一個賽季!橡樹加大投資,未來可期!

      意甲加冕,國米不只贏了一個賽季!橡樹加大投資,未來可期!

      肥強侃球
      2026-05-12 23:12:44
      老人喝農藥后醫護人員未檢查即判斷死亡,巫山通報立案調查,家屬最新發聲:已和院方達成一致

      老人喝農藥后醫護人員未檢查即判斷死亡,巫山通報立案調查,家屬最新發聲:已和院方達成一致

      極目新聞
      2026-05-12 18:52:29
      剛剛,四川突發地震!

      剛剛,四川突發地震!

      吉刻新聞
      2026-05-12 21:53:03
      比亞迪固態電池正式首發,純電續航1218km,電車市場要變天了!

      比亞迪固態電池正式首發,純電續航1218km,電車市場要變天了!

      沙雕小琳琳
      2026-05-12 03:23:16
      格局!張雪祝賀吉利奪世界冠軍:用中國車手奪冠 分量比我們更重

      格局!張雪祝賀吉利奪世界冠軍:用中國車手奪冠 分量比我們更重

      念洲
      2026-05-12 15:14:34
      央視拒付香港21億轉播費,李嘉誠意外躺槍引討論

      央視拒付香港21億轉播費,李嘉誠意外躺槍引討論

      不甜的李子
      2026-05-12 03:17:43
      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      界面新聞
      2026-05-12 14:55:29
      別再同情葉子楣了,她的身家根本不需要靠男人!

      別再同情葉子楣了,她的身家根本不需要靠男人!

      舊時光老師
      2026-05-11 22:30:07
      以色列發動空襲

      以色列發動空襲

      南方都市報
      2026-05-12 12:44:03
      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      顏小白的籃球夢
      2026-05-12 13:30:31
      烏克蘭戰略轉向!不守了,他們想徹底廢掉俄羅斯的戰爭能力?

      烏克蘭戰略轉向!不守了,他們想徹底廢掉俄羅斯的戰爭能力?

      一網打盡全球焦點
      2026-05-10 07:37:10
      心理學上說:如果一個人對家人不耐煩、易發火,對外人卻客客氣氣、夠溫和,不是本性涼薄,根源無外乎有兩點

      心理學上說:如果一個人對家人不耐煩、易發火,對外人卻客客氣氣、夠溫和,不是本性涼薄,根源無外乎有兩點

      心理觀察局
      2026-05-12 09:06:23
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      忠于法紀
      2026-05-12 17:29:09
      京滬高鐵宣布,漲價!

      京滬高鐵宣布,漲價!

      中國基金報
      2026-05-11 19:58:07
      輝煌難再現,穆里尼奧離開皇馬后勝率從71.91%降至55.57%

      輝煌難再現,穆里尼奧離開皇馬后勝率從71.91%降至55.57%

      懂球帝
      2026-05-12 23:03:07
      快捷酒店內消殺工作人員錯開房門,房內女子未著衣物,個人隱私遭到泄露,消殺企業:承認失誤,愿按房費30倍標準進行賠償

      快捷酒店內消殺工作人員錯開房門,房內女子未著衣物,個人隱私遭到泄露,消殺企業:承認失誤,愿按房費30倍標準進行賠償

      大風新聞
      2026-05-12 15:01:02
      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      界面新聞
      2026-05-12 11:58:06
      2026-05-13 00:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      時尚
      旅游
      手機
      教育

      本地新聞

      用蘇繡的方式,打開江西婺源

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      手機要聞

      小米18工程機曝光:2nm芯、雙揚、大X軸馬達,終不用妥協了

      教育要聞

      求求你試試「5+1+1」學習法!!!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 老司机免费的精品视频| 丰满少妇被猛烈进入| 日操日爽| 传媒精品入口| 亚洲色成人一区二区三区人人澡人人妻人人爽人人蜜桃麻豆 | av中文字幕在线看| 老司机av到货凹凸| 欧美伦费免费全部午夜最新| 天海翼一区| a一级毛片免费播放| 99精品国产在热久久无码| 欧美成人精品三级网站| 精品久久久无码中文字幕| 亚洲精品少妇被粗大猛进| 亚欧乱色熟女一区二区三区| 日韩精品一区二区亚洲专区| 一区二区午夜| www日韩| 日本久久综合久久综合| 日本亚洲欧洲无免费码在线| 少妇被躁爽到高潮| 天天爱综合| 亚洲精品国产品国语在线观看| 亚洲综合一区二区三区视频| 97福利| 99久久免费精品国产色| 国内嫩模私拍精品视频| 国产精品中文字幕久久| 手机看片福利视频| 中文字幕无线乱码人妻| 99国产精品农村一级毛片| 2020国产成人综合网| 国产极品艳情生活视频在线观看免费| 国产网红美女av在线| 黄片网址| 中文字幕人妻伦伦| 亚洲国产在一区二区三区| igao国产精品| 精品人妻大屁股白浆无码| 亚洲国产欧洲精品路线久久| 欧美阿v高清资源不卡在线播放|