兄弟們,Claude Opus 蒸餾 Qwen3.6-35B-A3B 來了——Qwopus3.6-35B-A3B-v1,名字看著像是 Qwen 和 Opus 談了場戀愛生的孩子,跑在單張 5090 上能飆到 161.9 tok/s
模型主頁:huggingface.co/Jackrong/Qwopus3.6-35B-A3B-v1
Qwen3.6-35B-A3B 底模是什么
總參數 35B ,實際激活參數只有 3B
共有 256 個專家(experts)
原生支持 262k 超長上下文
架構特點: Gated DeltaNet 線性注意力 + 標準門控注意力混合
定位:高性能 Agent 編碼、深度推理、多模態任務
對比同門 27B 稠密版,吞吐直接起飛
MoE 架構的好處在這里體現得很明顯:推理時只激活一小部分參數,速度快、顯存省
![]()
Base Model Benchmark 精調做了什么
Jackrong 在Qwen3.6-35B-A3B上用三階段課程學習 SFT 做了精調:
第一階段(格式建立)
短到中等長度的格式穩定推理樣本,主要任務是把輸出格式和基本推理路徑固定下來,避免底模的風格被破壞
第二階段(復雜度提升 + 多教師蒸餾)
逐步加大復雜推理樣本比例,蒸餾數據來自一個 27B 教師模型——刻意選了跟底模風格接近的,防止能力跨度太大導致學不進去
第三階段(長上下文強化 + 抗漂移)
強化長上下文推理,同時保留 10% 短樣本回放,防止模型忘掉基本指令跟隨能力(災難性遺忘)
訓練方法:LoRA 精調,可訓參數約占總參數的 9%
? 作者自己也寫了:9% 是個有風險的配置——MoE 架構下這么高的可訓參數比例,訓練不穩定和權重合并沖突的概率會顯著上升關鍵測評數據
速度是最大亮點:
RTX 5090 單卡 平均 161.9 tok/s
比同量級 27B 密集模型快 2.6 倍
對消費級單卡來說,這個吞吐率相當驚人
特別擅長的場景:
一鍵生成 HTML/CSS 前端 :評測報告說這是目前最強的開源 one-shot 前端生成模型之一,生成的頁面帶復雜微交互和動效組件,功能完整、可直接用
復雜推理 + 長上下文 JSON 提取 :修復了早期版本的 "thinking starvation" 問題,多步 Agent 規劃的結構化輸出更穩定
原生 Vision + Tool Calling :如果要開視覺能力,需要把
mmproj.gguf放到主.gguf同目錄下262K 上下文 + 顯存基本不漲 :歸功于 Gated DeltaNet 的線性注意力,序列拉再長,顯存也不會爆炸
還放出了 GGUF 量化版,本地跑非常省事
地址:Jackrong/Qwopus3.6-35B-A3B-v1-GGUF
![]()
?? 一個坑要先說清楚
如果你想在本地做 LoRA 微調或合并權重,注意:
? PEFT/LoRA + Transformers 5.x + Unsloth 補丁三者之間有已知兼容性問題
合并 LoRA 權重時可能報錯,類似:
ModuleNotFoundError: Could not import module 'Qwen3_5MoeForContinualGeneration'
MoE 專家層的權重結構跟普通密集模型差很多,容易觸發結構不匹配。如果要在本地精調,做好手動打補丁或降級特定庫版本的心理準備
老章怎么看
這個模型的價值點在于:把 35B 規模的 MoE 在消費級單卡上跑出了接近專業級的吞吐
對做 UI 生成、Agent 編排、長上下文推理的開發者來說,這個模型值得試一試。精調質量加上 MoE 的速度優勢,在同類社區模型里算是比較亮眼的
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.