<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>

<p id="tp1vn"></p>

<sub id="tp1vn"><p id="tp1vn"></p></sub>

<u id="tp1vn"><rp id="tp1vn"></rp></u>

<meter id="tp1vn"></meter>

<wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>

日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao

<blockquote id="x4dpe"><td id="x4dpe"></td></blockquote>

<tt id="x4dpe"><option id="x4dpe"></option></tt>

<bdo id="x4dpe"><form id="x4dpe"></form></bdo>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

DeepSeek-V4 蒸餾 Qwen3.5，只有 9B，本地能跑

2026-05-07 20:45:21　來源: Ai學習的老章

北京舉報

0

分享至

　　社區蒸餾熱潮又起，這次主角是DeepSeek-V4 + Qwen3.5，最小一檔只有 9B

　　HuggingFace 用戶Jackrong放出了一整套合集：Qwen3.5-9B-DeepSeek-V4-Flash——9B 量級的小身板，跑的是 V4 的腦子

　　合集首頁：https://huggingface.co/collections/Jackrong/deepseek-v4-distill

　　蒸餾是怎么個蒸餾

　　老章之前講過蒸餾的本質，這次再用一句話總結：

　　大模型（DeepSeek-V4，萬億級 MoE）當老師小模型（Qwen3.5-9B Dense）當學生讓學生模仿老師的「思考過程」與「輸出風格」最終拿到一個：體量小很多、能力靠近老師的模型

　　但這次蒸餾有幾個細節挺反常識，值得展開：

　　1. 數據集只有 8000 條

　　是的你沒看錯——叫Jackrong/DeepSeek-V4-Distill-8000x，名字里就寫了 8000

　　蒸餾圈里的常識是「數據越多越好」，但 Jackrong 這次反其道而行：少而精

　　模型卡里直接引用了一篇近期論文 Rethinking Generalization in Reasoning SFT (arXiv:2604.06628) 的兩個觀點：

　　高質量長 CoT 數據能讓小模型獲得跨域遷移能力

　　優化紀律：8000 條精選 + 短訓練，比海量數據更能避免「過擬合老師風格」

　　簡單說：讓學生學到老師的推理引擎，而不是只學口頭禪

　　2. 訓練棧是 Unsloth + NVIDIA DGX

　　模型卡里提到的訓練配置：

　　硬件：NVIDIA DGX

　　訓練框架：Unsloth（梯度穩定）

　　合作方：硬件工程師 Kyle Hessling（@KyleHessling1）提供算力和 post-training 測試

　　3. 老師 DeepSeek-V4 自己就很硬

　　下面這張是 DeepSeek-V4 教師模型的官方性能圖：

　　
DeepSeek-V4 教師模型性能

　　DeepSeek-V4 幾個關鍵技術點：

　　1M 長上下文

　　Hybrid Attention + DSA（DeepSeek Sparse Attention）：KV Cache 降 90%

　　Engram Memory + mHC（Manifold-constrained Hyper-connections）：把事實記憶和動態推理解耦

　　Agent-centric：原生為多步工具調用做了優化

　　老師配置這么強，蒸出來的學生才有底氣

　　評測：和 Qwen3.5-9B 原版對比

　　模型卡里給了一份 Q5_K_M 量化下的對照測試，由 Kyle Hessling 在同一臺機器、同一套評估流程下分別跑了兩個模型

　　下面這張是綜合得分對比：

　　
綜合評測報告 Agent 推理能力（蒸餾的強項）Agentic 推理對比工具調用Tool Calling 對比前端代碼Front-end Design 對比評測方法說明

　　為了避免「自賣自夸」，作者把對照方法直接公開了：

　　
對照評測方法評測環境配置

　　老章看下來的結論：結構化推理、工具調用、前端代碼這三塊，蒸餾版穩吃原版——這正是教師 DeepSeek-V4 最擅長的領域

　　全格式覆蓋：隨便挑一個就能跑

　　Jackrong 一次性放出了 6 個版本，幾乎所有本地推理框架都能直接拿來用

　　版本

　　HuggingFace 鏈接

　　原始 BF16

　　全精度，可繼續微調

　　Qwen3.5-9B-DeepSeek-V4-Flash

　　GGUF

　　llama.cpp / Ollama / LM Studio 通吃

　　GGUF 版

　　MLX 4bit

　　Mac 極致省內存

　　MLX-4bit

　　MLX 6bit

　　Mac 平衡檔

　　MLX-6bit

　　MLX 8bit

　　Mac 高質量檔

　　MLX-8bit

　　MLX BF16

　　Mac 全精度

　　MLX-bf16

GGUF 倉庫

　　社區認可度可見一斑——發布幾天，GGUF版下載就到了 68k

　　MLX 4bit：M 系列 Mac 直接起飛
MLX 4bit 倉庫

　　9B + 4bit，理論上 16G 內存的 M2/M3/M4 都能暢快跑——老章手上的 Mac 已經在排隊

　　
BF16 原始權重

　　這個是給「研究黨」準備的——做繼續微調、自蒸餾、嚴肅評測都需要從原始權重出發

　　推薦用法

　　模型卡里給了一組建議參數：

　　temperature =0.7~1.0 # 嚴格代碼任務：低溫（0.3-0.7） # 創造性推理：高溫（0.8-1.0） top_p =0.95 # 用 ChatML 標準模板，推理效果最好順手介紹一個數據集

　　順便介紹一份開源數據：GLM-5.1-Reasoning-1M-Cleaned

　　
地址：https://huggingface.co/datasets/Jackrong/GLM-5.1-Reasoning-1M-Cleaned

　　100 萬條從 GLM-5.1 收集清洗過的推理樣本——注意這個有意思的細節：

　　蒸餾目標是 DeepSeek-V4

　　底座模型是 Qwen3.5

　　訓練數據是 GLM-5.1 出來的

　　社區蒸餾越來越像「調雞尾酒」——每個組件都從開源生態里挑最合適的

　　雖然這次 Flash 模型只用了 8000 條 V4 蒸餾數據，但 1M 這份大數據集給后續做 SFT、做自己的蒸餾方案的人留了很多空間

　　老章的看法

　　這套合集最戳老章的幾個點：

　　1. 9B 是真·甜點尺寸

　　放在兩年前你說 9B 夠用，沒人信。但今天的 9B 蒸餾模型，常規問答、代碼、Agent 推理基本能頂過去 30B 老模型——這就是「教師→學生」蒸餾路線的紅利

　　2. 8000 條 vs 100 萬條的對照

　　用極少的高質量數據，配上短訓練周期，做出能打的小模型——這條路證明了「數據質量 >> 數據量」在蒸餾場景的價值

　　3. 全平臺覆蓋

　　GGUF + MLX 幾乎覆蓋所有本地推理棧，下載就能用，不挑顯卡不挑系統——這是給個人開發者最大的善意

　　4. 評測開放

　　Kyle Hessling 把評測方法、對照基準、原始數據都放出來了，社區可以復現——這種透明度比閉門跑分實誠得多

　　適合誰：

　　想本地跑推理模型、又不想上 32B/70B 的開發者

　　Mac 用戶（MLX 全套支持）

　　Agent / 工具調用 / 前端代碼場景

　　想做繼續微調或自蒸餾的研究者

　　不太適合：

　　嚴肅生產環境——蒸餾小模型在長文檔、超復雜多輪場景下還是會比滿血 V4 弱一截

　　期待中文創作能力跨級提升的——蒸餾更多保留邏輯能力，文風創意沒那么強

　　總結

　　DeepSeek-V4 蒸餾到 9B、6 種格式全平臺覆蓋、社區免費送、評測全公開——本地大模型的入門門檻又被踩低一截

　　老章建議：Mac 用戶先上 MLX 4bit，PC 用戶上 GGUF，機器夠強的可以拉 BF16 自己玩

　　制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

960萬人圍觀！Claude Code工程師談HTML“復興”：Agent時代，Markdown不夠用了

智東西 2026-05-12 12:41:12
12 跟貼 12
龍蝦退燒后，榮耀給它造了一個宇宙

量子位 2026-05-12 15:50:23
6 跟貼 6

Claude Code終于長出調度臺：一個屏幕盯住所有AI會話，無需多開

新智元 2026-05-12 12:35:45
0 跟貼 0

TTS也要真人感！首個字級內容、毫秒級停頓控制的語音合成系統

新智元 2026-05-12 19:36:35
0 跟貼 0
絕殺！OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

新智元 2026-05-12 19:36:49
6 跟貼 6

DECS從源頭消除冗余思考，實現推理token減半且性能不降反升

機器之心Pro 2026-05-12 12:58:05
0 跟貼 0

字節砍掉30%的AI項目？背后的真假與焦慮

鈦媒體APP 2026-05-11 18:15:28
82 跟貼 82
終于來了！DeepSeek灰度測試聊天記錄搜索功能，非常實用

雷科技 2026-05-12 18:37:44
11 跟貼 11

1元錢285萬Token的陷阱！起底“AI中轉站”：封號跑路，模型降智，倒賣用戶數據

每日經濟新聞 2026-05-12 13:11:21
0 跟貼 0
小潘小秋在越南，房子開始支模板封頂，以前都不聯系的親戚也來了

肇歲初十 2026-05-09 01:26:34
0 跟貼 0
劇本殺6小時，我算出了兇手是平行宇宙

菜但癮大第一名 2026-05-12 16:32:14
0 跟貼 0
從參數到外觀：汽車行業的最后一場競爭

基地邊緣BaseEdge 2026-05-08 17:48:10
1 跟貼 1
鎖藏玄機，智破迷局——密室懸疑劇《上鎖的房間》

文析社 2026-05-11 17:46:27
0 跟貼 0
光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0
姚來英已任中國煙草總公司總經理

界面新聞 2026-05-12 11:12:28
8035 跟貼 8035
國外技術就是強悍，瑞士自動迫擊炮系統，中國目前很難達到

松離搞笑家 2026-05-12 16:30:44
3 跟貼 3
小潘小秋越南建房，中國女婿給小叔撐場面，包工頭今天過來支模板

霧切月夜 2026-05-09 05:09:37
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
智元殺進香港！2026成為部署態元年，機器人不再只會跳舞了

雷科技 2026-05-12 21:59:45
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
398 跟貼 398
大模型的魅力在于突發涌現的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
大神程序員蒸餾自己，用16個skill給AI注入軟件工程之魂

量子位 2026-05-12 03:08:58
0 跟貼 0
為了抵御極寒的低溫，退伍老兵想出妙招，用枯樹枝搭建席夢思大床

日不西沉 2026-05-10 20:37:53
1 跟貼 1
這司機技術也不行

大哥搞笑配音 2026-05-12 16:03:47
4 跟貼 4
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
Anthropic的AI讀心術，讓人類讀懂大模型在想啥

量子位 2026-05-10 23:00:57
1 跟貼 1
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
簡直想都不敢想！中東2027年可能要飆到的60℃極端高溫？

軍武時間線 2026-05-11 18:39:13
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
沖刺3400億估值，翁荔親自出鏡，交出一款更像人的大模型

智東西 2026-05-12 15:33:00
3 跟貼 3
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2953 跟貼 2953

人沒到先點名！特朗普還沒落地，內塔尼亞胡竟提前對中國發出警告

人沒到先點名！特朗普還沒落地，內塔尼亞胡竟提前對中國發出警告

小叨娛樂

2026-05-12 13:39:10

蘋果AI眼鏡官宣：40克超輕，戴上自動調度數

蘋果AI眼鏡官宣：40克超輕，戴上自動調度數

呼呼歷史論

2026-05-11 00:22:15

上海大學通報“院長蘇某某論文被舉報數據造假”：已成立調查組，啟動調查程序，將根據調查情況嚴肅認真處理

上海大學通報“院長蘇某某論文被舉報數據造假”：已成立調查組，啟動調查程序，將根據調查情況嚴肅認真處理

魯中晨報

2026-05-12 16:54:06

廣東球迷意難平！不止因為73-88慘敗北京，更多在于以下這五點！

廣東球迷意難平！不止因為73-88慘敗北京，更多在于以下這五點！

田先生籃球

2026-05-12 22:41:50

中國隊8強對手出爐！出線后至少5人獲健將稱號無需高考+保送大學

中國隊8強對手出爐！出線后至少5人獲健將稱號無需高考+保送大學

侃球熊弟

2026-05-13 03:10:32

門店給顧客發有償陪睡信息？滬上阿姨：已報警，賬號疑被盜用

門店給顧客發有償陪睡信息？滬上阿姨：已報警，賬號疑被盜用

南方都市報

2026-05-12 17:39:36

0分，全部0分！兩大核心啊！廣東隊正式淘汰出局

0分，全部0分！兩大核心?。V東隊正式淘汰出局

籃球實戰寶典

2026-05-12 21:48:38

CBA首組半決賽：歷史第7次京滬大戰時隔25年再爭總決賽名額

CBA首組半決賽：歷史第7次京滬大戰時隔25年再爭總決賽名額

醉臥浮生

2026-05-12 22:06:15

男子連續2晚嫖娼同一個女孩，鄰居撞破并舉報他倆，女孩承認收錢

男子連續2晚嫖娼同一個女孩，鄰居撞破并舉報他倆，女孩承認收錢

漢史趣聞

2026-05-12 14:52:03

知名歌唱家貪財好色嫁大30歲二婚男，如今活成這樣

知名歌唱家貪財好色嫁大30歲二婚男，如今活成這樣

風月得自難尋

2026-05-12 06:25:42

12歲男孩確診癌癥晚期！研究證實：這5種添加劑正在升高癌癥風險……

12歲男孩確診癌癥晚期！研究證實：這5種添加劑正在升高癌癥風險……

環球網資訊

2026-05-11 14:21:45

薄一波的兩位親家，一個是開國將軍，一個官至副國級，他們是誰？

薄一波的兩位親家，一個是開國將軍，一個官至副國級，他們是誰？

凡人侃史

2026-05-12 14:39:35

靠這兩大坨，蕩秋千永遠不怕摔

飛娛日記

2026-04-30 07:28:00

20架C17抵京，特朗普搬家式外交，本想炫耀實力，結果被運20打臉

20架C17抵京，特朗普搬家式外交，本想炫耀實力，結果被運20打臉

青煙小先生

2026-05-12 09:30:12

浙大鄭強教授：我不承認中國大學生就業難，是舒服的工作難找，建議少點抱怨少點索取

浙大鄭強教授：我不承認中國大學生就業難，是舒服的工作難找，建議少點抱怨少點索取

TOP大學來了

2026-05-11 16:39:00

張本美和態度變了！日媒采訪放狠話：后年在日本主場要復仇孫穎莎

張本美和態度變了！日媒采訪放狠話：后年在日本主場要復仇孫穎莎

小徐講八卦

2026-05-12 10:07:29

為見女兒最后一面，老人第一次坐高鐵買不到票崩潰大哭，緊急求助，民警全程護航

為見女兒最后一面，老人第一次坐高鐵買不到票崩潰大哭，緊急求助，民警全程護航

環球網資訊

2026-05-12 16:52:39

特朗普訪華隨行團名單里，藏著一份重要轉向密碼

特朗普訪華隨行團名單里，藏著一份重要轉向密碼

識局Insight

2026-05-12 19:33:20

網傳上海生化所發生有害物泄露，致多名師生中毒，校方隱瞞不報

網傳上海生化所發生有害物泄露，致多名師生中毒，校方隱瞞不報

可達鴨面面觀

2026-05-12 20:27:09

徹底不裝了！央視拒付天價轉播費僅48小時，炸出一堆“牛鬼蛇神”

徹底不裝了！央視拒付天價轉播費僅48小時，炸出一堆“牛鬼蛇神”

好賢觀史記

2026-05-08 16:10:06

Ai學習的老章

Ai學習的老章

3395文章數 11150關注度

往期回顧全部

科技要聞

宇樹發布載人變形機甲，定價390萬元起

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

頭條要聞

特朗普稱將同中方討論對臺軍售和黎智英案外交部回應

體育要聞

騎士終于玩明白了？

娛樂要聞

白鹿風波升級！掉粉20萬評論區淪陷

財經要聞

利潤再腰斬京東干外賣后就沒過過好日子

汽車要聞

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

本地

親子

藝術

普通人真該學學如何穿搭！多穿裙子比褲子更時髦，大方提氣質

教育要聞

求求你試試「5+1+1」學習法!!!

本地新聞

用蘇繡的方式，打開江西婺源

親子要聞

夏天建議：把孩子的空調服換成它！

藝術要聞

這位女攝影師的航拍風景照片，簡直太美了！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：无码熟妇人妻av影音先锋| 日韩精品一区二区三区在线观看| 久久精品视频一二三四区| 成人国产乱对白在线观看| 亚洲精品少妇被粗大猛进| 午夜片无码区在线观看视频 | 亚洲天堂网在线播放| 亚洲中文字幕av无码区| gay同性打屁股男调教网站| 人妻久久久一区二区三区| 欧美中文字幕在线播放| 亚洲中文有码字幕日本| 国产极品视觉盛宴| 久久久综合香蕉尹人综合网 | 国产综合18久久久久久| 四虎成人精品永久免费av| 午夜看看| 中文亚洲AV片在线观看无码| 蜜臀视频一区二区在线播放| 国产精品一亚洲AV日韩AV欧| 69影院少妇在线观看| 国产乱妇无乱码大黄aa片| 国产东北女人拳交5| 亚洲AV永久无码嘿嘿嘿嘿| 99久久精品国产一区二区蜜芽| 亚洲一区二区偷拍| 亚洲精品国偷拍自产在线观看蜜臀| 亚洲狠狠干| 高清欧美精品一区二区三区| 国产麻豆精品久久一二三| 69国产成人综合久久精品| 国产成人精品综合久久久久| 超鹏98免费国语| 精品国产不卡在线电影| 国产精品67人妻无码久久| 色综合久久精品中文字幕| 欧美ts人妖xxxxxx| 亚洲精彩视频一区二区| 国产亚洲精品久久久久久一区二区| 亚洲熟少妇一区二区三区| 无码视频一区二区三区在线观看|

<pre id="9kiag"><fieldset id="9kiag"><input id="9kiag"></input></fieldset></pre>

<u id="9kiag"><rp id="9kiag"><delect id="9kiag"></delect></rp></u><em id="9kiag"><samp id="9kiag"><center id="9kiag"></center></samp></em>

<pre id="9kiag"></pre>

<pre id="9kiag"></pre>

<abbr id="9kiag"><li id="9kiag"></li></abbr>

<pre id="9kiag"></pre>

<pre id="9kiag"><fieldset id="9kiag"></fieldset></pre>