<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4 蒸餾 Qwen3.5,只有 9B,本地能跑

      0
      分享至

        社區蒸餾熱潮又起,這次主角是DeepSeek-V4 + Qwen3.5,最小一檔只有 9B

        HuggingFace 用戶Jackrong放出了一整套合集:Qwen3.5-9B-DeepSeek-V4-Flash——9B 量級的小身板,跑的是 V4 的腦子

        合集首頁:https://huggingface.co/collections/Jackrong/deepseek-v4-distill

        蒸餾是怎么個蒸餾

        老章之前講過蒸餾的本質,這次再用一句話總結:

        大模型(DeepSeek-V4,萬億級 MoE) 當老師
      小模型(Qwen3.5-9B Dense) 當學生
      讓學生模仿老師的「思考過程」與「輸出風格」
      最終拿到一個:體量小很多、能力靠近老師的模型

        但這次蒸餾有幾個細節挺反常識,值得展開:

        1. 數據集只有 8000 條

        是的你沒看錯——叫Jackrong/DeepSeek-V4-Distill-8000x,名字里就寫了 8000

        蒸餾圈里的常識是「數據越多越好」,但 Jackrong 這次反其道而行:少而精

        模型卡里直接引用了一篇近期論文 Rethinking Generalization in Reasoning SFT (arXiv:2604.06628) 的兩個觀點:

        高質量長 CoT 數據能讓小模型獲得跨域遷移能力

        優化紀律:8000 條精選 + 短訓練,比海量數據更能避免「過擬合老師風格」

        簡單說:讓學生學到老師的推理引擎,而不是只學口頭禪

        2. 訓練棧是 Unsloth + NVIDIA DGX

        模型卡里提到的訓練配置:

        硬件:NVIDIA DGX

        訓練框架:Unsloth(梯度穩定)

        合作方:硬件工程師 Kyle Hessling(@KyleHessling1)提供算力和 post-training 測試

        3. 老師 DeepSeek-V4 自己就很硬

        下面這張是 DeepSeek-V4 教師模型的官方性能圖:

        
      DeepSeek-V4 教師模型性能

        DeepSeek-V4 幾個關鍵技術點:

        1M 長上下文

        Hybrid Attention + DSA(DeepSeek Sparse Attention):KV Cache 降 90%

        Engram Memory + mHC(Manifold-constrained Hyper-connections):把事實記憶和動態推理解耦

        Agent-centric:原生為多步工具調用做了優化

        老師配置這么強,蒸出來的學生才有底氣

        評測:和 Qwen3.5-9B 原版對比

        模型卡里給了一份 Q5_K_M 量化下的對照測試,由 Kyle Hessling 在同一臺機器、同一套評估流程下分別跑了兩個模型

        下面這張是綜合得分對比:

        
      綜合評測報告 Agent 推理能力(蒸餾的強項)Agentic 推理對比 工具調用Tool Calling 對比 前端代碼Front-end Design 對比 評測方法說明

        為了避免「自賣自夸」,作者把對照方法直接公開了:

        
      對照評測方法評測環境配置

        老章看下來的結論:結構化推理、工具調用、前端代碼這三塊,蒸餾版穩吃原版——這正是教師 DeepSeek-V4 最擅長的領域

        全格式覆蓋:隨便挑一個就能跑

        Jackrong 一次性放出了 6 個版本,幾乎所有本地推理框架都能直接拿來用

        版本

        HuggingFace 鏈接

        原始 BF16

        全精度,可繼續微調

        Qwen3.5-9B-DeepSeek-V4-Flash

        GGUF

        llama.cpp / Ollama / LM Studio 通吃

        GGUF 版

        MLX 4bit

        Mac 極致省內存

        MLX-4bit

        MLX 6bit

        Mac 平衡檔

        MLX-6bit

        MLX 8bit

        Mac 高質量檔

        MLX-8bit

        MLX BF16

        Mac 全精度

        MLX-bf16


      GGUF 倉庫

        社區認可度可見一斑——發布幾天,GGUF版下載就到了 68k

        MLX 4bit:M 系列 Mac 直接起飛
      MLX 4bit 倉庫

        9B + 4bit,理論上 16G 內存的 M2/M3/M4 都能暢快跑——老章手上的 Mac 已經在排隊

        
      BF16 原始權重

        這個是給「研究黨」準備的——做繼續微調、自蒸餾、嚴肅評測都需要從原始權重出發

        推薦用法

        模型卡里給了一組建議參數:

        temperature =0.7~1.0
      # 嚴格代碼任務:低溫(0.3-0.7)
      # 創造性推理:高溫(0.8-1.0)
      top_p =0.95
      # 用 ChatML 標準模板,推理效果最好
      順手介紹一個數據集

        順便介紹一份開源數據:GLM-5.1-Reasoning-1M-Cleaned

        
      地址:https://huggingface.co/datasets/Jackrong/GLM-5.1-Reasoning-1M-Cleaned

        100 萬條從 GLM-5.1 收集清洗過的推理樣本——注意這個有意思的細節:

        蒸餾目標是 DeepSeek-V4

        底座模型是 Qwen3.5

        訓練數據是 GLM-5.1 出來的

        社區蒸餾越來越像「調雞尾酒」——每個組件都從開源生態里挑最合適的

        雖然這次 Flash 模型只用了 8000 條 V4 蒸餾數據,但 1M 這份大數據集給后續做 SFT、做自己的蒸餾方案的人留了很多空間

        老章的看法

        這套合集最戳老章的幾個點:

        1. 9B 是真·甜點尺寸

        放在兩年前你說 9B 夠用,沒人信。但今天的 9B 蒸餾模型,常規問答、代碼、Agent 推理基本能頂過去 30B 老模型——這就是「教師→學生」蒸餾路線的紅利

        2. 8000 條 vs 100 萬條的對照

        用極少的高質量數據,配上短訓練周期,做出能打的小模型——這條路證明了「數據質量 >> 數據量」在蒸餾場景的價值

        3. 全平臺覆蓋

        GGUF + MLX 幾乎覆蓋所有本地推理棧,下載就能用,不挑顯卡不挑系統——這是給個人開發者最大的善意

        4. 評測開放

        Kyle Hessling 把評測方法、對照基準、原始數據都放出來了,社區可以復現——這種透明度比閉門跑分實誠得多

        適合誰:

        想本地跑推理模型、又不想上 32B/70B 的開發者

        Mac 用戶(MLX 全套支持)

        Agent / 工具調用 / 前端代碼場景

        想做繼續微調或自蒸餾的研究者

        不太適合:

        嚴肅生產環境——蒸餾小模型在長文檔、超復雜多輪場景下還是會比滿血 V4 弱一截

        期待中文創作能力跨級提升的——蒸餾更多保留邏輯能力,文風創意沒那么強

        總結

        DeepSeek-V4 蒸餾到 9B、6 種格式全平臺覆蓋、社區免費送、評測全公開——本地大模型的入門門檻又被踩低一截

        老章建議:Mac 用戶先上 MLX 4bit,PC 用戶上 GGUF,機器夠強的可以拉 BF16 自己玩

        制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      小叨娛樂
      2026-05-12 13:39:10
      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      蘋果AI眼鏡官宣:40克超輕,戴上自動調度數

      呼呼歷史論
      2026-05-11 00:22:15
      上海大學通報“院長蘇某某論文被舉報數據造假”:已成立調查組,啟動調查程序 ,將根據調查情況嚴肅認真處理

      上海大學通報“院長蘇某某論文被舉報數據造假”:已成立調查組,啟動調查程序 ,將根據調查情況嚴肅認真處理

      魯中晨報
      2026-05-12 16:54:06
      廣東球迷意難平!不止因為73-88慘敗北京,更多在于以下這五點!

      廣東球迷意難平!不止因為73-88慘敗北京,更多在于以下這五點!

      田先生籃球
      2026-05-12 22:41:50
      中國隊8強對手出爐!出線后至少5人獲健將稱號 無需高考+保送大學

      中國隊8強對手出爐!出線后至少5人獲健將稱號 無需高考+保送大學

      侃球熊弟
      2026-05-13 03:10:32
      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      南方都市報
      2026-05-12 17:39:36
      0分,全部0分!兩大核心啊!廣東隊正式淘汰出局

      0分,全部0分!兩大核心?。V東隊正式淘汰出局

      籃球實戰寶典
      2026-05-12 21:48:38
      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      CBA首組半決賽:歷史第7次京滬大戰 時隔25年再爭總決賽名額

      醉臥浮生
      2026-05-12 22:06:15
      男子連續2晚嫖娼同一個女孩,鄰居撞破并舉報他倆,女孩承認收錢

      男子連續2晚嫖娼同一個女孩,鄰居撞破并舉報他倆,女孩承認收錢

      漢史趣聞
      2026-05-12 14:52:03
      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      知名歌唱家貪財好色嫁大30歲二婚男,如今活成這樣

      風月得自難尋
      2026-05-12 06:25:42
      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      12歲男孩確診癌癥晚期!研究證實:這5種添加劑正在升高癌癥風險……

      環球網資訊
      2026-05-11 14:21:45
      薄一波的兩位親家,一個是開國將軍,一個官至副國級,他們是誰?

      薄一波的兩位親家,一個是開國將軍,一個官至副國級,他們是誰?

      凡人侃史
      2026-05-12 14:39:35
      靠這兩大坨,蕩秋千永遠不怕摔

      靠這兩大坨,蕩秋千永遠不怕摔

      飛娛日記
      2026-04-30 07:28:00
      20架C17抵京,特朗普搬家式外交,本想炫耀實力,結果被運20打臉

      20架C17抵京,特朗普搬家式外交,本想炫耀實力,結果被運20打臉

      青煙小先生
      2026-05-12 09:30:12
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      張本美和態度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      張本美和態度變了!日媒采訪放狠話:后年在日本主場要復仇孫穎莎

      小徐講八卦
      2026-05-12 10:07:29
      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      為見女兒最后一面,老人第一次坐高鐵買不到票崩潰大哭,緊急求助,民警全程護航

      環球網資訊
      2026-05-12 16:52:39
      特朗普訪華隨行團名單里,藏著一份重要轉向密碼

      特朗普訪華隨行團名單里,藏著一份重要轉向密碼

      識局Insight
      2026-05-12 19:33:20
      網傳上海生化所發生有害物泄露,致多名師生中毒,校方隱瞞不報

      網傳上海生化所發生有害物泄露,致多名師生中毒,校方隱瞞不報

      可達鴨面面觀
      2026-05-12 20:27:09
      徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

      徹底不裝了!央視拒付天價轉播費僅48小時,炸出一堆“牛鬼蛇神”

      好賢觀史記
      2026-05-08 16:10:06
      2026-05-13 05:52:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      時尚
      教育
      本地
      親子
      藝術

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      教育要聞

      求求你試試「5+1+1」學習法!!!

      本地新聞

      用蘇繡的方式,打開江西婺源

      親子要聞

      夏天建議:把孩子的空調服換成它!

      藝術要聞

      這位女攝影師的航拍風景照片,簡直太美了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码熟妇人妻av影音先锋| 日韩精品一区二区三区在线观看| 久久精品视频一二三四区| 成人国产乱对白在线观看| 亚洲精品少妇被粗大猛进| 午夜片无码区在线观看视频 | 亚洲天堂网在线播放| 亚洲中文字幕av无码区| gay同性打屁股男调教网站| 人妻久久久一区二区三区| 欧美中文字幕在线播放| 亚洲中文有码字幕日本| 国产极品视觉盛宴| 久久久综合香蕉尹人综合网 | 国产综合18久久久久久| 四虎成人精品永久免费av| 午夜看看| 中文亚洲AV片在线观看无码| 蜜臀视频一区二区在线播放| 国产精品一亚洲AV日韩AV欧| 69影院少妇在线观看| 国产乱妇无乱码大黄aa片| 国产东北女人拳交5| 亚洲AV永久无码嘿嘿嘿嘿| 99久久精品国产一区二区蜜芽| 亚洲一区二区偷拍| 亚洲精品国偷拍自产在线观看蜜臀| 亚洲狠狠干| 高清欧美精品一区二区三区| 国产麻豆精品久久一二三| 69国产成人综合久久精品| 国产成人精品综合久久久久| 超鹏98免费国语| 精品国产不卡在线电影| 国产精品67人妻无码久久| 色综合久久精品中文字幕| 欧美ts人妖xxxxxx| 亚洲精彩视频一区二区| 国产亚洲精品久久久久久一区二区| 亚洲熟少妇一区二区三区| 无码视频一区二区三区在线观看|