<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 蒸餾 Qwen3.5,V3 來了

      0
      分享至

      大家好,我是 Ai 學習的老章

      Claude Opus 蒸餾 Qwen3.5 這條線,我從 v1 一路追到現在,算是全網跟得最緊的了:

      Now,v3 來了

      這一版改動很大,大到連名字都換了——從原來拗口的Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,改名為Qwopus3.5(Qwen + Opus 的合體)

      名字更短了,野心更大了

      一句話說清 v3 的核心變化

      v1 是"讓 Qwen 學會 Opus 的推理",v2 是"讓它想得更少答得更快",**v3 是"讓它學會用工具干活"**。

      這是一個質的飛躍——從"會思考"到"會行動"

      先看下載量:大家用腳投票

      在聊技術細節之前,先看一組數據

      Jackrong 這次 v3 同時發布了 4B、9B、27B 三個尺寸,加上各種量化和 MLX 版本,一共 9 個模型

      大家猜猜哪個最火?

      模型

      參數量

      下載量

      Qwopus3.5-9B-v3-GGUF9B10.9k

      112

      Qwopus3.5-4B-v3-GGUF

      4B

      699

      7

      Qwopus3.5-9B-v3

      10B

      603

      47

      MLX-Qwopus3.5-9B-v3-4bit

      1B

      435

      13

      MLX-Qwopus3.5-9B-v3-8bit

      9B

      232

      6

      MLX-Qwopus3.5-9B-v3-bf16

      9B

      166

      1

      MLX-Qwopus3.5-9B-v3-6bit

      9B

      170

      2

      Qwopus3.5-4B-v3

      5B

      72

      4

      Qwopus3.5-27B-v3-GGUF

      27B

      39

      39

      Qwopus3.5-27B-v3

      27B

      13

      39

      9B GGUF 版本以 10.9k 的下載量斷崖式領先,是第二名的 15 倍。

      這說明什么?大家心里門兒清——9B 是甜蜜點

      16GB 內存的 MacBook 就能跑,Windows 上普通顯卡也沒壓力

      27B 雖然能力更強,但門檻也更高;4B 太小,容易翻車

      9B 剛好在"能用"和"能跑"之間找到了最佳平衡

      所以今天這篇文章,我重點實測的就是Qwopus3.5-9B-v3

      v3 到底改了什么?從"想好再做"到"做了再改"

      v3 最大的理念轉變,用一句話概括:

      從 "reason-then-act"(想好再做)到 "act-then-refine"(做了再改)

      這個思路來自兩篇重要的研究:

      1. Reflexion論文證明,Agent 通過"試錯 + 反思"的方式,比純靠內心推理更有效

      2. 另一項研究發現,失敗后反思再重試能帶來巨大提升:數學推理任務 **+34.7%**,函數調用任務+18.1%

      說人話就是:與其讓模型在腦子里反復推演(v2 的路線),不如讓它先動手試,試錯了再修正。這對做 Agent、用工具的場景特別管用——畢竟現實世界的反饋比模型自己的想象靠譜得多

      v3 三大核心升級

      1?? 結構化推理優化

      v2 靠蒸餾 Claude 的思維鏈(CoT),但 Jackrong 在 v3 里坦誠地指出了一個問題:v2 用的第三方蒸餾數據,有些思維鏈可能是"偽造"的——看起來像是 Claude 生成的,實際上未必是

      Anthropic 自己也發表過研究,說推理模型的思維鏈有時候只是"事后合理化",并非真正的逐步推理

      學生模型去模仿這種"假推理",學到的可能只是表面的模式匹配,而非真正的問題解決能力

      v3 的做法是:用更高質量、可驗證的推理鏈做訓練,讓模型學的是過程級推理,而非簡單模仿答案

      對比項

      v2(蒸餾)

      v3(結構對齊)

      思維鏈來源

      第三方蒸餾數據

      精選可驗證推理鏈

      學習目標

      模仿教師輸出

      學習過程級推理

      推理風格

      壓縮式

      顯式、逐步、可驗證

      泛化能力

      較弱

      更強

      2?? 工具調用強化訓練

      這是 v3 最重要的新增能力

      v3專門做了針對工具調用的強化學習(RL)訓練,為 Agent 框架(如 OpenClaw)優化了工具調用的穩定性和準確性

      這意味著 v3 在 Agent 場景下——比如自動搜索、調用 API、操作文件——應該比 v1/v2 強得多

      3?? "做了再改" 范式

      整個模型的設計理念從"一次推理到位"轉向"迭代交互糾正"

      這對多步驟任務特別友好——不要求第一步就完美,允許在執行中不斷修正

      HumanEval 跑分:9B 打出了新高度

      Jackrong 在相同條件下測了三個 9B 級別的模型:

      模型

      Base pass@1

      Plus pass@1

      相比 Qwen3.5-9B

      Qwopus3.5-9B-v387.80% (144/164)82.93% (136/164)

      +4.87 / +5.49

      Qwen3.5-9B

      82.93% (136/164)

      77.44% (127/164)

      基線

      Claude-Distilled-v2

      82.32% (135/164)

      78.66% (129/164)

      -0.61 / +1.22

      幾個關鍵發現:

      • v3 在 HumanEval 上比原版 Qwen3.5-9B 高了將近 5 個百分點,這個差距在 9B 級別已經非常顯著

      • v2 在 9B 上其實沒怎么提升(甚至 base 還略降了),但v3 一下子拉開了差距

      • 在更嚴格的 Plus 評估中,v3 領先原版超過 5.49 個百分點

      MMLU-Pro 跑分:這次知識能力也沒掉

      還記得 v2 的一個代價嗎?

      MMLU-Pro(通用知識推理)掉了 7.2%。當時我說這是"專精 vs 通用"的權衡

      v3 把這個問題修復了:

      模型

      正確數

      總數

      準確率

      Qwen3.5-9B

      225

      280

      80.36%

      Qwopus3.5-9B-v322928081.79%

      v3 在 MMLU-Pro 上反超原版 1.43 個百分點!

      代碼能力提升的同時,通用知識也沒丟——這是 v2 做不到的

      推理效率:用更少的 Token 辦更多的事

      指標

      Qwen3.5-9B

      Qwopus3.5-9B-v3

      平均思維鏈長度

      7116 字符

      5313 字符

      每萬字符通過數

      1.26

      1.66

      每個正確答案的字符成本

      7938

      6032

      三組數據總結:

      • 思維鏈縮短 25.3%

      • 推理效率提升 31.7%

      • 每個正確答案的 Token 成本降低 24.0%

      跟 v2 的 27B 版本效率提升幾乎一致,但這次是在 9B 上做到的,意義完全不同——9B 模型本來就是為資源受限場景設計的,效率提升的價值在這里被放大了

      v1 → v2 → v3 全家族進化圖譜

      v1

      v2

      v3

      名字

      Claude-4.6-Opus-Reasoning-Distilled

      同上

      Qwopus3.5核心思路

      蒸餾 Claude 推理能力

      優化推理效率

      工具調用 + 結構對齊

      訓練方法

      SFT + LoRA

      SFT + LoRA

      SFT + LoRA +RL(工具調用)

      HumanEval(9B)

      ~82%

      ~82%

      87.80%MMLU-Pro

      基準

      -7.2%

      +1.43%思維鏈長度

      短(-24%)

      短(-25.3%)

      工具調用

      未優化

      未優化

      專項 RL 訓練理念

      模仿 Claude

      更快更省

      做了再改

      一路看下來,v3 是一次全面的升級:代碼更準、知識不丟、效率更高、還新增了工具調用能力

      這在蒸餾模型里相當少見——通常每一代都要在某個維度做取舍,v3 居然做到了"全都要"

      怎么跑?

      老規矩,GGUF 格式用 LM Studio、Ollama、llama.cpp 都行:

      模型地址:Jackrong/Qwopus3.5-9B-v3-GGUF

      硬件需求:

      • Mac:16GB 內存即可流暢運行(推薦 MLX 版本)

      • Windows/Linux:8GB 顯存的顯卡即可(如 RTX 3060/4060)

      • 量化推薦:根據之前的 ToolCall-15 測試經驗,Q6 是工具調用場景的最優量化精度

      快速上手(以 Ollama 為例):

      # 下載并運行
      ollama run hf.co/Jackrong/Qwopus3.5-9B-v3-GGUF:Q6_K

      ,支持 Gemma 4,支持 Anthropic 的 1/messages(low,medium,high,max)


      用 ToolCall-15 實測 9B-v3 的工具調用能力

      說到工具調用,我之前在寫 這篇文章時,介紹過一個很好用的開源測試工具——ToolCall-15

      簡單回顧一下:ToolCall-15(github.com/stevibe/ToolCall-15)是一個專門測大模型工具調用能力的基準測試框架:

      • 15 個場景,覆蓋 5 大類能力

      • 12 個工具,模型每次都能看到全部工具

      • 模擬響應,確保結果確定可復現

      • Temperature 設為 0,排除隨機性

      五大考核維度:

      類別

      測試內容

      舉例

      工具選擇

      能不能選對工具?

      問天氣,該用get_weather還是web_search

      參數精度

      參數傳對了嗎?

      用戶要華氏溫度,你傳了fahrenheit沒?

      多步鏈式

      能不能串聯多個工具?

      搜文件 → 讀內容 → 查聯系人 → 發郵件

      克制與拒絕

      不該用工具時能忍住嗎?

      "二戰哪年結束?" 你別去搜啊

      ? 錯誤恢復

      工具報錯了怎么辦?

      搜索沒結果,是放棄還是換關鍵詞?

      之前測 v2 的 27B 版本拿了15/15 滿分

      這次 v3 專門做了工具調用的 RL 訓練,還是在更小的 9B 上——到底行不行?



      自然很行!

      • Qwen3.5:9b Q8 (官方)

      • Jackrong 的 Qwopus v3 Q8

      ToolCall-15: Qwopus v3 完美通過全部 15 題

      ToolCall-15 實測

      大家也可以用這個工具自行測試已經本地部署的模型

      環境搭建:

      git clone https://github.com/stevibe/ToolCall-15.git
      cd ToolCall-15
      npm install
      cp .env.example .env

      配置 .env:

      # 如果用 LM Studio
      LMSTUDIO_HOST=http://localhost:1234
      LLM_MODELS=lmstudio:qwopus3.5-9b-v3


      # 如果你用的是 Ollama
      OLLAMA_HOST=http://localhost:11434
      LLM_MODELS=ollama:qwopus3.5-9b-v3

      啟動測試:

      npm run dev
      # 打開 http://localhost:3000,點擊 Run 開始測試
      總結:v3 是這個系列真正成熟的一代

      從 v1 到 v3,Jackrong 的這個蒸餾系列走過了三個階段:

      • v1:證明了"小模型也能學到大模型的推理能力"

      • v2:證明了"推理效率可以大幅優化,用更少的 Token 辦同樣的事"

      • v3:證明了"蒸餾模型也能做 Agent,工具調用不再是大模型的專利"

      v3 的數據也確實支撐了這個結論:

      • HumanEval 87.80%,比原版 Qwen3.5-9B 高了近 5 個百分點

      • MMLU-Pro 81.79%,通用知識也反超了基線

      • 推理效率提升 31.7%,成本降低 24%

      • 新增工具調用 RL 訓練,專為 Agent 場景優化

      對于想在本地跑一個"能寫代碼、能調工具、還不太吃資源"的模型來說,Qwopus3.5-9B-v3 可能是目前最值得一試的選擇

      下載量已經說明了一切——10.9k,社區用腳投票的結果。

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      36歲英年早逝!長跑名將訓練中離世,曾在上海馬拉松創紀錄奪冠

      36歲英年早逝!長跑名將訓練中離世,曾在上海馬拉松創紀錄奪冠

      全景體育V
      2026-05-12 20:09:31
      退休黨員別再亂交黨費了!2026標準已明確,不少人白交多年冤枉錢

      退休黨員別再亂交黨費了!2026標準已明確,不少人白交多年冤枉錢

      笑熬漿糊111
      2026-05-13 00:05:16
      江特電機:從已探明礦區儲量統計,公司合計持有或控制的鋰礦資源量在1億噸以上

      江特電機:從已探明礦區儲量統計,公司合計持有或控制的鋰礦資源量在1億噸以上

      每日經濟新聞
      2026-05-12 21:02:08
      哈登一夜狂刷7大歷史紀錄!36歲仍封神,騎士真賺翻,奪冠有望

      哈登一夜狂刷7大歷史紀錄!36歲仍封神,騎士真賺翻,奪冠有望

      錢說體育
      2026-05-12 12:54:02
      什么時候讓你意識到這就是命,考公四次落榜,隨便報個東大就中了

      什么時候讓你意識到這就是命,考公四次落榜,隨便報個東大就中了

      夜深愛雜談
      2026-05-11 07:41:40
      切爾西·漢德勒自曝2010年愛潑斯坦晚宴細節:8人小聚,她當面調侃伍迪·艾倫

      切爾西·漢德勒自曝2010年愛潑斯坦晚宴細節:8人小聚,她當面調侃伍迪·艾倫

      影視情報室
      2026-05-12 06:05:35
      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      麻省理工發現:喚醒孩子自律最快的方法,竟是飛輪效應!

      戶外阿毽
      2026-05-10 19:24:43
      太囂張!日本公然發射進攻導彈,中方不再容忍,直接亮劍反擊

      太囂張!日本公然發射進攻導彈,中方不再容忍,直接亮劍反擊

      觀察者小海風
      2026-05-11 11:35:37
      我的天吶!這屋里的味道,隔著屏幕都覺得嗆

      我的天吶!這屋里的味道,隔著屏幕都覺得嗆

      老吳教育課堂
      2026-05-13 03:12:10
      新聞人物|美國總統唐納德·特朗普

      新聞人物|美國總統唐納德·特朗普

      新華社
      2026-05-12 21:05:05
      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      錢更難掙了!送面條老板哭訴每天送貨量減半,旁邊一大排店面空置

      火山詩話
      2026-05-12 13:45:35
      趙露思曼谷演唱會爆了,清純人設碎了一地,大家到底在氣什么?

      趙露思曼谷演唱會爆了,清純人設碎了一地,大家到底在氣什么?

      情感大頭說說
      2026-05-13 05:06:47
      敗光5千萬后,超市打工、不敢見人!馬蓉澳洲落魄現狀,令人唏噓

      敗光5千萬后,超市打工、不敢見人!馬蓉澳洲落魄現狀,令人唏噓

      牛鍋巴小釩
      2026-05-12 12:54:30
      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      思思夜話
      2026-05-12 16:51:58
      廣東休賽期恐重組:或續約奎因2人,打包焦泊喬,交易追逐2名國手

      廣東休賽期恐重組:或續約奎因2人,打包焦泊喬,交易追逐2名國手

      二哥聊球
      2026-05-12 11:26:52
      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      揚子晚報
      2026-05-11 07:48:21
      西甲歐冠5席位全出爐!貝蒂斯時隔20年再參賽,26歲安東尼終圓夢

      西甲歐冠5席位全出爐!貝蒂斯時隔20年再參賽,26歲安東尼終圓夢

      我愛英超
      2026-05-13 05:38:11
      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      籃球資訊達人
      2026-05-13 01:31:06
      原來風婆婆這么美,40年前光顧著看猴了,根本沒注意

      原來風婆婆這么美,40年前光顧著看猴了,根本沒注意

      喜文多見01
      2026-04-09 15:31:01
      2026-05-13 08:11:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3396文章數 11150關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      凱文·沃什出任美聯儲主席 其岳父是特朗普總統的老友

      頭條要聞

      凱文·沃什出任美聯儲主席 其岳父是特朗普總統的老友

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      數碼
      旅游
      本地
      房產
      公開課

      數碼要聞

      首發883.15元!小米路由器BE7200 Pro開售:全2.5GE網口 家里網關都省了

      旅游要聞

      上海居民恢復金門馬祖游后,首批游客已成行

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品乱码久久久久久麻豆不卡| 亚洲AV第二区国产精品| 日本高清一区二区在线观看| 久久国产精品99精品国产| 日本污ww视频网站| 美女极度色诱视频国产免费| 欧美乱码伦视频免费| 无码久久久久久| 亚洲日韩中文乱码制服丝袜| 日本丰满妇人成熟免费中文字幕| av潮喷大喷水系列无码| 国产精品久久久久9999无码| 国产在线观看黄| 亚洲乱亚洲乱少妇无码99p| 无码人妻AⅤ一区二区三区水密桃 48久久国产精品性色aⅴ人妻 | 乱人伦人妻中文字幕无码| 国产国产成人精品久久蜜| 狠狠狠狼鲁亚洲综合网| 天堂av一区二区三区| 免费人成再在线观看视频| 亚洲乱码精品乱码精品中文| 好想被狂躁无码视频在线字幕| 97久人人做人人妻人人玩精品| 精品成人av| 亚洲 欧美 中文 在线 视频| 亚洲色成人中文字幕网站| 国产精品久久久福利| 欧美无专区| 国产成人精品一区二区不卡| 无码任你躁久久久久久| 国产精品18| 日韩免费毛片变态另| 亚洲a片成人无码久久精品色欲| 国产精品综合av一区二区国产馆 | 日本丰满少妇xxxx| 狠狠爱无码一区二区三区| 国产高清一级夜夜爽| 久久高潮少妇视频免费| 193尤物| 亚洲娇小与黑人巨大交| 久久久婷婷成人综合激情|