<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Qwen3.5 系列,最優選擇 27B,最優精度 Q6

      0
      分享至

      我之前也寫過

      工具調用(Tool Calling / Function Calling)是大模型從"能聊天"進化到"能干活"的關鍵能力,沒有這個能力,Agent 就是空中樓閣

      問題來了:Qwen3.5 系列這么多模型,從 0.8B 一路到 397B,到底哪個尺寸真的能可靠地調用工具?

      ToolCall-15:15 道題,照出模型真面目

      這個ToolCall-15開源基準測試框架(github.com/stevibe/ToolCall-15),專門測試 LLM 的工具調用能力:

      • 15 個場景,覆蓋 5 大類能力(每類 3 個)

      • 12 個工具,模型每次都能看到全部工具

      • 模擬響應,確保結果確定性、可復現

      • Temperature 設為 0,排除隨機性干擾

      • 不挑測試,全部跑完,沒有選擇性地只跑好看的

      下面是 ToolCall-15 的測試看板:


      ToolCall-15 測試看板 五大考核維度,全是實戰場景

      ToolCall-15 測的不是什么花里胡哨的學術指標,全是真實場景下模型會遇到的問題:

      類別

      測試內容

      舉例

      工具選擇

      能不能選對工具?

      問柏林天氣,該用get_weather還是web_search?

      參數精度

      參數傳對了嗎?

      用戶要華氏溫度,你傳了fahrenheit沒?

      多步鏈式

      能不能串聯多個工具?

      搜文件 → 讀內容 → 查聯系人 → 發郵件

      克制與拒絕

      不該用工具時能忍住嗎?

      "二戰哪年結束?" 你別去web_search

      ? 錯誤恢復

      工具報錯了怎么辦?

      搜索沒結果,是放棄還是換個關鍵詞重試?

      每個場景評分:? 滿分(2分)、?? 半分(1分)、? 零分

      Qwen3.5 全家桶測試結果:27B 獨占鰲頭

      原作者 stevibe 把 Qwen3.5 全系列模型都拉出來溜了一遍——從 0.8B 到 397B,甚至還包括了 Jackrong 的蒸餾版本

      結果出來,我直接震驚了,397B 的巨無霸打不過 27B:

      模型

      通過數

      Qwen3.5-27B15/15

      唯一滿分的原版模型

      Qwen3.5-27B 蒸餾版15/15

      蒸餾也滿分,工具調用能力保留完整

      Qwen3.5-397B

      13/15

      兩個測試未通過

      Qwen3.5-122B

      14/15

      一個測試未通過

      Qwen3.5-35B

      13/15

      兩個測試未通過

      小參數模型(0.8B~14B)

      大量超時

      陷入工具調用死循環


      最暴露模型的一道題

      15 個場景里,最有意思的是第 15 題(TC-15):

      "搜索冰島的人口數量,然后計算其 2% "

      看起來簡單吧?先搜索,拿到數據,再算個乘法。但就這道題,暴露了不同尺寸模型的致命弱點

      • 小模型(0.8B~14B):直接編數據,連搜索都不做,或者陷入死循環反復調用同一個工具,直到 30 秒超時

      • 大模型(35B、122B、397B):明明搜索結果返回了精確數字 372,520,它們偏偏用自己腦子里的"大約 370,000"去算。搜了,但不信

      • ?27B:老老實實搜索,拿到 372,520,傳給計算器算372520 * 0.02 = 7450.4,完美

      一句話總結:

      小模型會憑空捏造數據,大模型會忽略數據,27B 直接串行處理了。

      這其實揭示了一個深層問題:大參數模型因為"見多識廣",反而更傾向于依賴自己的記憶,對工具返回的實際數據產生了某種"不信任"

      量化測試:Q6 是最佳選擇

      確定了 27B 是最能打的模型后,下一個問題來了:該用哪個量化版本?

      stevibe 繼續測試了 Unsloth 提供的所有量化版本,從 Q2_K_XL 到 Q8_K_XL:


      Qwen3.5-27B 量化版本

      量化級別

      通過數

      Q8

      15/15 ?

      Q615/15

      Q5

      14/15

      Q4

      14/15

      Q3

      14/15

      Q2

      13/15

      結論很清晰:Q6 是最佳甜蜜點

      跟 Q8 拿到了一模一樣的滿分,但占用空間更小,推理速度更快

      Q5 往下就開始丟分了,說明量化到一定程度確實會損失工具調用的精確性

      更有意思的是,測試結果幾乎呈線性下降,這說明 ToolCall-15 這個基準測試確實在測量一些真實的東西,分數變化不是隨機噪聲

      下面是量化版本的詳細對比圖:


      量化版本測試結果對比

      有人質疑:用 Temperature 0 測試是否公平,日常使用不都是 Temp 1 嗎?

      stevibe 解釋:Temp 1 確實是通用場景下的默認設置,但對于工具調用而言,Temperature 0 表現更好。Databricks 的研究發現,在函數調用任務中,Temp 0 和 0.7 之間的準確率可能相差高達 10%。

      這很好理解——工具調用本質上是結構化輸出:選對工具、傳對參數、按對格式。你需要的是確定性,而不是創造性。這跟你用低 Temperature 生成 JSON 或代碼是一個道理。

      伯克利大學的 BFCL和 Databricks 的評估中,都使用較低的溫度來測試函數調用能力,可重復性基本上要求這樣做。當然,如果你的使用場景包含創意元素,0.7+ 完全合理,目標不同。

      總結:"Qwen3.5-27B 它緊湊、推理能力強、工具調用出色,Q6 精度 YYDS"

      加上更是如有神助了!

      ToolCall-15 這個開源項目本身也值得一玩,如果你想評估自己本地部署的模型在工具調用上到底行不行,直接拿來用就好。

      .5

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      高三曬家長“開天窗”穿搭,被嘲:該端莊的時候,你解扣子干嘛?

      妍妍教育日記
      2026-05-10 11:50:07
      卡塞米羅:C羅是外星人,防梅西鏟完我只敢道歉

      卡塞米羅:C羅是外星人,防梅西鏟完我只敢道歉

      仰臥撐FTUer
      2026-05-12 19:00:05
      245%!巴西對華鎂錠突然下狠手?手握全球90%產能,咱們真不用慌

      245%!巴西對華鎂錠突然下狠手?手握全球90%產能,咱們真不用慌

      潮鹿逐夢
      2026-05-12 17:15:55
      意甲加冕,國米不只贏了一個賽季!橡樹加大投資,未來可期!

      意甲加冕,國米不只贏了一個賽季!橡樹加大投資,未來可期!

      肥強侃球
      2026-05-12 23:12:44
      老人喝農藥后醫護人員未檢查即判斷死亡,巫山通報立案調查,家屬最新發聲:已和院方達成一致

      老人喝農藥后醫護人員未檢查即判斷死亡,巫山通報立案調查,家屬最新發聲:已和院方達成一致

      極目新聞
      2026-05-12 18:52:29
      剛剛,四川突發地震!

      剛剛,四川突發地震!

      吉刻新聞
      2026-05-12 21:53:03
      比亞迪固態電池正式首發,純電續航1218km,電車市場要變天了!

      比亞迪固態電池正式首發,純電續航1218km,電車市場要變天了!

      沙雕小琳琳
      2026-05-12 03:23:16
      格局!張雪祝賀吉利奪世界冠軍:用中國車手奪冠 分量比我們更重

      格局!張雪祝賀吉利奪世界冠軍:用中國車手奪冠 分量比我們更重

      念洲
      2026-05-12 15:14:34
      央視拒付香港21億轉播費,李嘉誠意外躺槍引討論

      央視拒付香港21億轉播費,李嘉誠意外躺槍引討論

      不甜的李子
      2026-05-12 03:17:43
      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      伊朗官員:若再次遭襲,伊方或選擇將濃縮鈾豐度提升至90%

      界面新聞
      2026-05-12 14:55:29
      別再同情葉子楣了,她的身家根本不需要靠男人!

      別再同情葉子楣了,她的身家根本不需要靠男人!

      舊時光老師
      2026-05-11 22:30:07
      以色列發動空襲

      以色列發動空襲

      南方都市報
      2026-05-12 12:44:03
      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      丟絕平三分!里夫斯8進球伴隨8失誤狀態奇特 湖人還給2.4億頂薪?

      顏小白的籃球夢
      2026-05-12 13:30:31
      烏克蘭戰略轉向!不守了,他們想徹底廢掉俄羅斯的戰爭能力?

      烏克蘭戰略轉向!不守了,他們想徹底廢掉俄羅斯的戰爭能力?

      一網打盡全球焦點
      2026-05-10 07:37:10
      心理學上說:如果一個人對家人不耐煩、易發火,對外人卻客客氣氣、夠溫和,不是本性涼薄,根源無外乎有兩點

      心理學上說:如果一個人對家人不耐煩、易發火,對外人卻客客氣氣、夠溫和,不是本性涼薄,根源無外乎有兩點

      心理觀察局
      2026-05-12 09:06:23
      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華三天,中方準備了高規格禮遇,他想邀中方回訪美國

      忠于法紀
      2026-05-12 17:29:09
      京滬高鐵宣布,漲價!

      京滬高鐵宣布,漲價!

      中國基金報
      2026-05-11 19:58:07
      輝煌難再現,穆里尼奧離開皇馬后勝率從71.91%降至55.57%

      輝煌難再現,穆里尼奧離開皇馬后勝率從71.91%降至55.57%

      懂球帝
      2026-05-12 23:03:07
      快捷酒店內消殺工作人員錯開房門,房內女子未著衣物,個人隱私遭到泄露,消殺企業:承認失誤,愿按房費30倍標準進行賠償

      快捷酒店內消殺工作人員錯開房門,房內女子未著衣物,個人隱私遭到泄露,消殺企業:承認失誤,愿按房費30倍標準進行賠償

      大風新聞
      2026-05-12 15:01:02
      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      創業板迎來第二只千元股!中際旭創一度突破1000元,近一年上漲956%

      界面新聞
      2026-05-12 11:58:06
      2026-05-13 00:51:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      數碼
      健康
      公開課
      軍事航空

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      數碼要聞

      2000W電源來了!AI工作站供電新選擇

      干細胞能讓人“返老還童”嗎

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久久亚洲欧洲日产国码αv| 国产精品黑色丝袜在线观看| 亚洲日韩中文字幕无码一区| 国产11一12周岁女毛片| 临武县| 成人网站国产在线视频内射视频 | 久久免费看少妇a级黄片| 欧美亚洲国产一区| 大伊香蕉精品一区二区| 国产精品国产三级国快看| 亚洲精品国产自在现线最新| a亚洲天堂| 人与性动交aaaabbbb| 黄瓜视频91| 无码精品人妻一区二区三| 涪陵区| 日韩av综合免费在线| 亚洲资源站| 免费专区丝袜调教视频| 免费无码高H视频在线观看| 青青热在线精品视频免费观看 | 五月婷婷激情第四季| 深夜福利姬| 国产精品va在线播放| 国产不卡免费一区二区| 午夜av一区| 午夜男女很黄的视频| 99精品国产一区二区青青| 在线播放91| 国产午夜精品一区理论片飘花| 亚洲成人综合网站| 久久av片| 国产9色在线 | 日韩| 激情五月天自拍偷拍视频| 国产资源网| 午夜亚洲aⅴ无码高潮片苍井空 | 色偷偷久久一区二区三区| 日韩av自拍偷拍| 日夜啪啪一区二区三区 | 97丨九色丨国产人妻熟女| 人人超碰在线|