<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      英偉達巧用8B模型秒掉GPT-5,開源了

      0
      分享至

      英偉達端著一個8B小模型對GPT-5說:

      不好意思,你還得練(bushi)。

      何出此言?——英偉達攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。



      哦對了,還在HuggingFace被狂贊,沖到了熱門模型前五。



      而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

      如何吊打GPT-5?

      人在解決問題時會找各種幫手,比如搜索引擎、計算器 ,那這個工作能不能由模型代勞?

      Orchestrator干的就是這事兒。

      雖然自己只有8B參數(shù),但手下管著一整個工具團隊。

      既有GPT-5、Claude Opus 4.1這樣的頂級大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁搜索、本地檢索、代碼解釋器這些實用小幫手。



      它并不是自己解題,而是判斷現(xiàn)在該用哪個工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

      • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
      • 過程中動態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗證?那就先用代碼解釋器跑一遍;
      • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

      簡單說,大模型是一個人干所有活,而Orchestrator-8B是帶著團隊干專業(yè)活。



      能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達的ToolOrchestra訓(xùn)練大法。

      核心有兩個,一個是有獎有罰的強化學(xué)習(xí),一個是量身定制的ToolScale數(shù)據(jù)集

      訓(xùn)練時給Orchestrator立了三條獎懲規(guī)則:

      • 效果獎:讓GPT-5判對錯,解題對了加分,錯了扣分;
      • 效率獎:用的錢少、耗時短加分,反之扣分;
      • 偏好獎:聽用戶的話加分,比如用戶要隱私保護,多用本地搜索就加分。

      研究者建了個包含金融、醫(yī)療、電商、旅游等10個領(lǐng)域的訓(xùn)練素材庫,里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場景。

      Orchestrator-8B也在權(quán)威測試中交出了令人滿意的答卷。



      HLE測試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



      FRAMES、τ2-Bench測試中也拿下SOTA成績,降低了開支,運行速度更是快了一倍多。

      小模型的逆襲

      實際上,在AI領(lǐng)域工具編排和小模型驅(qū)動復(fù)合系統(tǒng)的賽道上,英偉達ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

      最早探索讓小模型學(xué)會調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會調(diào)用計算器、翻譯API、搜索引擎等基礎(chǔ)工具;

      但當(dāng)時,Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫。

      MIT和CMU聯(lián)合團隊的ToolRL,提出以獎勵為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強化學(xué)習(xí)動態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動生成工具交互軌跡訓(xùn)練模型。

      雖然也是獎勵機制,但ToolRL的獎勵函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫以基礎(chǔ)工具和專業(yè)API為主。

      今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

      越來越多的團隊在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進展。

      就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

      最明顯的原因就是實用。大模型雖強,但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實現(xiàn)「強+省錢」,直接解決了落地時的成本難題。

      用低成本實現(xiàn)高智能,這么一看,AI的未來還真不一定是超級大模型單打獨斗了。

      作者簡介

      Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語言處理,現(xiàn)在英偉達實習(xí)。



      共一是英偉達研究院的研究科學(xué)家Shizhe Diao,主要進行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對齊方面的研究,曾與字節(jié)跳動人工智能實驗室的李航博士合作。



      論文地址:https://arxiv.org/abs/2511.21689
      項目主頁:https://research.nvidia.com/labs/lpr/ToolOrchestra/
      數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
      HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      終于落幕!全紅嬋網(wǎng)暴風(fēng)波結(jié)束,官宣全面退賽,內(nèi)情信息量巨大,郭晶晶早有提醒

      終于落幕!全紅嬋網(wǎng)暴風(fēng)波結(jié)束,官宣全面退賽,內(nèi)情信息量巨大,郭晶晶早有提醒

      草莓解說體育
      2026-05-08 14:09:10
      立夏后,少吃豆腐白菜,多吃4種“冠軍菜”,應(yīng)季好吃還便宜

      立夏后,少吃豆腐白菜,多吃4種“冠軍菜”,應(yīng)季好吃還便宜

      阿龍美食記
      2026-05-06 10:50:21
      世體:皇馬更衣室認(rèn)定,是維尼修斯一直向阿韋洛亞“告密”

      世體:皇馬更衣室認(rèn)定,是維尼修斯一直向阿韋洛亞“告密”

      懂球帝
      2026-05-08 14:21:05
      江蘇一家瑞幸咖啡店開到村里面,網(wǎng)友評論區(qū)玩梗停不下來

      江蘇一家瑞幸咖啡店開到村里面,網(wǎng)友評論區(qū)玩梗停不下來

      馬蹄燙嘴說美食
      2026-05-08 11:18:49
      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      醪糟再次被關(guān)注!醫(yī)生發(fā)現(xiàn):高血脂患者喝醪糟,不用多久4大變化

      芹姐說生活
      2026-04-19 15:52:53
      世乒賽戰(zhàn)報:男團頭號種子2-3爆冷出局,日臺巔峰對決來襲

      世乒賽戰(zhàn)報:男團頭號種子2-3爆冷出局,日臺巔峰對決來襲

      夕落秋山
      2026-05-08 14:27:10
      98年,北京小伙為拿到綠卡,在美國海軍服役4年,回國后在干啥?

      98年,北京小伙為拿到綠卡,在美國海軍服役4年,回國后在干啥?

      海佑講史
      2026-05-07 16:30:12
      小寶與王某雷,誰探訪花的數(shù)量更多?

      小寶與王某雷,誰探訪花的數(shù)量更多?

      挪威森林
      2026-01-31 12:15:26
      CCTV16直播國安VS海港!御林軍劍指連勝戰(zhàn)意拉滿 衛(wèi)冕冠軍單外援

      CCTV16直播國安VS海港!御林軍劍指連勝戰(zhàn)意拉滿 衛(wèi)冕冠軍單外援

      刀鋒體育
      2026-05-08 10:34:56
      俄羅斯軍事專家直言:美國到現(xiàn)在才明白,中國是天然的超級大國!

      俄羅斯軍事專家直言:美國到現(xiàn)在才明白,中國是天然的超級大國!

      抽象派大師
      2026-05-08 00:15:03
      新車剛出廠就已老化,汽車用鋼陷入低價低質(zhì)內(nèi)卷!

      新車剛出廠就已老化,汽車用鋼陷入低價低質(zhì)內(nèi)卷!

      金投網(wǎng)
      2026-05-06 17:02:47
      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      杰絲聊古今
      2026-05-02 11:06:33
      比土木還崩的專業(yè),從年薪20萬跌到月薪2500,畢業(yè)即轉(zhuǎn)行!

      比土木還崩的專業(yè),從年薪20萬跌到月薪2500,畢業(yè)即轉(zhuǎn)行!

      燈錦年
      2026-04-23 19:35:21
      炸裂!奧運冠軍發(fā)文痛斥76歲恩師:沒底線,逼我吃藥!

      炸裂!奧運冠軍發(fā)文痛斥76歲恩師:沒底線,逼我吃藥!

      拳擊時空
      2026-05-08 06:12:50
      他曾是河北省委書記,橫行霸道,上班警車開道,兒子仍潛逃在海外

      他曾是河北省委書記,橫行霸道,上班警車開道,兒子仍潛逃在海外

      舊時樓臺月
      2024-07-26 09:57:13
      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      “有這種媽,抑郁癥就好不了!”一段母子倆出游視頻,令人窒息

      妍妍教育日記
      2026-05-07 10:30:13
      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      成都演唱會這天,人情冷暖、江湖地位,在謝娜身上展現(xiàn)得淋漓盡致

      夢在深巷qw
      2026-05-07 07:46:01
      吳宜澤奪冠回國后首度公開露面:現(xiàn)身西安一臺球館與粉絲互動,大批球迷用“噓聲”表示歡迎

      吳宜澤奪冠回國后首度公開露面:現(xiàn)身西安一臺球館與粉絲互動,大批球迷用“噓聲”表示歡迎

      極目新聞
      2026-05-07 22:10:46
      北京首鋼拒絕輸球!全力淘汰廣東宏遠,許利民調(diào)整陣容,央視直播

      北京首鋼拒絕輸球!全力淘汰廣東宏遠,許利民調(diào)整陣容,央視直播

      體壇瞎白話
      2026-05-08 08:02:05
      賀嬌龍去世4個月,丈夫首次公開露面,賀媽媽悲傷哭泣惹人淚目

      賀嬌龍去世4個月,丈夫首次公開露面,賀媽媽悲傷哭泣惹人淚目

      180視角
      2026-05-08 13:12:21
      2026-05-08 15:04:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      12590文章數(shù) 176461關(guān)注度
      往期回顧 全部

      科技要聞

      階躍星辰將完成25億美元融資 加速赴港IPO

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      頭條要聞

      毒梟留下的80頭河馬被捕殺前獲救 亞洲富豪:我全要了

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      旅游
      房產(chǎn)
      親子
      手機
      公開課

      旅游要聞

      戶外玩水切莫大意 這些安全細(xì)節(jié)一定要牢記

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      親子要聞

      百億兒童藥市場迎重磅文件,兒童版基藥目錄要來了?

      手機要聞

      蘋果在英遭遇410億美元iCloud集體訴訟 約4000萬用戶有望獲賠95美元

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 精品视频国产香人视频| 狠狠色婷婷丁香综合久久韩国电影| 亚洲精品自拍在线视频| 亚洲日韩AV一区二区三区四区| 97超碰人人人人人人少妇| 亚洲一区二区三区影院| 国产精品高潮呻吟AV| 国产精品人妻一区二区高| 国产精品免费AⅤ片在线观看| 国产亚洲精品第一综合| 国产精品色内内在线播放| 国产精品无码久久久久AV| 亚洲欧美日韩另类在线一| 亚洲www啪成人一区二区| 久久人妻无码一区二区| 8mav精品成人| 日韩欧美综合| 无套内谢孕妇毛片免费看| 内射人妻视频国内| 久久不卡精品| 欧美黑人换爱交换乱理伦片 | 老司机aⅴ在线精品导航| 国产高清自产拍av在线| 精品3p| 99精品福利九九精品福利| 日本野外强奷在线播放va| 欧美激情一区二区成人| 国产熟睡乱子伦视频在线播放| 国语自产精品视频在线第100页| 夜夜夜操| 99自拍视频| 亚洲开心婷婷中文字幕| 国产精品资源一区二区| 蜜臀色欲AV无码人妻| 久久久一本精品99久久精品88 | 中文字幕AV无码专区第一页| 麻豆蜜桃av蜜臀av色欲av| 久久久久久一级毛片免费无遮挡| 日韩一二区在线| 一道本AV免费不卡播放| 日韩在线视频一区二区三|