<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      TAMU/Waterloo團隊把研究智能體的訓練做成了開源流水線

      0
      分享至



      訓練一個能像人類研究員一樣「搜索→瀏覽→推理」的深度研究智能體 (Deep Research Agent),最大的瓶頸往往不是模型能力,而是高質量長程研究軌跡數據的嚴重匱乏。現有的軌跡采集方案要么依賴昂貴且不穩定的在線搜索 API,要么只能生成 2-5 輪的淺層交互,遠不足以覆蓋真實深度研究中動輒數十輪甚至上百輪的復雜推理需求。

      針對這一痛點,來自Texas A&M University、University of Waterloo、UC San Diego 等機構的研究團隊提出了OpenResearcher:一條完全開源、可復現的離線深度研究軌跡合成流水線。這是首個能夠訓練出在長程研究任務上與專用系統相媲美模型的開源流水線,合成的數據也已經在 NVIDIA 的基座模型訓練中被采用。該方法的核心思路是:通過一次性收集在線語料構建包含 1500 萬篇候選文檔的本地搜索引擎,隨后由教師模型在完全離線的環境中,憑借調用 search、open、find 三種工具合成了超過9.7 萬條長程研究軌跡,其中大量軌跡包含100 次以上的工具調用。

      利用這些軌跡對一個 30B 參數的模型進行監督微調,即可在離線深度研究的基準數據集 BrowseComp-Plus 上達到54.8%的準確率,較基座模型實現34.0個百分點的絕對提升,并一舉超越 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等強大的閉源模型!對于在線深度研究的基準數據集,該模型同樣全面超越現有開源系統,且全部增益均來自離線合成數據,無需任何在線訓練。



      圖 1:BrowseComp-Plus 基準數據集上的性能 - 參數量對比。OpenResearcher(30B)以 54.8% 的準確率高居左上角,在性能 / 參數比維度上顯著領先 GPT-4.1、Claude-4-Opus、Gemini-2.5-Pro 等強大的閉源模型,同時超越通義 DeepResearch(44.5%)等專用深度研究系統。



      • 論文鏈接:https://arxiv.org/abs/2603.20278
      • 博客鏈接:https://boiled-honeycup-4c7.notion.site/OpenResearcher-A-Fully-Open-Pipeline-for-Long-Horizon-Deep-Research-Trajectory-Synthesis-2f7e290627b5800cb3a0cd7e8d6ec0ea
      • 代碼鏈接:https://github.com/TIGER-AI-Lab/OpenResearcher
      • 模型鏈接:https://huggingface.co/OpenResearcher/OpenResearcher-30B-A3B
      • 數據集鏈接:https://huggingface.co/datasets/OpenResearcher/OpenResearcher-Dataset
      • Demo鏈接:https://huggingface.co/spaces/OpenResearcher/OpenResearcher

      深度研究軌跡的合成,難在哪?

      隨著 DeepSeek-R1 等工作的推出,從大型推理模型中蒸餾長程推理軌跡并用于后訓練已成為主流范式,OpenThoughts、OpenMathReasoning 等項目相繼涌現。然而,當訓練目標從「數學推理」拓展到「深度研究」—— 即智能體需要迭代搜索、聚合異構證據、進行多步推理 —— 高質量軌跡的獲取就變得尤為棘手。

      現有方案受制于三重瓶頸:

      • 成本高昂:每一條失敗的搜索路徑都要消耗 API 調用配額,大規模合成意味著數萬美元級別的開支。
      • 不可復現:互聯網上的內容隨時在變化,同一查詢在不同時刻可能返回截然不同的結果,使得獲取的軌跡難以穩定復現。
      • 不可分析:在線搜索環境本質上是黑盒,研究者無法精確追蹤「關鍵證據在哪一步被發現」、「搜索策略的偏差出在哪里」等等關鍵問題,嚴重限制了對智能體行為的系統性研究。

      這促使團隊提出一個核心問題:能否將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以零邊際成本、完全可復現的方式大規模合成高質量深度研究軌跡?

      OpenResearcher:離線深度研究軌跡合成流水線

      OpenResearcher 的核心設計理念是將語料構建與軌跡生成徹底解耦:先通過一次性在線收集含有研究信息的文檔構建離線語料庫與搜索引擎,然后在完全離線的本地環境中規模化合成研究軌跡。具體而言,流水線包含以下三個階段。



      圖 2:OpenResearcher 總覽。整條流水線分三個階段推進:(1) 從 MiroVerse 篩選約 6,000 個高難度 QA 問題;(2) 一次性在線收集約 1 萬篇含有研究信息的文檔 (gold documents),并與 1,500 萬篇 FineWeb 干擾文檔合并構成帶 FAISS 索引的離線語料庫;(3) 教師模型 GPT-OSS-120B 在離線環境中通過 search、open、find 三種瀏覽器原語生成超 9.7 萬條長程研究軌跡。

      階段一:高難度問題收集。深度研究軌跡的質量起點是問題的質量。傳統 QA 數據集如 2WikiMultiHopQA 和 NQ 的問題通常只需 2-5 步檢索即可回答,遠達不到深度研究所需的復雜度。研究團隊選擇從 MiroVerse-v0.1 中隨機采樣 10%,得到約 6,000 個問答對。這些問題天然要求長程多跳推理與異構證據整合,實測中即便是很強大的教師模型也往往需要數十次工具調用才能作答,其中相當一部分需要超過 100 次。

      階段二:離線搜索引擎構建。軌跡合成有一個硬性前提:目標證據必須可檢索。否則,教師模型的合成失敗可能是搜索策略的問題,也可能僅僅是語料中缺少相關文檔,而這種歧義會嚴重干擾下游分析。為消除這一歧義,團隊采取了「答案引導的在線文檔收集」策略:對每個問答對,將問題與參考答案拼接構造 query,經 Serper API 一次性檢索并清洗去重,獲得約 1 萬篇含有研究信息的文檔 (gold documents)。隨后將 gold documents 與從 FineWeb 中采樣的約 1,500 萬篇干擾文檔(約 10 萬億 tokens)合并構成離線語料庫,全部文檔使用 Qwen3-Embedding-8B 向量化,并通過 FAISS 建立索引。這一設計的精妙之處在于:gold documents 保證了「答案確實存在于語料中」,海量干擾文檔則忠實模擬了真實網絡的噪聲與復雜度,使合成軌跡兼具可控性與真實感。



      圖 3:OpenResearcher 使用的三種工具。以「哪些 MIT 研究者獲得了 INFORMS 獎項」為例:智能體可先調用 Search 工具獲取搜索摘要列表(左欄),再調用 Open 工具拉取目標 URL 的文檔全文(中欄),最后調用 Find 工具在文檔內精確定位關鍵字符串「MIT」(右欄,高亮顯示)。三種工具實現多尺度漸進式信息發現。

      階段三:瀏覽建模與軌跡合成。OpenResearcher 利用三種工具對智能體的在線瀏覽行為進行抽象,完整建模了人類的研究行為模式:

      • Search:向離線搜索引擎發出自然語言查詢,返回 top-K 結果(含標題、URL、摘要片段),對應人類「廣泛搜索、識別候選來源」的行為
      • Open:根據 URL 獲取文檔全文內容,對應人類「點開網頁、通讀全文」的行為
      • Find:在當前已打開的文檔中執行精確字符串匹配,對應人類「Ctrl+F 頁面內查找」的行為,用于命名實體查找、事實核驗和證據錨定

      在此基礎上,研究團隊以 GPT-OSS-120B 為教師模型,對每個問題生成 16 條不同的軌跡以捕獲多樣化推理路徑。經輕量過濾后,最終獲得超過9.7 萬條軌跡,推理深度涵蓋了十余步到百余步。

      30B 模型超越多個閉源大模型

      訓練設置:研究團隊以 NVIDIA Nemotron-3-Nano-30B-A3B(混合 Mamba-Transformer MoE 架構,激活參數僅 3.2B)為基座,篩選出約 5.5 萬條答案正確的軌跡進行監督微調。訓練在 8 張 NVIDIA H100 GPU 上完成,耗時約 8 小時,是中小團隊也能具備的算力。

      離線深度研究的評測:在離線深度研究的基準數據集 BrowseComp-Plus 上,OpenResearcher-30B-A3B 取得54.8%的準確率,大幅領先 GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通義 DeepResearch(44.5%)。較基座模型絕對提升 34.0 個百分點!僅憑離線合成軌跡的監督微調,無需強化學習或在線交互,即可在深度研究任務上釋放顯著的性能增益。

      在線深度研究的評測:在三個依賴在線搜索 API 的基準數據集上,OpenResearcher 同樣亮眼:BrowseComp 26.3%,GAIA 64.1%,xbench-DeepSearch 65.0%,全面超越 ASearcher-QwQ-32B 和 WebDancer-QwQ-32B 等開源系統。更關鍵的是,所有這些增益完全來自離線環境合成的軌跡!模型從未在在線深度研究數據上訓練過,卻能有效遷移到真實、動態的搜索環境。



      圖 4:深度研究基準測試性能對比。左表(離線,BrowseComp-Plus):OpenResearcher 以 54.8% 位居榜首,大幅超過 GPT-4.1(36.4%)和通義 DeepResearch(44.5%),較基座模型絕對提升 34.0 個百分點。右表(在線,BrowseComp / GAIA /xbench-DeepSearch):OpenResearcher 取得 26.3% / 64.1% / 65.0%,全面超越同量級開源系統。

      搭建 OpenResearcher 的過程能教會我們什么?

      失敗不在步數,在策略:失敗軌跡的平均工具調用次數(71.7 次)幾乎是成功軌跡(38.4 次)的兩倍,且額外調用主要集中在 search 操作上。失敗并非源于「探索不充分」,而是陷入了反復重新構造查詢卻始終無法收斂的困境。查詢構造能力和搜索策略的質量,才是決定深度研究成敗的關鍵。



      圖 5:工具調用次數分布與正確 / 錯誤軌跡對比。左圖(成功):調用次數集中在 10-40 次,均值 38.4,中位數 24.0。中圖(失敗):呈雙峰形態,均值 71.7,中位數 79.0,反映反復無效的搜索。右圖:失敗軌跡的 search 調用均值(48.7)遠超成功軌跡(22.1),而 find 使用頻率兩組相近,說明癥結在搜索策略而非文檔內定位。

      「答案正確性」并非唯一有價值的訓練信號:僅用正確軌跡訓練的模型得到 54.81% 的準確率,僅用錯誤軌跡訓練得到 55.06%,混合全量軌跡得到 54.46%。三者差異不超過 0.6 個百分點。由此可知,軌跡中蘊含的搜索結構、工具調用模式、證據檢查策略等過程性信號的價值并不遜色于最終答案的正確性。研究者無需過于激進地過濾訓練數據。另一方面,移除 gold document 的收集過程后,下游準確率從 54.81% 驟降至 6.35%。所以,一次性在線收集是整條離線合成流水線得以運轉的關鍵步驟。



      圖 6:左表:僅用正確(54.81%)/ 錯誤(55.06%)/ 全部軌跡(54.46%)訓練,在 BrowseComp-Plus 上的準確率相差不超過 0.6 個百分點,說明過程性信號價值不亞于答案正確性。右表:移除 gold documents 的收集過程后下游準確率從 54.81% 降至 6.35%,證明一次性在線文章收集這一步不可或缺。

      智能體的最大可探索輪數預算在 100 輪后邊際收益遞減:準確率和檢索 gold documents 的命中率隨最大可探索輪數預算增加穩步上升,但在 100 輪附近開始趨于平緩。這說明長程探索確實有益,但在智能體獲得充分的檢索和定位機會之后,單純延長推理鏈的邊際收益明顯遞減。



      圖 7:準確率(藍線)和檢索 gold documents 的命中率(橙線)隨最大可探索輪數預算增加持續上升,但在約 100 輪后趨于飽和(準確率~58.3%,命中率~49.3%),表明長程探索有益但存在邊際遞減效應。

      三種瀏覽器工具缺一不可:消融實驗清楚地展示了三種工具的遞進價值。智能體在僅能調用 search 時準確率為 43.86%,加入 open 后升至 56.39%,再引入 find 進一步達到62.17%,同時工具調用總次數和 token 消耗均下降。這表明,文檔級訪問是深度研究的「剛需」,頁面內證據定位則在提升精度的同時降低了冗余瀏覽。



      圖 8:左表:準確率從僅能調用 search(43.86%)→ 可以調用 open(56.39%)→ 還可以調用 find(62.17%)穩步提升,同時工具調用次數和 token 消耗持續下降。右表:P (correct|open-hit) = 86.72% 遠高于 P (correct|search-hit) = 61.84%,表明「搜到」與「看到」對于準確率的幫助是有很大差異的。

      檢索時機與最終準確率的關系:只要智能體打開過至少一篇 gold document,無論這一命中發生在第幾輪,最終準確率都能穩定維持在 85% 以上;從未打開過 gold document 的軌跡準確率則僅有 7.9%。因此「看到」與研究相關的證據通常是正確回答的必要條件,但并非充分條件。



      圖 9:首次打開 gold document 的時機與最終準確率的關系。只要打開過至少一篇 gold document,準確率均穩定在 85% 以上;完全未命中的 303 條軌跡準確率則僅有 7.9%。

      成本:從數萬美元到零



      合成這 9.7 萬條軌跡共涉及約 576 萬次搜索請求。若使用在線的 Serper API,花費約 $5,760;若改用 SerpAPI 則高達 $28,800。而 OpenResearcher 的離線檢索器將這一成本降至$0。離線方案還額外提供:無速率限制(支持大規模并行合成)、完全確定性(確保長程研究軌跡完美可復現)、零外部依賴(便于開放共享與社區復現)。

      總結與展望


      OpenResearcher 為深度研究智能體的訓練數據問題提供了一條務實且高效的解決路徑:與其在昂貴、不穩定的在線環境中反復試錯,不如將「搜索→瀏覽→推理」循環中昂貴的前兩步從在線環境搬到更可控的離線環境中,以可復現、零邊際成本的方式大規模合成訓練軌跡。在方法層面,三種工具對智能體的在線瀏覽行為的抽象(search + open + find)忠實模擬了人類的研究行為,使合成軌跡不僅包含搜索查詢,還包含文檔閱讀和證據定位的完整行為鏈。在實證層面,一個僅有 30B 參數(3.2B 激活)的模型通過監督微調即可在多個基準上超越參數量數倍于己的閉源模型,且全部增益來自離線合成數據。更具長遠價值的是,離線環境的完全可控性為系統性地分析深度研究流水線各設計維度 (例如數據過濾策略、語料覆蓋、智能體配置、工具空間設計、檢索與推理的交互關系等)提供了實驗平臺,為這一領域的未來優化指明了方向。

      本文主要作者為:德州農工大學博士生李卓風,滑鐵盧大學博士生姜東甫,德州農工大學助理教授張彧,以及滑鐵盧大學助理教授陳文虎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      臉部是糖尿病的放大鏡?醫生說:臉部若有這6個異常,一定要注意

      臉部是糖尿病的放大鏡?醫生說:臉部若有這6個異常,一定要注意

      垚垚分享健康
      2026-05-11 11:25:01
      無良司機運輸種植戶丟棄變質果蔗給耀明糖廠,被發現還給1500運費

      無良司機運輸種植戶丟棄變質果蔗給耀明糖廠,被發現還給1500運費

      映射生活的身影
      2026-05-11 10:40:07
      人民日報頭版點名南京!這次不是文旅,是真硬核實力,看完太提氣

      人民日報頭版點名南京!這次不是文旅,是真硬核實力,看完太提氣

      叮當當科技
      2026-05-11 08:58:23
      隨著衛冕冠軍2-1,沙特聯最新積分榜出爐:C羅率隊5分優勢領跑

      隨著衛冕冠軍2-1,沙特聯最新積分榜出爐:C羅率隊5分優勢領跑

      側身凌空斬
      2026-05-11 04:04:50
      謝霆鋒張柏芝上船當P友!?

      謝霆鋒張柏芝上船當P友!?

      八卦瘋叔
      2026-05-11 10:00:14
      陳澤仕不跑上限不高!一將下滑嚴重 國足缺個克雷桑 足協吃現成的

      陳澤仕不跑上限不高!一將下滑嚴重 國足缺個克雷桑 足協吃現成的

      刀鋒體育
      2026-05-11 10:53:14
      0-2!國家德比完敗 13.4億豪門目送死敵奪冠 四線爭冠變四大皆空

      0-2!國家德比完敗 13.4億豪門目送死敵奪冠 四線爭冠變四大皆空

      狍子歪解體壇
      2026-05-11 04:58:21
      小勒布倫認輸:王楚欽把我打服了,哥哥那場輸得太冤

      小勒布倫認輸:王楚欽把我打服了,哥哥那場輸得太冤

      觀星娛記
      2026-05-11 11:29:48
      央視:中國在巴基斯坦建立“保障基地”

      央視:中國在巴基斯坦建立“保障基地”

      烽火觀天下
      2026-05-10 10:17:59
      廣州一公園發布臨時閉園通告

      廣州一公園發布臨時閉園通告

      FM96.2廣州新聞電臺
      2026-05-11 08:51:38
      人社部釋放利好消息!關于退休養老金待遇,2026年還會繼續調整嗎

      人社部釋放利好消息!關于退休養老金待遇,2026年還會繼續調整嗎

      社保小達人
      2026-05-11 10:09:48
      美國衛星:中國“羚羊礁”快變成西沙最大“填島”

      美國衛星:中國“羚羊礁”快變成西沙最大“填島”

      世家寶
      2026-05-11 10:25:10
      張柏芝母親節曬仨兒子,8歲三胎兒子出鏡,眼睛小卻自帶沉穩氣場

      張柏芝母親節曬仨兒子,8歲三胎兒子出鏡,眼睛小卻自帶沉穩氣場

      小撇說事
      2026-05-11 11:20:44
      男女團奪冠拍全家福!孫穎莎奶兇,王楚欽與林詩棟打鬧并抱住馬龍

      男女團奪冠拍全家福!孫穎莎奶兇,王楚欽與林詩棟打鬧并抱住馬龍

      籃球資訊達人
      2026-05-11 03:31:30
      重慶2死6傷車禍后續:女司機身份被扒,竟是醫院主任醫師還穿高跟

      重慶2死6傷車禍后續:女司機身份被扒,竟是醫院主任醫師還穿高跟

      冷月侃娛樂
      2026-05-11 10:17:18
      早田希娜賽后痛哭:一局都沒拿下滿是愧疚,辜負了所有人的支持

      早田希娜賽后痛哭:一局都沒拿下滿是愧疚,辜負了所有人的支持

      懂球帝
      2026-05-10 23:29:40
      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      解讀熱點事件
      2026-05-05 00:05:15
      克雷桑殺瘋了!泰山隊執行戰術不再固執,兩大短板何時補齊?

      克雷桑殺瘋了!泰山隊執行戰術不再固執,兩大短板何時補齊?

      獅王亂彈
      2026-05-11 11:00:37
      勇士官宣續約科爾!直接攪動詹姆斯今夏去向,湖人留隊壓力陡增

      勇士官宣續約科爾!直接攪動詹姆斯今夏去向,湖人留隊壓力陡增

      夜白侃球
      2026-05-11 11:28:45
      從1-1到1-0!一次VAR判罰,或決定4隊命運,曼城和阿森納大悲大喜

      從1-1到1-0!一次VAR判罰,或決定4隊命運,曼城和阿森納大悲大喜

      阿晞體育
      2026-05-11 10:48:26
      2026-05-11 12:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12965文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      教育
      數碼
      健康
      時尚
      親子

      教育要聞

      奔赴一場英法教育之旅,遇見更好的未來

      數碼要聞

      聯想YOGA Air 14 Ultra筆記本官宣5月19日發布

      干細胞能讓人“返老還童”嗎

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      親子要聞

      孩子心疼父母,反而是對家的傷害?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av加勒比| 亚洲黄色AV| 欧美精品免费在线观看| 久久亚洲国产成人精品性色| 国产精品18久久久久久vr| 国产主播一区二区在线观看| 精品一区二区三区无码视频| 韩日毛片| 久久ww| 无码专区—va亚洲v天堂麻豆| 久久人人妻人人爽人人爽| 99精品国产一区二区| 欧美一区二区三区成人久久片| 国产一区二区三区啪| 亚洲欲色欲色XXXXX在线观看| 最新亚洲中文av在线不卡| 国精产品一二三区精华液| 亚洲电影a| 亚洲爆乳精品无码一区二区三区| 亚洲福利精品一区二区三区| 18亚洲AV无码成人网站国产| 国产精品99久久久久久猫咪| 精品无套挺进少妇内谢| 亚洲国产精品综合久久一线| 中文字幕高清| 国产在线欧美日韩精品一区二区| av无码爆乳护士在线播放| 亚洲av成人一区在线| 中文字幕av一区| 精品国产一区二区色老头| 国产精品国产三级国产试看| 日韩精品人妻系列无码专区免费| 亚洲高清aⅴ日本欧美视频| 国产成人91精品免费网址在线| 国产精品视频一区二区三区无码| 久久久久久亚洲AV无码专区| 国产精品先锋资源站先锋影院| 宾阳县| 久久综合亚洲色一区二区三区| 亚洲精品xxx| 黄色好看一区二区三区|