<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      30B參數超越GPT-5!REDSearcher讓深度搜索Agent做到低成本可擴展

      0
      分享至



      「2018 到 2023 年間在 EMNLP 會議上發表的那篇論文中,第一作者本科就讀于達特茅斯學院、第四作者本科就讀于賓夕法尼亞大學的那篇科學論文,題目是什么?」

      這并不是一道靠記憶就能解答的題。Agent 必須在多輪環境交互中,不斷假設、驗證并修正路徑,始終保持推理一致性,才能將零散證據整合成自洽鏈條。

      2025 年被視為 AI Agent 元年,但真正的自主 Agent 核心在于「深度搜索」,在長程任務中像人類專家一樣維持目標、驗證信息并動態調整策略。然而,訓練這樣的 Agent 面臨三大瓶頸:

      • 數據稀缺:高難度長程問答任務極度依賴人工標注,成本高昂。因此,我們需要一條能夠自動化合成高難度問題的鏈路。
      • 能力鴻溝:預訓練模型雖知識儲備豐富,卻缺乏與真實環境進行長程交互的能力。這需要通過低成本的中訓練階段來彌補鴻溝。
      • 環境缺失:在真實環境中訓練成本高且不可控。一個功能等價的模擬環境,可以在本地復現搜索過程,從而支持算法的快速迭代。

      為突破瓶頸,REDSearcher 團隊設計了一套低成本、可擴展的訓練框架,最終使用 30B 規格模型在深度搜索任務上取得開源模型 SoTA,并且超越了 GPT-5 等一眾閉源模型。



      • 論文標題:REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents
      • 項目主頁:https://github.com/RedSearchAgent/REDSearcher
      • 論文鏈接:https://arxiv.org/abs/2602.14234
      • Collections:https://huggingface.co/collections/Zchu/redsearcher



      一、什么是「足夠難」的深度搜索題目?

      什么是困難的搜索題目?推理跳數往往只是表象,應該追求的是問題的結構性困難。

      1. 拓撲復雜度:用樹寬衡量「結構性困難」

      復雜任務中,信息分叉交織形成回環。Agent 需同時記憶多路推論,時刻驗證一致性,并隨時準備整體回溯,這便是深度搜索的核心挑戰。為此,團隊引入圖論中的TreeWidth(樹寬)概念來刻畫這種「結構性困難」。以下通過三種結構問題進行對比:



      • 線性/樹狀(樹寬=1):典型鏈式推理,只需按部就班檢索便可解答。
      • 菱形/回環(樹寬=2):出現分叉與重匯合,要求 Agent 維持多路假設的一致性,并在矛盾時進行回溯。
      • 強耦合子圖(樹寬≥3):形成網狀約束,需要將零散證據拼合成一致的整體,迫使模型進行全局驗證和回溯。

      2. 信息分散度:杜絕搜索「捷徑」

      即使問題的拓撲結構很復雜,如果存在一個網頁恰好包含所有關鍵事實,模型一次檢索就能抄走答案。為此,團隊引入「信息分散度」,即覆蓋全部關鍵證據所需的最小來源數。信息分散度越大,表明問題相關的證據片段(注:原文為“爭取片段”,疑為筆誤,此處已作修正)在互聯網上的分布就更加零散,這迫使 Agent 與外部環境進行更多輪次的交互從而獲取更加充分的信息。

      二、大規模「自動化」合成

      「高難度」的深度搜索問題

      基于雙約束復雜度標準,我們采用 graph-to-text 流程合成數據:先生成符合樹寬與分散度的推理圖,再將其翻譯為自然語言問題,并經過多層校驗確保「高難度、可解且答案唯一」。同時,我們設計了基于「結構化信息」與「網絡瀏覽」兩套圖構造流程,以覆蓋不同搜索環境。在合成問題中,我們采取:

      • 拓撲結構增強:直接生成高樹寬圖的成功率較低。為此,我們引入大模型智能體對初始依賴圖進行「拓撲加密」,通過添加環狀與交錯約束,顯著提升結構復雜度,迭代地提高問題難度。
      • 工具增強的問題合成:在問題構造階段,我們主動植入工具調用需求。通過將關鍵實體替換為隱含工具依賴的表達(如地名→地圖服務、文章→谷歌學術),使工具調用成為解題前置條件。



      三、多模態擴展:從「文本圖」到「多模態圖」

      在文本合成基礎上,REDSearcher 通過模態注入將純文本推理圖轉化為跨模態推理,使部分約束錨定在圖像中。

      • 視覺屬性錨定:用圖像描述替換節點的文本屬性,迫使模型先識別圖像再關聯知識。
      • 跨模態依賴:設置視覺不可替代約束,使圖像搜索成為推理必經之路,而非冗余信息。
      • 視覺語義抽象:使用抽象指代替代直接命名,迫使模型識別圖像內容后再進行搜索。
      • 模態靈活插入:視覺證據可插入推理鏈任意位置,既可早期設置瓶頸增加難度,也可后期引入驗證,實現難度精細控制。

      通過這套輕量級擴展,REDSearcher 可高效遷移至多模態搜索領域,合成高質量的圖文深度搜索問題。

      四、「成本可控」Mid-Training 強化智能體能力

      預訓練模型缺乏多輪交互訓練,在長程搜索中易出現目標漂移、重復搜索等問題。為此,REDSearcher 采用可擴展的兩階段 Mid-Training 框架,依次強化模型的「原子能力」與「組合能力」,實現從語言建模到智能體的過渡。



      原子能力建設

      針對深度搜索重要的兩個基礎能力優化:

      • 意圖錨定:從含噪的觀測中精準抓取關鍵證據,過濾噪聲,減少幻覺與推理漂移。
      • 層次化規劃:將復雜目標拆解為可立即求解的具體目標與需逐步消解的不確定目標,確保規劃可落地。

      組合能力建設

      通過環境交互強化長程任務中的狀態維持與目標一致性,全程以成本為約束:

      • 工具調用能力:通過合成工具協議與本地模擬環境交互,使模型在 ReACT 范式下掌握基礎與外界環境交互能力。
      • 長程交互能力:在「功能一致」模擬環境中,讓 Agent 進行長程的環境交互,強化規劃能力與目標一致性。

      五、后訓練持續進化:

      不只是「搜得多」,更要「搜得準」

      后訓練采取 SFT + Agentic RL 雙階段增強:

      • 在真實環境中交互,通過多重過濾獲取長程高質量軌跡,教會模型深度搜索行為。
      • 在真實搜索環境中進一步優化策略,關鍵設計包括:
      • 低成本驗證:構建「功能等價」的本地模擬環境,保持 API 一致、證據完備且含噪聲,加速實驗迭代。
      • 數據質量保障:針對合成問題中存在的答案錯誤、一題多解現象,采用 Agent-as-Verifier 對強化學習問題集進行校驗,避免數據污染影響訓練穩定性。

      團隊觀察到了效率與性能同步提升的現象:隨著訓練進行,模型的平均交互輪次不斷下降,但準確率持續提升。這表明 REDSearcher 并非簡單的「暴力搜索」,而是學會了更精準的信息獲取策略,主動減少無效調用,形成「越訓越聰明」的良性循環。

      六、實驗結果

      在多項深度搜索權威基準上,REDSearcher 在開源模型中取得了優異的表現:

      • REDSearcher 在同規模開源模型中取得了 SoTA 水平,并且超過了 GPT-5-Thinking-high、Gemini-2.5-pro、Claude-4.5-sonnet 一眾閉源先進模型(*為帶有上下文管理的性能)。
      • REDSearcher-MM 在多模態搜索基準中相比同規格模型取得了 SoTA 水平,并且性能超過 Gemini-2.5-pro,在部分基準上取得了接近 Gemini-3-pro 的性能。





      結語

      REDSearcher 的核心在于系統性設計:從圖論角度定義深度搜索任務復雜度,以雙約束優化可擴展合成數據,以兩階段中間訓練降低能力遷移成本,以高質量軌跡合成結合強化學習實現持續迭代。它提供了一條可復現、低成本的深度搜索智能體訓練路徑,使 AI 系統從靜態知識查詢走向開放環境下的自主探索、驗證與信息整合。

      作者簡介

      初征,哈工大社會計算與信息檢索中心在讀博士生,由劉銘教授和秦兵教授共同指導,研究方向是智能體、大語言模型、復雜推理、深度搜索。

      王梟,就職于小紅書 Hi Lab,負責Search Agent,主要關注長程推理、智能體、數據合成、強化學習。

      Jack Hong,小紅書 Hi Lab 團隊算法實習生,主要研究方向是多模態大模型、Agent、計算機視覺等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪機車發布安全隱患公告, 旅狼500RR/500F車主可享三項免費維保服務

      張雪機車發布安全隱患公告, 旅狼500RR/500F車主可享三項免費維保服務

      界面新聞
      2026-05-11 09:20:57
      中國賽車+中國車手再奪世界冠軍!吉利星瑞TCR首戰即奪冠

      中國賽車+中國車手再奪世界冠軍!吉利星瑞TCR首戰即奪冠

      揚子晚報
      2026-05-10 21:25:15
      爸爸想把房子送給"干女兒"保姆 兒子扣房產證

      爸爸想把房子送給"干女兒"保姆 兒子扣房產證

      看看新聞Knews
      2026-05-11 13:12:03
      他舍棄中國國籍加入日本隊!助日乒逆襲崛起,如今成國乒頭號威脅

      他舍棄中國國籍加入日本隊!助日乒逆襲崛起,如今成國乒頭號威脅

      八斗小先生
      2026-05-11 15:40:40
      《主角》主角差評如潮,出場十幾秒,網友評價:雙眼無神像瞎子

      《主角》主角差評如潮,出場十幾秒,網友評價:雙眼無神像瞎子

      劇芒芒
      2026-05-11 12:21:15
      特朗普宣布訪華!帶1500噸行李和豪華天團,這波是避難還是談判?

      特朗普宣布訪華!帶1500噸行李和豪華天團,這波是避難還是談判?

      李將平老師
      2026-05-11 13:30:25
      普京放話,遠東問題不能再拖!擱置70年,要完成斯大林的未竟之業

      普京放話,遠東問題不能再拖!擱置70年,要完成斯大林的未竟之業

      朝子亥
      2026-05-11 13:40:03
      3:2擊敗日本后,王曼昱對孫穎莎用了特殊稱呼,王勵勤也難以反駁

      3:2擊敗日本后,王曼昱對孫穎莎用了特殊稱呼,王勵勤也難以反駁

      寒律
      2026-05-11 12:40:11
      外交部:為維護相關決議嚴肅性和權威性,中方決定不同意臺灣地區參加今年世衛大會

      外交部:為維護相關決議嚴肅性和權威性,中方決定不同意臺灣地區參加今年世衛大會

      澎湃新聞
      2026-05-11 15:32:33
      多地市委書記調整

      多地市委書記調整

      上海法治聲音
      2026-05-11 15:46:11
      31億,207米!中國第一大民企的深圳總部,封頂!

      31億,207米!中國第一大民企的深圳總部,封頂!

      GA環球建筑
      2026-05-10 23:25:38
      男子酒后與女友游玩時跳河溺亡,家屬起訴女友及兩公司索賠28萬 法院判了

      男子酒后與女友游玩時跳河溺亡,家屬起訴女友及兩公司索賠28萬 法院判了

      紅星新聞
      2026-05-11 14:58:23
      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      石辰搞笑日常
      2026-05-11 12:28:09
      華裔日本主帥:孫穎莎這道墻很高!但張本美和能在洛奧戰勝她

      華裔日本主帥:孫穎莎這道墻很高!但張本美和能在洛奧戰勝她

      念洲
      2026-05-11 12:40:08
      吳君如很早就說過了,陳妍希私下就是這樣穿

      吳君如很早就說過了,陳妍希私下就是這樣穿

      八卦王者
      2026-05-10 13:24:46
      西安分水嶺車禍!逆行肇事者豎手指,目擊者再曝細節,對方太不值

      西安分水嶺車禍!逆行肇事者豎手指,目擊者再曝細節,對方太不值

      千言娛樂記
      2026-05-11 14:49:45
      上海地鐵兩老太撕扯女孩后續!老人正臉流出,身份被扒,評論炸了

      上海地鐵兩老太撕扯女孩后續!老人正臉流出,身份被扒,評論炸了

      八斗小先生
      2026-05-11 15:20:56
      《新華社》霸氣認證肖戰全球火爆!還達成歷史第一成就,實力強悍

      《新華社》霸氣認證肖戰全球火爆!還達成歷史第一成就,實力強悍

      悅君兮君不知
      2026-05-10 15:27:02
      “專坑中國”,世界杯這回撞墻了

      “專坑中國”,世界杯這回撞墻了

      南風窗
      2026-05-11 14:11:47
      文旅部整治擺渡車,奈何中西部早就“養不起”景區了

      文旅部整治擺渡車,奈何中西部早就“養不起”景區了

      冰川思想庫
      2026-05-11 11:16:20
      2026-05-11 17:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12970文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      藝術
      房產
      時尚
      本地

      家居要聞

      多元生活 此處無聲

      藝術要聞

      陸抑非寫竹,筆力遒勁

      房產要聞

      產業賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      伊姐周日熱推:電視劇《主角》;電視劇《良陳美錦》......

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产91视频观看| 波多野结衣的av一区二区三区| 亚洲天堂精品在线播放| 久久精品国产亚洲AV忘忧草18| 日本熟女Va视频| 久久精品国产一区二区小说| 特级西西人体444WWW高清大胆| 97人妻中文字幕总站| AV成人无码久久精品区一区二 | 中国大陆高清aⅴ毛片| 亚洲成AV人不卡无码影片| 免费无码av片在线观看| 成人欧美一区在线视频| 国产麻豆9l精品三级站| 亚洲国产一区二区视频| 无码av波多野结衣久久| 无码无套少妇毛多69xxx| 人人人操| 高清精品久久久久一二三日本不卡视频 | 日韩精品一区二区三区在线观看| 欧美在线成人午夜网站| 亚洲精品岛国片在线观看| 精品国产麻豆免费人成网站| 最新在线中文字幕| 国产91熟女高潮一区二区 | 狠狠色AV一区二区| 日韩综合在线观看| 尤物成AV人片在线观看| 97无码人妻福利免费公开在线视频 | 26uuu在线| 婷婷综合久久中文字幕蜜桃三电影| 久久国产成人精品国产成人亚洲 | 久久无码中文字幕东京热| 污污污污污污www网站免费| 久久精品无码一区二区2020| 久久天堂无码av网站| 国产亚洲一区二区三区啪| 欧美BBXX| 狠狠干在线| 亚洲第一自拍偷拍视频| 久久人人做人人妻人人玩精|