<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI記住失敗經驗:微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

      0
      分享至



      想象一下,你讓 AI 助手結合搜索工具探索一個復雜問題。它第一次探索時走錯了方向,但第二次、第三次,它依然重復同樣的錯誤探索路徑。雖然你可能可以從最終得到的多次探索結果中挑選出一個勉強滿意的答案,但是這既低效,也需要人工干預。這就是當前大多數深度搜索智能體面臨的困境——它們無法「記住」之前的探索經驗,每次都是從頭開始,導致大量冗余搜索和資源浪費。

      現有的深度搜索智能體大多基于 ReAct 框架構建,采用線性推理方式:「思考→調用工具→觀察→再思考」。這種設計在簡單任務上表現良好,但在需要多輪探索的深度搜索任務中,往往陷入局部最優、重復探索和低效搜索的困境。

      來自東南大學、微軟亞洲研究院等機構的研究團隊提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個框架讓 AI 智能體能夠「記住」每次探索的經驗,在多個探索軌跡之間傳遞經驗,實現漸進式的智能搜索。



      • 論文標題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
      • 論文鏈接:
      • https://arxiv.org/abs/2602.02486
      • 項目鏈接:
      • https://github.com/microsoft/InfoAgent

      讓探索變成「漸進式學習」過程

      為什么 ReAct 會失敗?

      ReAct 框架的核心問題在于其線性設計。每個探索軌跡都是獨立的,模型無法回顧先前嘗試的狀態。在長上下文場景下,早期制定的計劃逐漸被遺忘,關鍵線索被埋沒。

      研究團隊通過深入分析發現,現有深度搜索模型即使經過大量強化學習訓練,其 Pass@K 性能仍遠高于 Pass@1。這意味著模型本身具備解決問題的推理能力潛能,問題在于受限于上下文長度限制,單次探索難以生成足夠多樣的探索路徑,無法覆蓋足夠寬廣的搜索空間。

      Re-TRAC:遞歸式軌跡壓縮

      Re-TRAC 的核心思想是將探索從一系列獨立嘗試轉變為漸進式學習過程。具體而言,在每個探索軌跡結束時生成一個結構化的狀態表示,針對深度搜索任務,記錄以下三個維度的信息:

      • 答案與分析結論:當前可能性最高的答案與其關鍵推理結果——為后續推理提供錨點。

      • 證據庫與來源驗證:已搜集到的證據及其來源,并標記哪些已被查閱、已被驗證——避免冗余的工具調用和重復檢查。

      • 不確定項與待探索方向:現階段需要繼續探索驗證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補全未探索的搜索空間。

      這個結構化狀態將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開始時,都能清楚地了解什么已被驗證、什么仍未解決,以及應該將探索重點放在哪里。



      小模型也能「以小博大」

      研究團隊在五個具有挑戰性的搜索導向基準上評估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



      4B 模型性能 SOTA

      RE-TRAC-4B 在所有小于 15B 參數的基線中表現最佳:

      • BrowseComp上達到 30.0% 的準確率;
      • BrowseComp-ZH上達到 36.1%;
      • GAIA上達到 70.4%;
      • XBench上達到 76.6%;
      • HLE上達到 22.2%。

      更令人驚訝的是,這個僅 4B 參數的模型在多個基準上超越了更大規模的模型。

      • XBench基準上,RE-TRAC-4B 的 76.6% 準確率不僅遠超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過了 NestBrowse-4B 的 74.0%。

      • GAIA基準上,RE-TRAC-4B 的 70.4% 準確率超過了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

      30B 模型的進一步突破

      RE-TRAC-30B 同樣表現出色,在除 HLE 外的所有基準上都擊敗了 MiniMAX-M2-229B。

      • BrowseComp上,其準確率達到 53%,甚至超過了 GLM-4.7-358B 的 52%。

      • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

      這些結果說明,通過軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場景下也能獲得接近甚至超過更大模型的效果。

      更少的消耗、更高的性能的通用拓展

      Re-TRAC 不僅可以通過訓練提升小模型性能,還可以作為無需訓練的測試擴展直接應用于前沿模型。

      研究團隊在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實現了 Re-TRAC 框架,并與多數投票(Majority Voting)、加權投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進行了對比。



      結果顯示,Re-TRAC 在所有模型上都達到了最佳或具有競爭力的性能。在 BrowseComp300 子集上:

      • o4-mini通過 Re-TRAC 從 25.7% 提升到 46.8%;
      • o3從 54.9% 提升到 69.8%;
      • GPT-5-medium從 48.3% 提升到 66.6%;
      • DeepSeek-V3.2從 45.3% 提升到 60.8%;
      • GLM-4.7從 37.7% 提升到 60.7%。

      在傳統框架中,由于軌跡相互獨立,資源使用量通常隨擴展近似線性增長。Re-TRAC 會繼承之前輪次的狀態,使搜索空間逐步收斂,從而減少冗余工具調用與重復探索,提升探索的效率。

      技術細節:

      如何訓練 Re-TRAC 模型

      研究團隊開發了一種后訓練方法,構建了基于結構化狀態表示的監督微調(SFT)數據。訓練數據通過實體樹方法構建:從維基百科收集大量實體作為樹根,然后遞歸搜索相關實體作為子節點,直到樹達到預定義深度。

      通過選擇從根到葉節點的路徑并將邊轉換為子問題,團隊合成了 33K 個問答對。然后,收集 GLM-4.7 在這些合成問題上的 Re-TRAC(4 輪)軌跡,經過過濾后得到 104k 個訓練樣本,用于訓練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

      實驗結果顯示,經過 SFT 訓練后,Qwen3-4B-Instruct 在 BrowseComp 上的準確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

      這表明通過簡單的 SFT 訓練,配合 Re-TRAC 框架,可以產生強大的搜索智能體,實現與通過大規模強化學習訓練的模型相當甚至更好的性能。

      總結:

      優化 ReAct 的搜索框架,

      讓小模型跑出大模型表現

      Re-TRAC 可以看作是針對深度搜索任務優化過的 ReAct 框架:在原有「思考→調用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結構化狀態表示,讓智能體在開放網絡檢索、復雜信息匯總等場景中不再「從零開始」,而是像人一樣復用既有證據、總結失敗教訓并規劃未來方向。

      更重要的是,這種有針對性的框架設計讓小模型也能跑出大模型級別的效果,為資源受限場景(如邊緣設備、本地部署)提供了一條「用小模型做大事」的現實路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉嘉玲默許梁朝偉在島國養私生子 !?

      劉嘉玲默許梁朝偉在島國養私生子 !?

      八卦瘋叔
      2026-05-12 10:10:13
      早報:美國總統特朗普對中國進行國事訪問;降噪耳機受害者出現;FIFA官網沒有中文模式惹惱中國網友

      早報:美國總統特朗普對中國進行國事訪問;降噪耳機受害者出現;FIFA官網沒有中文模式惹惱中國網友

      岸標財經
      2026-05-13 03:32:55
      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學

      亞洲杯出線!U17國足至少5人能獲運動健將稱號 無需高考+保送大學

      我愛英超
      2026-05-13 02:34:59
      剛剛,四川突發地震!

      剛剛,四川突發地震!

      吉刻新聞
      2026-05-12 21:53:03
      令人振奮!上海地鐵“傲慢大媽”終于被依法懲處,倚老賣老已無用

      令人振奮!上海地鐵“傲慢大媽”終于被依法懲處,倚老賣老已無用

      瓜哥的動物日記
      2026-05-12 07:09:39
      逛菜市場別再亂買了,這四種食材多是假貨,聰明人從不入手

      逛菜市場別再亂買了,這四種食材多是假貨,聰明人從不入手

      復轉這些年
      2026-05-12 23:38:40
      大S女兒賬號爭議引發關注,汪小菲緊急回應

      大S女兒賬號爭議引發關注,汪小菲緊急回應

      何嗀愛捕漁
      2026-05-11 20:23:59
      浙江衢州一酒吧護士節活動海報被指低俗,酒吧回應:系AI生成;市場監管局工作人員:正向相關科室進行反饋

      浙江衢州一酒吧護士節活動海報被指低俗,酒吧回應:系AI生成;市場監管局工作人員:正向相關科室進行反饋

      瀟湘晨報
      2026-05-12 16:21:14
      成都“牽手門”事件女主現今狀況曝光,太慘了......

      成都“牽手門”事件女主現今狀況曝光,太慘了......

      許三歲
      2026-03-17 07:34:05
      轟24+11又造七紀錄!誰還言哈登不能打硬仗?美記:或許又要搶七

      轟24+11又造七紀錄!誰還言哈登不能打硬仗?美記:或許又要搶七

      顏小白的籃球夢
      2026-05-12 11:07:02
      湖南男子打110問搶劫判幾年,稱“想進監獄靜一靜”,接警員開啟疏導模式,民警上門勸導,最終放棄極端念頭

      湖南男子打110問搶劫判幾年,稱“想進監獄靜一靜”,接警員開啟疏導模式,民警上門勸導,最終放棄極端念頭

      極目新聞
      2026-05-12 19:04:32
      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      深度報
      2026-05-10 22:38:11
      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      消費者稱廁所漏水在啄木鳥平臺上申請維修,因不同意維修方案,拒修后被收500元檢測費

      山西經濟日報
      2026-05-12 15:19:36
      美國海軍陸戰隊中將:中國實力不是接近美國,而是已經和美國對等

      美國海軍陸戰隊中將:中國實力不是接近美國,而是已經和美國對等

      觀銳器
      2026-05-11 12:48:42
      遲到清算!江蘇原教育廳長沈健落馬,主導480分高考曾毀多少天才

      遲到清算!江蘇原教育廳長沈健落馬,主導480分高考曾毀多少天才

      音樂時光的娛樂
      2026-05-13 00:11:59
      媒體人:麥基、斯佩爾曼兩位大爺態度讓人無語,幸虧其他球員爭氣

      媒體人:麥基、斯佩爾曼兩位大爺態度讓人無語,幸虧其他球員爭氣

      懂球帝
      2026-05-12 23:09:04
      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      廣東5人合同到期!杜潤旺+2小將或留隊,王少杰租借到期買斷嗎?

      籃球資訊達人
      2026-05-13 01:31:06
      無錫一知名醫院,又關門了?

      無錫一知名醫院,又關門了?

      無錫eTV全媒體
      2026-05-12 12:26:22
      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      1979年打越南,高層其實吵翻了天?葉劍英粟裕為何反對出兵?

      莫地方
      2026-05-13 01:20:03
      三年退款2700次!一哥們把「僅退款」當班上,把自己上進了局子

      三年退款2700次!一哥們把「僅退款」當班上,把自己上進了局子

      雷科技
      2026-05-12 22:06:26
      2026-05-13 04:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12979文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      旅游
      本地
      藝術
      公開課

      家居要聞

      極簡主義下的居住場域與空間

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      震驚!他竟用鏡頭看透了所有女人的秘密!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品中文字幕视频| 国产AV大全| 亚洲成年网站| 多毛丰满日本熟妇| 亚洲香蕉| 熟女熟妇伦av网站| 日本一区二区三区免费播放视频站| 亚洲精品18| 国产精品交换| 2020亚洲欧美日韩在线观看 | 亚洲欧美在线综合一区二区三区| av无码天一区二区一三区| 2021自拍偷在线精品自拍偷| 成人伊人精品色xxxx视频| 日韩蜜桃AV无码中文字幕不卡高清一区二区 | 久久中文字幕网站篠田优| 国产熟女AAV久久| www.XXXX国产精品| 两性午夜刺激性视频| 伊人福利| 精品国产综合成人亚洲区| 亚洲熟妇av综合网| 国产在线无码不卡播放| 日韩欧美综合在线| 精品熟女碰碰人人a久久| 波多野结衣无内裤护士| 亚洲精品97久久中文| 国产传媒| 亚洲国产一区在线播放| 免费日韩在线视频| 国产精品成人免费一区久久羞羞| 国产精品高潮露脸在线观看| 日韩精品亚洲专区在线影视| 亚洲国产第一站精品蜜芽| 在线中文字幕国产精品| 日韩成人A级毛片| 麻豆国产97在线 | 欧洲| 日日摸夜夜添夜夜添人人爽| 久久久久免费看成人影片 | 青青草国产成人99久久| 男女猛烈激情XX00免费视频|