<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      CMU開源首份Agentic Search日志數據,把Agent拆開給你看

      0
      分享至



      在大模型驅動的 Agentic Search 日益常態化的背景下,真實環境中智能體 “如何發查詢、如何改寫、是否真正用上檢索信息” 一直缺乏系統刻畫與分析。

      CMU 團隊基于可重復檢索平臺 DeepResearchGym,從統一后端的半年真實流量中整理出 1400 萬余條搜索請求、約 400 萬個會話,在嚴格匿名化與清洗后,構建并于 Hugging Face 開源了首個 Agentic Search 行為日志數據集。

      在此基礎上,工作提出 “會話意圖(Declarative / Procedural / Reasoning)→軌跡動作(專化 / 泛化 / 探索 / 重復)→檢索信息采納率(CTAR)” 三層分析框架,利用 LLM 進行會話切分與標簽推斷,刻畫出智能體搜索中普遍存在的下鉆偏好、事實型任務中的重試循環,以及不同改寫模式對歷史檢索信息依賴程度的顯著差異。

      總體而言,該研究既為觀察與評估 Agentic Search 行為提供了首個大規模開源日志,也為后續在智能體訓練與系統設計中顯式建模 “會不會搜” 提供了可復現的數據基礎與可量化的行為信號。



      • 論文標題:Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests
      • 論文鏈接:https://arxiv.org/abs/2601.17617




      • Hugging Face 開源數據集:DeepResearchGym Agentic Search Logs
      • 數據集鏈接:https://huggingface.co/datasets/cx-cmu/deepresearchgym-agentic-search-logs

      01 從任務到行為:Agentic Search 的缺失一環

      近年來,大型語言模型驅動的 Agentic Search 與 Deep Research 逐漸成為信息獲取的重要形態,即系統不再只返回一頁文件結果,而是通過智能體自動發起多輪檢索、閱讀文檔、改寫問題,再生成綜合回答。

      與之相對應,已有研究提出了多種基準任務和評測框架,用于衡量系統在問答、推理、工具調用等方面的性能。然而,這些評測大多基于構造好的題目和離散樣本,缺乏對真實環境中智能體檢索行為的系統觀察與結構化分析:

      • 多輪會話在實際使用中如何展開;
      • 不同任務類型下,智能體采用哪些檢索策略;
      • 在多步改寫過程中,檢索證據信息在多大程度上真正影響了后續查詢。

      這篇 Agentic Search in the Wild: Intents and Trajectory Dynamics from 14M+ Real Search Requests 論文針對上述缺口,基于 DeepResearchGym(DRGym)平臺提出了兩方面貢獻:

      1. 從半年真實流量中整理出超過 1400 萬條 Agentic Search 請求、約 400 萬個搜索會話,在嚴格匿名化與清洗之后,發布為首個開源的 Agentic Search 行為日志數據集。

      2. 在此基礎上,從任務意圖(intent)與檢索軌跡(trajectory)兩個維度,系統分析智能體的搜索過程,并提出一個衡量 “是否利用檢索到信息” 的指標 CTAR(Context-driven Term Adoption Rate)。



      02 數據與平臺:DRGym 日志概況

      DRGym 是該團隊搭建的一個面向研究用途的可重復檢索平臺(https://www.deepresearchgym.ai/),對外提供統一的 /search API,后端基于密集檢索,掛載在固定的 Web 語料快照上,例如 ClueWeb22、FineWeb 等。不同智能體可以以任意策略調用該接口,但所有請求都運行在統一的檢索基礎設施之上。

      日志中的每條記錄包含如下信息:

      • 查詢文本 query_text;
      • 檢索文檔數量 num_of_docs(即 top-K);
      • 所用數據集 dataset(如 ClueWeb22 / FineWeb);
      • 檢索預算相關參數 complexity;
      • 時間戳、匿名化 IP 等會話識別字段。

      論文選取約半年時間窗口,得到來自橫跨 25 個國家,近 600 個 IP 地址,超過 1400 萬條請求日志,約 400 萬個會話(session)。

      這為驗證日志是否具有廣泛多元使用的多樣性,而非某些基準題目的重復回放訓練,作者從兩方面進行了檢查:

      • 使用文本向量表示(embedding)分析查詢語義分布,結果顯示查詢覆蓋的語義空間較為分散;
      • 將日志中的查詢與若干常用 Agentic Benchmark 的題目進行語義匹配,重合比例極低。





      隱私方面,日志經過了字段裁剪與匿名化處理:去除直接可識別信息,對自由文本進行 PII 清理,并重新生成會話級別的匿名 ID,最終在 Hugging Face 上公開。

      03 從請求到會話:Session 切分方法

      原始日志是時間順序的請求流,要分析行為模式,需要先劃分搜索會話。與傳統人類 Web 日志不同,智能體請求往往高頻且可并發,僅依賴固定時間閾值(例如 “間隔超過 30 分鐘”)容易誤分。

      該工作采用了語義 + 時間聯合的 Sessionization 策略:

      1. 首先,基于一批相鄰請求樣本,通過 LLM 標注 “是否屬于同一會話”,構建連續性標簽;

      2. 其次,使用查詢的向量表示訓練一個連續性判別模型,預測兩條查詢之間是否應歸為同一 session;

      3. 在線劃分時,對同一匿名 IP 下的新查詢,與當前所有活躍會話的末尾查詢計算連續性分數,在分數與時間差均滿足條件時并入對應會話,否則開啟新會話。

      這一策略最終得到約 400 萬個 session。整體分布上:

      • 單輪會話仍然占據一定比例,但相當多的會話包含多步查詢;
      • 大部分相鄰請求的時間間隔在數秒到十幾秒之內,體現出 agentic search 中 “高頻、小步迭代” 的特征。





      04 兩層視角:任務意圖與檢索軌跡

      在會話劃分的基礎上,論文從兩層視角刻畫 agentic search 過程:

      • 會話層面:Session Intent,即智能體在此次搜索中試圖完成的任務類型;
      • 逐步步驟軌跡層面:Trajectory Move,即相鄰兩條查詢之間的改寫動作類型。

      4.1 三類 Session Intent

      作者沿用經典的 Web Search 目標分類,對多輪會話進行三類劃分:

      1.Declarative:陳述型 / 事實與知識檢索

      • 典型問題包括 “是什么”“誰是”“列出……”。

      2.Procedural:過程型 / 操作與步驟檢索

      • 包括 “如何做”“如何修復”“完成某項任務的步驟” 等。

      3.Reasoning:推理型 / 分析與比較檢索

      • 包括 “為什么”“如何權衡”“多因素比較和規劃” 等。

      標注方式為,將一個 session 內全部查詢串聯,交由 LLM 進行意圖分類,并在樣本上用另一模型交叉驗證,標簽可靠性較高。

      統計結果表明,日志中以陳述型任務為主,其次是推理型任務,過程型任務比例相對較小。不同意圖下,會話長度與檢索配置表現出明顯差異,例如過程型任務更傾向一次性拉取更多文檔,而推理型任務的查詢文本往往更長、前后變化幅度更大。



      不通過目標分類下的Query 樣例

      4.2 四類 Trajectory Move

      在單個會話內部,相鄰兩條查詢之間的變化被劃分為四種改寫動作:

      1.Specialization(專化):增加約束,下鉆到更具體的條件或子范圍;

      2.Generalization(泛化):去除約束,將查詢放寬到更一般的描述;

      3.Exploration(探索):在同一主題下轉向新的側面或子問題,例如從 “定位” 轉向 “屬性信息”;

      4.Repetition(重復):語義基本不變的輕微改寫或直接重試,例如改寫語序、替換同義表達。

      類似的這些標簽基于 LLM 對查詢對的判別結果獲得,并結合向量相似度和檢索結果重疊進行驗證。整體來看,智能體呈現出明顯的 “下鉆偏好”(Drill-down Bias):專化與探索使用頻率較高,泛化相對稀少,而在許多事實型會話的后期,重復動作顯著增多,形成 “重試循環”。



      案例1:事實型會話的后期形成“重試循環”

      另一方面,智能體也表現出一定的“重置 - 再細化”(Reset-then-Refine)模式,如下圖可見,智能體先在一個寬泛主題上做專化(例如從 “拿破侖戰役” 收窄到 “1796 年意大利戰役”),隨后通過去掉這些約束做一次泛化(得到更短、更寬泛的查詢),再沿著另一個側面重新專化(切換到 “埃及遠征” 等新的細化方向)。

      從查詢長度的變化也能看出這一點,即專化通常會拉長查詢,而泛化則會縮短查詢。整體上,泛化在這里更像是一種輕量級回溯,用來在不同細化分支之間切換,而不是持續性地將查詢維持在寬泛層級。



      案例2:“重置-再細化”的步驟循環

      05 Agent 對于搜索到信息的具體利用:

      CTAR 指標

      在多輪檢索中,關鍵問題之一是:新的查詢在多大程度上受到了既有檢索信息的影響。由于日志中沒有點擊、停留時間等顯性交互信號,論文提出了一個簡單的間接度量:CTAR(Context-driven Term Adoption Rate)。

      計算方法概括如下:

      • 對相鄰查詢對 q_k → q_{k+1} 進行分詞與停用詞過濾;
      • 找出 q_{k+1} 中首次出現的 “新詞”;
      • 在上一步或累積至今的歷史檢索結果中檢查這些新詞是否以詞面形式出現;
      • CTAR 即為 “在上下文中出現的新詞占全部新詞的比例”。

      這個指標帶來的核心發現包括:

      1.整體 CTAR 超過一半

      大約一半以上的新詞可以在之前檢索到的文檔中找到。這表明,在相當多的步驟中,智能體并非完全憑空提出新的條件,而是從已有獲取信息中采納術語和約束。

      2.不同 Trajectory Move 的 CTAR 存在顯著差異

      專化和探索動作的 CTAR 明顯高于平均水平,說明這兩類改寫更依賴已有文檔信息;重復動作的 CTAR 則較低,通常對應表述上的微調或重試,而非基于新信息的策略調整。

      3.歷史上下文具有額外貢獻

      只看上一輪檢索結果時,CTAR 較低;將更早步驟的文檔一并納入后,CTAR 穩定提升,說明部分新詞來源于更早的檢索信息,智能體在一定程度上會 “回溯” 歷史上下文。





      需要強調的是,CTAR 僅刻畫 “新詞在檢索信息中的可追溯性”,并不直接等價于因果利用;但由于定義簡單且易于解釋,適合作為衡量 “是否參考檢索上下文” 的粗粒度指標。

      06 對 Agentic Search 系統設計的啟示

      基于上述行為分析與 CTAR 指標,論文在結尾討論了若干與系統設計直接相關的啟示:

      1.重復動作可視為潛在 “停滯信號”

      在大量陳述型會話中,隨著 Agent 步驟推進,重復改寫的占比明顯提高,其檢索結果高度重疊且 CTAR 較低。這種模式可以視為系統進入 “原地重試” 的信號。在工程上,可以基于重復率、結果重疊度和 CTAR 等聯合特征,檢測并中斷重試循環,強制觸發泛化或探索策略,或切換到更高配置的工具鏈。

      2.檢索預算應隨任務意圖與軌跡自適應調整

      日志表明,現有許多智能體將檢索深度 K 寫死為有限幾個固定值,在同一會話內幾乎不做調整。然而,不同意圖和軌跡狀態對檢索策略的需求顯然不同,即過程型任務更依賴一次性較寬的文檔覆蓋,推理型任務則往往更需要多輪細化與驗證。因此,更合理的設計是,先對會話意圖進行識別,再結合當前軌跡(如是否處于探索階段、是否陷入重試)動態調整 top-K、上下文長度與工具組合,而非采用全局統一配置。

      3.將 CTAR 等 “信息采納率” 指標納入系統監控

      CTAR 在不同改寫類型之間具有明顯區分度,在專化和探索步驟中,CTAR 高時往往對應基于檢索信息的實質推進,而重復步驟中 CTAR 較低則更可能反映策略停滯。

      因此,可以將 CTAR 一類指標納入系統的觀測與調度邏輯:當長時間觀測到 CTAR 偏低或在特定模式下急劇下降時,觸發算法層或工作流層面的干預與重規劃。

      07 結語:從第一份開源日志

      到 Agentic IR 的 “常識層” 認識

      整體來看,這篇工作完成了三件具有基礎設施意義的事情:

      1.提供首個開源的 Agentic Search 行為日志數據集

      基于 DRGym 平臺采集并清洗的 1400 萬 + 請求、約 400 萬會話,在經過匿名化處理后,在 Hugging Face 平臺公開,為后續研究提供了可復現的行為數據基礎。

      2.提出面向 Agentic Search 的 “意圖–軌跡–信息利用” 分析框架

      通過三類 Session Intent、四類 Trajectory Move 以及 CTAR 指標,從結構和內容兩個維度刻畫智能體搜索過程,為后續的行為建模、策略比較和訓練目標設計提供了分析工具。

      3.將若干經驗性觀察固化為可量化的設計建議

      具體包括,將重復改寫視作停滯信號、依據任務意圖與軌跡模式自適應檢索預算,以及通過檢索信息采納率監控智能體是否真正 “讀取并利用” 檢索結果。

      對于從事信息檢索與智能體系統研究的讀者,這份數據與框架為理解和改進 agentic search 提供了新的切入點;對于工程實踐者,則可以據此審視現有系統的行為模式,并據實引入新的監控和控制機制。

      作者簡介:

      本論文第一作者為卡內基梅隆大學計算機學院語言技術研究所碩士研究生 Jingjie Ning,研究方向聚焦信息檢索、DeepResearch、Query 理解與強化、推薦系統 Benchmark 等工作。Jingjie Ning 師從 Jamie Callan 教授及 Chenyan Xiong 教授。在卡內基梅隆大學前,Jingjie 曾在騰訊任職 Senior Data Scientist。個人主頁:https://ethanning.github.io



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      調整!5月15日晚央視直播CBA半決賽有變,北京首鋼連續客場太不利

      調整!5月15日晚央視直播CBA半決賽有變,北京首鋼連續客場太不利

      夢憶之淺
      2026-05-15 10:41:39
      現在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      現在不是美國敢不敢打中國的問題,而是中國讓不讓美國打的問題了

      華史談
      2026-05-15 08:49:03
      伊朗一聲令下,中國獲特殊優待,31萬噸巨輪沖出,印度油輪被搶走

      伊朗一聲令下,中國獲特殊優待,31萬噸巨輪沖出,印度油輪被搶走

      李健政觀察
      2026-05-15 11:46:57
      放棄阿爾瓦雷斯!巴薩鎖定 24 歲妖星,他就是萊萬完美接班人

      放棄阿爾瓦雷斯!巴薩鎖定 24 歲妖星,他就是萊萬完美接班人

      瀾歸序
      2026-05-15 06:40:49
      英偉達給黃仁勛兒女漲薪了!年薪百萬美元,“憑能力而不是身份”

      英偉達給黃仁勛兒女漲薪了!年薪百萬美元,“憑能力而不是身份”

      量子位
      2026-05-15 11:53:51
      讓中國孩子列隊通過符拉迪沃斯托克廣場,這個情況絕不正常!

      讓中國孩子列隊通過符拉迪沃斯托克廣場,這個情況絕不正常!

      阿龍聊軍事
      2026-05-09 19:08:47
      曼聯U18遭絕殺無緣青年足總杯!小梅西展望未來,7月將迎一隊首秀

      曼聯U18遭絕殺無緣青年足總杯!小梅西展望未來,7月將迎一隊首秀

      羅米的曼聯博客
      2026-05-15 12:08:28
      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      馬斯克為什么不四處合影,拉關系,結交人脈啊,菜真就那么好吃?

      老方
      2026-05-15 11:37:48
      “女海王”引來王思聰吃瓜,她同時交5個男友,全家幫其打掩護

      “女海王”引來王思聰吃瓜,她同時交5個男友,全家幫其打掩護

      漢史趣聞
      2026-03-21 14:52:07
      馬斯克再噴諾蘭新片:選她演海倫是為了拿獎

      馬斯克再噴諾蘭新片:選她演海倫是為了拿獎

      追星雷達站
      2026-05-14 07:03:09
      隊記:火箭不太可能頂薪續約阿門;申京合同被贊極有性價比

      隊記:火箭不太可能頂薪續約阿門;申京合同被贊極有性價比

      懂球帝
      2026-05-15 11:17:06
      鄭州醫學博士被18歲高中生殺害,警方調查后,發現跟女護士有關

      鄭州醫學博士被18歲高中生殺害,警方調查后,發現跟女護士有關

      結綠
      2025-05-09 14:29:39
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      故宮發狠了!這塊無事牌美到窒息!

      故宮發狠了!這塊無事牌美到窒息!

      英國報姐
      2026-05-14 13:10:04
      勇士隊主教練科爾原本準備退休,直到一場比賽改變了他的想法

      勇士隊主教練科爾原本準備退休,直到一場比賽改變了他的想法

      好火子
      2026-05-14 23:54:27
      魯比奧仰頭那一瞥,人民大會堂的天花板憑什么讓美國國務卿挪不開眼?

      魯比奧仰頭那一瞥,人民大會堂的天花板憑什么讓美國國務卿挪不開眼?

      愛下廚的阿釃
      2026-05-15 11:20:46
      時隔兩年,農業農村部再調整這一目標

      時隔兩年,農業農村部再調整這一目標

      北青網-北京青年報
      2026-05-15 10:40:03
      《給阿嬤的情書》爆火,帶飛史上“最寒酸”贊助商!網友:100杯奶茶成贊助,贏麻了!

      《給阿嬤的情書》爆火,帶飛史上“最寒酸”贊助商!網友:100杯奶茶成贊助,贏麻了!

      老張聊設計
      2026-05-15 09:41:33
      33歲博格巴無緣世界杯!法國只帶5名中場,卡馬文加落選原因揭曉

      33歲博格巴無緣世界杯!法國只帶5名中場,卡馬文加落選原因揭曉

      球場沒跑道
      2026-05-15 11:51:51
      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      快科技
      2026-05-12 16:13:29
      2026-05-15 12:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12999文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      頭條要聞

      歡迎宴會座位公開:馬斯克黃仁勛與中國企業家同桌吃飯

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      藝術
      家居
      教育
      手機
      公開課

      藝術要聞

      一個北大 “反卷教授” 的意外走紅

      家居要聞

      110㎡淡而有致的生活表達

      教育要聞

      在地球另一端,我成了這所小眾留學院校法學院的首位中國學生

      手機要聞

      紅魔11S Pro系列手機搭載8000mAh電池,自帶80W氮化鎵充電器

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久这里只有精品| 免费av在线网| 99ri在线精品视频| 国产成人夜色91| 国产高清在线| 国产欧美精品亚洲桃花岛 | 69精品人人人人| 超caopor在线公开视频| 亚洲夜色噜噜av在线观看 | av综合一区| 久久精品国产国产精| 202丰满熟女妇大| 97精品人人a片免费看| 中文字幕AV伊人AV无码AV狼人 | 中文字幕无码精品亚洲资源网久久| 99国产精品无码专区| 亚洲不卡电影| 不卡动漫av| 亚洲乱码av中文一区二区| 国产精品嫩草影院一二三区入口| 欧美在线视频a| 国产精品VA在线观看老妇女| 国产极品美女到高潮| 欧美群交射精内射颜射潮喷| 亚洲经典千人经典日产| 中文字幕在线最新在线不卡| 91久久天天躁狠狠躁夜夜| 乱子伦国产精品| 毛片a级毛片免费观看免下载| 欧美国产日本高清不卡| 久久人人97超碰国产精品| 日韩AV免费在线| 一本一本久久aa综合精品| 男女性爽大片视频| 日本一区二区在线播放| 99精品国产在热久久无毒| 中文字幕亚洲精品人妻| 影音先锋国产| 一本色道久久综合亚洲精品图片| 亚洲中文字幕成人无码| 人妻激情视频一区二区三区|