<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      AI讀不懂文檔結構?計算所重構Agentic RAG文檔推理能力

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】DeepRead讓AI像人一樣閱讀文檔:利用OCR識別章節結構,先精準定位相關段落,再完整讀取上下文,避免碎片化檢索。實驗顯示,其長文檔問答準確率提升17%,能自動跳過冗余信息,精準提取財報、論文等復雜內容,無需額外知識圖譜,輕量高效。

      大語言模型的工具使用能力正推動RAG從靜態的一次性檢索,向自主、多輪的證據獲取進化,Agentic RAG已成為解決復雜問答任務的核心方向。

      但現有主流Agentic Search框架普遍存在一個關鍵痛點——結構盲:它們將長文檔視為無差別的扁平文本塊,忽略了文檔原生的層級組織(如章節、段落)和順序邏輯,導致檢索碎片化、證據遺漏、冗余操作等問題頻發。

      比如說,人類查詢「ACL論文投稿要求」時,會先翻閱目錄找到「投稿指南」章節,再逐段精讀關鍵信息。

      但傳統Agentic Search(如Search-o1)卻只能通過不斷給出新的query反復檢索,可能遺漏「頁碼限制」「格式要求」等未被關鍵詞覆蓋的內容,還會重復獲取已瀏覽過的片段。


      這種「結構盲」帶來三大問題:

      1. 證據碎片化:將文檔拆分為固定大小的文本塊,破壞語義連貫性,迫使智能體拼接零散片段;

      2. 檢索冗余:缺乏全局結構認知,反復檢索同類信息,浪費計算資源;

      3. 信息遺漏:依賴關鍵詞匹配,無法捕獲章節內隱含的相關信息。

      而現代OCR技術已能精準提取文檔的層級結構和閱讀順序,這為解決「結構盲」提供了基礎——讓智能體學會利用這些原生結構,而非忽視它們。

      中國科學院計算技術研究所團隊提出的DeepRead,核心創新是將文檔結構轉化為智能體可理解、可操作的坐標系統,通過兩大工具協同實現類人推理,整體框架參考下圖。


      論文:https://arxiv.org/abs/2602.05014

      代碼:https://github.com/Zhanli-Li/DeepRead


      文檔結構建模:給每個段落分配「坐標」

      DeepRead首先通過OCR工具將原始文檔轉化為結構化Markdown格式,構建雙維度結構模型:

      • 層級維度:區分標題(如章節)和內容段落,記錄標題的父子關系(如「2.方法」包含「2.1模型設計」);

      • 順序維度:給每個段落分配唯一坐標(doc_id, sec_id, para_idx),即「文檔ID-章節ID-段落索引」,讓每個文本片段都有明確的位置標識。

      同時,DeepRead會將輕量化的目錄(TOC)注入系統提示,讓智能體掌握全局結構,無需加載全量文檔內容,平衡上下文開銷與結構感知能力。

      兩大核心工具:Retrieve與ReadSection的協同

      DeepRead為智能體配備兩個互補工具,模擬人類「快速定位+深度閱讀」的行為:

      • Retrieve(掃描式定位):接收語義查詢,返回Top-K相關段落及其坐標,同時支持「掃描窗口」(在召回的段落加上前后各1段),模擬人類快速瀏覽上下文的行為;

      • ReadSection(聚焦式閱讀):接收坐標范圍(如doc_id=1, sec_id=3, start_para=0, end_para=5),返回該范圍內的連續、保序段落,重構完整語義上下文,徹底解決碎片化問題。

      兩者形成閉環:Retrieve負責「找方向」,快速鎖定相關章節;ReadSection負責「深挖掘」,獲取完整證據,避免關鍵詞檢索的局限性。

      涌現行為:自主學會「定位再閱讀」

      無需手動編碼規則或是特定指令,DeepRead可自主進化出類人推理策略:先通過Retrieve獲取結構錨點,再調用ReadSection精讀相關章節。實驗顯示,90%以上的查詢會遵循這一范式,且工具調用比例會自適應任務特性——ContextBench(長文檔推理)更依賴ReadSection,FinanceBench(金融數據提取)更依賴Retrieve。


      實驗結果

      跨場景的顯著提升

      研究人員在四大基準數據集(涵蓋單文檔/合成多文檔數據集)上驗證了DeepRead的效果,核心結果參考下表


      關鍵亮點包括:

      1. 長文檔推理突破:在需長距離依賴的ContextBench上,DeepRead準確率從74.5%提升至91.5%,提升幅度達17.0%,驗證了結構感知對長文檔的價值;

      2. 多文檔融合優勢:在基于QASPER(學術論文問答)和SyllabusQA(課程大綱對比)合成的多文檔數據集上表現優越,分別提升7.7%和13.8%,證明結構感知能有效跨文檔整合證據;

      3. 魯棒性驗證:通過DeepSeek-V3.2、GLM-4.7、Qwen3-235B三大獨立法官評估,結果一致率達88.58%,確保提升并非偶然。


      值得注意的是,DeepRead的優勢并非來自「更多的檢索片段」——即使Search-o1允許檢索更多文本塊,仍無法彌補結構缺失的差距;而盲目擴展上下文(expand)可能會降低DeepRead在部分任務上的性能,因為結構化閱讀已能提供足夠連貫的證據,冗余文本只會引入噪聲。

      案例直觀感受:從「關鍵詞拼湊」到「章節精讀」

      以FinanceBench中的亞馬遜營收計算任務為例:

      • 傳統Search-o1風格的Agentic Search需反復檢索「2016營收」「2017凈銷售額」等關鍵詞,可能混淆「預估數據」與「實際財報數據」;

      • DeepRead則先通過Retrieve定位到「合并利潤表」章節,再用ReadSection讀取完整表格,精準提取2016年135987百萬美元、2017年177866百萬美元的凈銷售額,計算出30.8%的同比增長率。


      總結

      DeepRead的核心價值在于:挖掘文檔原生結構先驗,用輕量坐標系統和協同工具,實現了Agentic RAG的結構感知升級。

      相比構建復雜知識圖譜的方案,DeepRead無需額外結構化成本,僅通過OCR解析和工具設計,就在長文檔、多文檔任務上實現顯著提升,兼具實用性和效率。

      參考資料:

      https://arxiv.org/abs/2602.05014

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我發現,80%的家務是無意義的

      我發現,80%的家務是無意義的

      十點讀書
      2026-05-11 18:57:41
      黃一鳴攤上事了,閨蜜曝孩子生父猛料,難怪王思聰不認孩子太離譜

      黃一鳴攤上事了,閨蜜曝孩子生父猛料,難怪王思聰不認孩子太離譜

      青梅侃史啊
      2026-05-12 07:16:18
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      4.5億歐元!拉莫斯將收購塞維利亞:變身老板 只差最后一步

      4.5億歐元!拉莫斯將收購塞維利亞:變身老板 只差最后一步

      葉青足球世界
      2026-05-12 20:26:01
      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      舍棄中國國籍加入日本隊,助日乒逆襲上位,如今成為國乒頭號威脅

      云舟史策
      2026-05-12 07:26:48
      天壇公園:5月13日至14日暫停開放

      天壇公園:5月13日至14日暫停開放

      南方都市報
      2026-05-12 12:01:58
      23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

      23歲男子自帶挖掘機為社區修路墜崖身亡 家屬與社區就“工亡”認定未達一致 律師解讀分歧

      封面新聞
      2026-05-12 20:32:02
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財經Pro
      2026-05-12 14:04:28
      宇樹發布GD01載人變形機甲 定價390萬元起

      宇樹發布GD01載人變形機甲 定價390萬元起

      財聯社
      2026-05-12 12:27:07
      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      上海地鐵打人爆火!兩老人施暴女孩,官方怒批倚老賣老,追責難逃

      奇思妙想草葉君
      2026-05-12 02:14:56
      “星寶”突發癲癇去世,年僅17歲,去世前一天還如常收拾家務

      “星寶”突發癲癇去世,年僅17歲,去世前一天還如常收拾家務

      極目新聞
      2026-05-12 10:36:34
      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      突發!韓國股市閃崩,瞬間暴跌超500點!SK海力士、三星電子跳水

      每日經濟新聞
      2026-05-12 17:45:51
      廣東明后天雨勢較強 珠三角等局地有大暴雨或特大暴雨并伴強對流

      廣東明后天雨勢較強 珠三角等局地有大暴雨或特大暴雨并伴強對流

      北青網-北京青年報
      2026-05-12 15:54:02
      出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

      出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

      黑鷹觀軍事
      2026-05-11 16:30:09
      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      哈佛博士:大幅提高人類壽命的真正原因,所有人都沒想到!

      深度報
      2026-05-10 22:38:11
      忍無可忍,烏克蘭與川普徹底攤牌,20國爭相與烏展開合作

      忍無可忍,烏克蘭與川普徹底攤牌,20國爭相與烏展開合作

      史政先鋒
      2026-05-12 14:44:10
      5月12日俄烏最新:盧比奧指責澤連斯基撒謊

      5月12日俄烏最新:盧比奧指責澤連斯基撒謊

      西樓飲月
      2026-05-12 18:44:18
      吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

      吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

      芹姐說生活
      2026-05-12 16:25:54
      張本智和回應驚天逆轉:決勝局領先被翻盤,不是崩盤是成長的代價

      張本智和回應驚天逆轉:決勝局領先被翻盤,不是崩盤是成長的代價

      洲洲影視娛評
      2026-05-11 23:13:35
      2026年最強反腐已來了 , 中紀委:害群之馬將清除到底!

      2026年最強反腐已來了 , 中紀委:害群之馬將清除到底!

      細說職場
      2026-05-11 18:50:29
      2026-05-12 20:55:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15194文章數 66863關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      健康
      時尚
      房產
      公開課
      軍事航空

      干細胞能讓人“返老還童”嗎

      穿極簡風的夏天,是真高級!

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区精品无码| 亚洲精品乱码久久久久久中文字幕| 九九热免费在线视频观看| 亚洲精品一区二三区不卡| 一本aⅴ高清一区二区三区| 国产99在线 | 中文| 毛片在线看免费| 国产成人精品日本亚洲专区| www欧美在线观看| 国产午夜精品久久久久99| 福利一区二区不卡国产| 色吊丝av中文字幕| 最新国产亚洲人成无码网站| 国产+高潮+白浆+无码| 日本毛茸茸的丰满熟妇| 久久无码中文字幕东京热| 麻豆精品新a v视频中文字幕 | 182tv国产片成人免费观看| 天美麻花果冻视频大全英文版| 亚洲精品久久片久久久久| 亚欧色一区w666天堂| 国产三级精品三级| 91精品国产综合久久久蜜臀678| 人妻在线资源| 三上悠亚网站在线观看一区二区| 2024av在线无码中文最新| 日韩av激情在线| 亚洲人成无码网站久久99热国产 | 久久久久国产a免费观看rela| 亚洲综合无码一区二区| 亚洲成av人不卡无码影片| 日本亚洲一区二区精品久久| 69精品无码一区二区| 香蕉免费一区二区三区| 亚洲高清无码视频网站在线| 精品午夜久久福利大片| 手机看片日韩| 欧美黑人又粗又大久久久| 亚洲AV日韩专区在线观看| 一本色道久久综合狠狠躁篇| 国产日韩精品中文字无码|