<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Doc-V*:讀100頁文檔不如只翻對5頁,80頁場景「暴打」RAG 10個點

      0
      分享至



      本項目主要貢獻者包括鄭元雷(華中科技大學 VLRLab)、付培(小米大模型 Plus),通訊作者為羅振波(小米大模型 Plus)、陳偉(華中科技大學 VLRLab)

      在多頁文檔理解任務中,一個被廣泛接受但很少被質疑的假設是:要理解一篇長文檔,模型就應該盡可能多地「看」。

      但如果換個角度想:人類閱讀一份幾十頁的報告時,真的會逐頁從頭看到尾嗎?顯然不會。我們會先翻目錄、掃標題,找到可能相關的部分,然后才精讀。真正值得追問的問題是:為什么現有的文檔理解模型,不能也這樣做?

      這正是 Doc-V* 想要回答的問題。

      Doc-V* 由小米大模型 Plus 團隊和華中科技大學 VLRLab 團隊合作提出,一種從「靜態閱讀」到「主動探索」的多頁文檔理解新范式,通過交互式視覺推理讓模型像人一樣有策略地閱讀長文檔。

      從結果上看,這條思路確實帶來了實際收益:在統一使用 Qwen2.5-VL 7B 作為 backbone 的設定下,Doc-V* 相比 RAG 變體在多個多頁文檔問答基準上取得了 49.7% 的提升,且不依賴更大的模型或更長的上下文窗口。

      這說明,與其給模型塞更多頁面,不如讓模型學會「在合適的時機獲取合適的頁面」。



      • 論文鏈接:https://arxiv.org/abs/2604.13731v1

      重新審視「看全部頁面」:靜態輸入范式的根本矛盾

      現有方法在處理長文檔時,面臨一個根深蒂固的矛盾。

      一類方法嘗試將所有頁面一次性輸入模型,以保證信息完整,但隨著文檔長度增加,計算成本迅速上升,同時模型容易受到「中間信息遺忘」等問題影響。

      另一類方法則依賴檢索策略,僅選擇部分頁面作為輸入,雖然在效率上有所改善,但其性能高度依賴檢索結果 —— 一旦關鍵頁面未被召回,后續推理便難以修正。

      從根本上看,這兩類方法都采用了一種「靜態輸入」范式:在推理開始前就固定輸入內容,而缺乏在推理過程中動態調整信息獲取策略的能力。

      這種方式與人類處理長文檔的習慣存在明顯差異,也限制了模型在復雜多跳推理場景中的表現。

      Doc-V* 的方法設計:從「靜態閱讀」到「主動探索」

      Doc-V* 的核心思路可以用一句話概括:不要一次性把所有內容塞給模型,而是讓模型自己決定看什么、什么時候看。

      第一步是構建 Global Thumbnail Overview。在輸入階段,Doc-V* 并不會直接處理所有高分辨率頁面,而是首先將每一頁壓縮為低分辨率縮略圖,并按照網格形式排列。這使模型能夠在較低成本下觀察文檔的整體結構,例如章節分布、圖表位置以及高層語義區域。

      這種設計的關鍵在于,它并不試圖提供精細內容,而是提供一種結構性導航信號,幫助模型在后續步驟中更有針對性地選擇頁面。



      圖 1:Pipeline 示意,初始輸入為 Question+Document Thumbnail。模型先獲得文檔的全局縮略圖視角,再有針對性調用工具對文檔作深入的探索。

      第二步是兩種交互式操作。在獲得初步結構信息后,模型可以通過兩類操作與文檔進行交互:

      • :全局語義檢索(粗粒度探索)



      • :精確頁面獲取(細粒度證據定位 ?)



      基于結構線索的直接定位:從 thumbnail 中看到某幾頁包含表格 / 圖表 / 標題,直接跳轉這些頁面進行精細分析;

      ② 鄰接信息補全:表格跨頁、圖文分離、上下文延續,自動獲取「前一頁 / 后一頁」補全語義;

      ③ 顯式頁碼問題的精確響應:如:「第 3 頁的表格中有多少個方法」?

      這兩種操作在功能上形成互補:前者用于覆蓋潛在的相關區域,從全局范圍內召回可能有用的頁面;后者則更偏向于精細化定位,例如圍繞某一已知頁面獲取其上下相鄰頁,或依據問題描述以及縮略圖中的結構線索,直接定位到具體的證據頁面。



      圖 2:Doc-V * 的數據構造以及訓練方式

      第三步是 SFT+GRPO 兩階段訓練策略。在訓練階段,Doc-V* 采用了 SFT+GRPO 兩階段策略,使模型學會何時調用哪種操作、如何基于已有證據進行判斷。

      實驗結果

      實驗結果首先驗證了 Doc-V* 在標準多頁文檔問答任務上的有效性。

      從主表結果可以看出,在統一 backbone(Qwen2.5-VL 7B)設置下,Doc-V* 相比基礎模型以及其 RAG 變體均取得了穩定提升。RAG Top-5 相比原始模型在各數據集上已有一定增益,說明基于檢索的頁面篩選確實能夠在一定程度上緩解長文檔中的噪聲問題。

      然而,這種提升仍然受限于「靜態檢索」范式 —— 模型只能基于一次性召回的頁面完成推理,一旦關鍵證據未被包含在 Top-K 中,后續過程缺乏糾錯能力。



      圖 3:Doc-V * 在各個文檔問答 Benchmark 上的結果對比。*

      這說明,動態的證據獲取機制確實能夠彌補靜態檢索的固有缺陷,讓模型在推理過程中持續修正自身判斷。

      進一步分析不同方法在「輸入頁面數量 — 性能」之間的關系,可以觀察到一個值得關注的現象:對于基于 RAG 的方法,隨著輸入頁面數量的增加,性能通常呈現出「先提升、后下降」的趨勢。

      初始階段,增加頁面數量能夠提高召回率,使模型更有可能接觸到正確證據,因此性能有所提升;但當輸入頁面繼續增加時,大量無關或弱相關信息被引入,反而會干擾模型的注意力分配,使有效信號被稀釋,最終導致性能下降。



      圖 4:不同方法在「輸入頁面數量 — 性能」關系上的對比。RAG 方法存在明顯的性能拐點,隨著 K 的增加,性能先升后降,并趨于輸入所有頁面的性能,而 Doc-V * 則不受 K 的影響。

      這一現象在多個數據集(如 SlideVQA、LongDocURL、MMLongBench-Doc)上均有體現,說明其并非特定任務或模型的個例,而是檢索式方法在長上下文場景中的普遍特征。

      換言之,RAG 方法在「信息覆蓋」與「信息干擾」之間存在一個敏感的平衡點,其性能高度依賴于 Top-K 的選擇。

      相比之下,Doc-V* 并未表現出類似的明顯退化趨勢。這主要是因為其輸入并非一次性確定,而是在推理過程中逐步擴展:模型只在需要時引入新的頁面,并結合已有證據進行判斷,從而避免了無關信息的過度積累。



      圖 5:不同方法在 MMLongBench-Doc 數據集上的不同文檔長度的表現對比。

      除此之外,本文還對不同方法在不同文檔長度上的表現進行了分析。隨著文檔整體長度增加,無論是 RAG 還是 All Pages 方法,其性能均呈現出整體下降趨勢。

      這進一步說明,面對越來越長的文檔,「給更多內容」并不能解決問題,真正需要的是一種更智能的信息獲取策略。

      「信息獲取 ≠ 信息堆疊」,當無關信息占據上下文時,模型反而更容易被「視覺上顯眼但無關」的頁面誤導,忽略真正關鍵的證據頁。



      圖 6:不同方法具體推理過程。

      真正需要的是「策略驅動的信息獲取」,Doc-V* 在其中做了一件關鍵的事情 —— 不是盲目讀取內容,而是「先判斷去哪里看」。

      具體表現為一個非常接近人類的過程:先看縮略圖(判斷哪些頁面「看起來可能有用」)→ 直接跳轉到最可能包含答案的頁面 → 基于最小但最相關的信息完成答案。

      這背后其實是一個核心的轉變:從「被動接收信息」→「主動決策信息獲取路徑」,從全局搜索 → 局部確認 → 逐步逼近答案,這正是人類閱讀長文檔時的真實行為。

      從更大的視角看:文檔理解的下一步

      整體來看,Doc-V* 提供了一種不同于傳統方法的視角:將多頁文檔理解問題從「靜態建模」轉化為「動態證據獲取與整合」的過程。

      通過引入縮略圖導航、交互式操作以及工作記憶機制,模型能夠在推理過程中不斷修正自身判斷,從而更有效地處理長文檔中的復雜信息關系。

      這種方法并不依賴于更大的模型或更長的上下文,而是通過更合理的信息使用方式,提高推理效率與結果可靠性。

      對文檔理解來說,真正重要的,也許從來不是「一次性看完所有內容」,而是能不能像人一樣,在閱讀過程中不斷調整策略、主動尋找證據、逐步逼近答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      盧比奧來不了中國了?不是中國不讓他進,是他根本不配進!

      盧比奧來不了中國了?不是中國不讓他進,是他根本不配進!

      生活魔術專家
      2026-05-12 03:19:26
      空腹抽血,喝水算不算破壞?很多人意外!檢驗科醫生權威解答

      空腹抽血,喝水算不算破壞?很多人意外!檢驗科醫生權威解答

      環球網資訊
      2026-05-06 13:46:09
      一把手變副職!麗水學院李俊杰書記,已回歸浙工大任副書記

      一把手變副職!麗水學院李俊杰書記,已回歸浙工大任副書記

      百家論大學
      2026-05-12 07:15:03
      1938年,王耀武發現日軍身材矮小,想出一條妙計,一夜全殲日軍

      1938年,王耀武發現日軍身材矮小,想出一條妙計,一夜全殲日軍

      飯小妹說歷史
      2026-05-06 09:28:08
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      CCTV5+直播,成都差1場鎖定半程冠軍 韋世豪恩怨局 津門虎當練兵

      CCTV5+直播,成都差1場鎖定半程冠軍 韋世豪恩怨局 津門虎當練兵

      替補席看球
      2026-05-12 11:13:21
      上海落戶人口新變化來了....

      上海落戶人口新變化來了....

      新浪財經
      2026-05-12 00:17:40
      中方不接待日本政客,高市換招數了,日本考察團將抵華,維持關系

      中方不接待日本政客,高市換招數了,日本考察團將抵華,維持關系

      南宗歷史
      2026-05-12 17:29:14
      向余望,你還真踢不了中超

      向余望,你還真踢不了中超

      中場陰謀家
      2026-05-11 21:51:51
      可以湊一套首發,世體:巴薩近11人有機會進西班牙世界杯名單

      可以湊一套首發,世體:巴薩近11人有機會進西班牙世界杯名單

      懂球帝
      2026-05-12 15:21:09
      剛提走中國造最強潛艇,巴鐵轉身就讓外軍登艦參觀!到底圖個啥?

      剛提走中國造最強潛艇,巴鐵轉身就讓外軍登艦參觀!到底圖個啥?

      萬國明信片
      2026-05-12 08:04:25
      打傘防“蟲雨”?鄭州公園出現密密麻麻青蟲 專家:取食樹葉,無毒也不咬人

      打傘防“蟲雨”?鄭州公園出現密密麻麻青蟲 專家:取食樹葉,無毒也不咬人

      封面新聞
      2026-05-12 17:32:15
      重磅:匈牙利停止濫用歐盟否決權!烏克蘭6月開啟入盟談判

      重磅:匈牙利停止濫用歐盟否決權!烏克蘭6月開啟入盟談判

      項鵬飛
      2026-05-12 18:16:29
      76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

      76人更衣室徹底亂了!恩比德帶頭,球員集體倒戈,毒瘤早該離隊

      你的籃球頻道
      2026-05-12 07:31:00
      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      功夫巨星新片慘敗,三天沒有票房統計,觀眾差評如潮

      影視高原說
      2026-05-10 13:09:18
      國內規模最大的資金外流渠道,并非地下錢莊,也不是虛擬貨幣

      國內規模最大的資金外流渠道,并非地下錢莊,也不是虛擬貨幣

      流蘇晚晴
      2026-05-06 20:24:48
      李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

      李賽鳳的亂倫,床縫摸出個用過的套,衣柜里還藏著個半裸的干兒子

      西樓知趣雜談
      2026-04-26 10:18:11
      蘋果AI眼鏡來了:40克重量,還能自動調視力

      蘋果AI眼鏡來了:40克重量,還能自動調視力

      時尚的弄潮
      2026-05-10 13:03:28
      Lisa這頭發掉光了,看來富豪的圈子也不好混

      Lisa這頭發掉光了,看來富豪的圈子也不好混

      西樓知趣雜談
      2026-05-11 21:50:42
      最新:烏克蘭空襲紅軍村方向指揮部!摧毀赫爾松俄軍關鍵據點

      最新:烏克蘭空襲紅軍村方向指揮部!摧毀赫爾松俄軍關鍵據點

      項鵬飛
      2026-05-11 20:05:05
      2026-05-12 20:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      媒體:斯塔默能否保住相位 現在已成英國政壇最大懸念

      頭條要聞

      媒體:斯塔默能否保住相位 現在已成英國政壇最大懸念

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      健康
      家居
      數碼
      手機
      公開課

      干細胞能讓人“返老還童”嗎

      家居要聞

      極簡主義下的居住場域與空間

      數碼要聞

      ATK推出A9 Mini大師版+中小手鼠標:PAW3955MASTER傳感器

      手機要聞

      華為暢享90 Pro Max率先開更鴻蒙HarmonyOS 6.1.0.120 SP8

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻少妇偷人精品一区| 影音先锋中文字幕人妻| 午夜福利大片| 女人与公拘交酡全过女免费 | 光棍天堂在线手机播放免费| 国产Av无码精品色午夜| 国产午夜福利精品片久久| 欧美伊人色综合久久天天| a级在线观看| 国产69精品久久久久91不卡| 国产在线自在拍91精品黑人| 人妻夜夜爽天天爽三区丁香花| 熟妇人妻久久精品一区| 在线观看人成视频免费| 牛牛AV| 日操人人91| a国产在线v的不卡视频| 久久久久久久久久久久久9999| 人妻?无码中出| 日韩丨亚洲丨制服丨痴汉 | 久久水蜜桃亚洲av无码精品麻豆| 女女互慰吃奶互揉免费视频| 国产亚洲精品久久久网站好莱| 2022最新国产在线不卡a| 国产精品系列无码专区| 熟妇自搞| 亚洲VA中文字幕无码久久| 潞西市| 老少配老妇老熟女中文普通话| av动态| 免费国产人成高清在线视频 | 国产综合久久久久久鬼色| 51妺嘿嘿午夜福利| 亚洲另类成人小说综合网| 国产精品毛片一区视频播| 日本三级电影网站| 亚洲欧洲日本综合aⅴ在线 | 日韩一级黄片| 天干天干天啪啪夜爽爽色| 精品久久久久久无码中文字幕| 夜夜爽夜夜叫夜夜高潮漏水|