網易首頁 > 網易號 > 正文申請入駐

Doc-V*：讀100頁文檔不如只翻對5頁，80頁場景「暴打」RAG 10個點

2026-04-29 18:16:19　來源: 機器之心Pro

河北舉報

分享至

本項目主要貢獻者包括鄭元雷（華中科技大學 VLRLab）、付培（小米大模型 Plus），通訊作者為羅振波（小米大模型 Plus）、陳偉（華中科技大學 VLRLab）

在多頁文檔理解任務中，一個被廣泛接受但很少被質疑的假設是：要理解一篇長文檔，模型就應該盡可能多地「看」。

但如果換個角度想：人類閱讀一份幾十頁的報告時，真的會逐頁從頭看到尾嗎？顯然不會。我們會先翻目錄、掃標題，找到可能相關的部分，然后才精讀。真正值得追問的問題是：為什么現有的文檔理解模型，不能也這樣做？

這正是 Doc-V* 想要回答的問題。

Doc-V* 由小米大模型 Plus 團隊和華中科技大學 VLRLab 團隊合作提出，一種從「靜態閱讀」到「主動探索」的多頁文檔理解新范式，通過交互式視覺推理讓模型像人一樣有策略地閱讀長文檔。

從結果上看，這條思路確實帶來了實際收益：在統一使用 Qwen2.5-VL 7B 作為 backbone 的設定下，Doc-V* 相比 RAG 變體在多個多頁文檔問答基準上取得了 49.7% 的提升，且不依賴更大的模型或更長的上下文窗口。

這說明，與其給模型塞更多頁面，不如讓模型學會「在合適的時機獲取合適的頁面」。

論文鏈接：https://arxiv.org/abs/2604.13731v1

重新審視「看全部頁面」：靜態輸入范式的根本矛盾

現有方法在處理長文檔時，面臨一個根深蒂固的矛盾。

一類方法嘗試將所有頁面一次性輸入模型，以保證信息完整，但隨著文檔長度增加，計算成本迅速上升，同時模型容易受到「中間信息遺忘」等問題影響。

另一類方法則依賴檢索策略，僅選擇部分頁面作為輸入，雖然在效率上有所改善，但其性能高度依賴檢索結果 —— 一旦關鍵頁面未被召回，后續推理便難以修正。

從根本上看，這兩類方法都采用了一種「靜態輸入」范式：在推理開始前就固定輸入內容，而缺乏在推理過程中動態調整信息獲取策略的能力。

這種方式與人類處理長文檔的習慣存在明顯差異，也限制了模型在復雜多跳推理場景中的表現。

Doc-V* 的方法設計：從「靜態閱讀」到「主動探索」

Doc-V* 的核心思路可以用一句話概括：不要一次性把所有內容塞給模型，而是讓模型自己決定看什么、什么時候看。

第一步是構建 Global Thumbnail Overview。在輸入階段，Doc-V* 并不會直接處理所有高分辨率頁面，而是首先將每一頁壓縮為低分辨率縮略圖，并按照網格形式排列。這使模型能夠在較低成本下觀察文檔的整體結構，例如章節分布、圖表位置以及高層語義區域。

這種設計的關鍵在于，它并不試圖提供精細內容，而是提供一種結構性導航信號，幫助模型在后續步驟中更有針對性地選擇頁面。

圖 1：Pipeline 示意，初始輸入為 Question+Document Thumbnail。模型先獲得文檔的全局縮略圖視角，再有針對性調用工具對文檔作深入的探索。

第二步是兩種交互式操作。在獲得初步結構信息后，模型可以通過兩類操作與文檔進行交互：

：全局語義檢索（粗粒度探索）

：精確頁面獲取（細粒度證據定位 ?）

基于結構線索的直接定位：從 thumbnail 中看到某幾頁包含表格 / 圖表 / 標題，直接跳轉這些頁面進行精細分析；

② 鄰接信息補全：表格跨頁、圖文分離、上下文延續，自動獲取「前一頁 / 后一頁」補全語義；

③ 顯式頁碼問題的精確響應：如：「第 3 頁的表格中有多少個方法」？

這兩種操作在功能上形成互補：前者用于覆蓋潛在的相關區域，從全局范圍內召回可能有用的頁面；后者則更偏向于精細化定位，例如圍繞某一已知頁面獲取其上下相鄰頁，或依據問題描述以及縮略圖中的結構線索，直接定位到具體的證據頁面。

圖 2：Doc-V * 的數據構造以及訓練方式

第三步是 SFT+GRPO 兩階段訓練策略。在訓練階段，Doc-V* 采用了 SFT+GRPO 兩階段策略，使模型學會何時調用哪種操作、如何基于已有證據進行判斷。

實驗結果

實驗結果首先驗證了 Doc-V* 在標準多頁文檔問答任務上的有效性。

從主表結果可以看出，在統一 backbone（Qwen2.5-VL 7B）設置下，Doc-V* 相比基礎模型以及其 RAG 變體均取得了穩定提升。RAG Top-5 相比原始模型在各數據集上已有一定增益，說明基于檢索的頁面篩選確實能夠在一定程度上緩解長文檔中的噪聲問題。

然而，這種提升仍然受限于「靜態檢索」范式 —— 模型只能基于一次性召回的頁面完成推理，一旦關鍵證據未被包含在 Top-K 中，后續過程缺乏糾錯能力。

圖 3：Doc-V * 在各個文檔問答 Benchmark 上的結果對比。*

這說明，動態的證據獲取機制確實能夠彌補靜態檢索的固有缺陷，讓模型在推理過程中持續修正自身判斷。

進一步分析不同方法在「輸入頁面數量 — 性能」之間的關系，可以觀察到一個值得關注的現象：對于基于 RAG 的方法，隨著輸入頁面數量的增加，性能通常呈現出「先提升、后下降」的趨勢。

初始階段，增加頁面數量能夠提高召回率，使模型更有可能接觸到正確證據，因此性能有所提升；但當輸入頁面繼續增加時，大量無關或弱相關信息被引入，反而會干擾模型的注意力分配，使有效信號被稀釋，最終導致性能下降。

圖 4：不同方法在「輸入頁面數量 — 性能」關系上的對比。RAG 方法存在明顯的性能拐點，隨著 K 的增加，性能先升后降，并趨于輸入所有頁面的性能，而 Doc-V * 則不受 K 的影響。

這一現象在多個數據集（如 SlideVQA、LongDocURL、MMLongBench-Doc）上均有體現，說明其并非特定任務或模型的個例，而是檢索式方法在長上下文場景中的普遍特征。

換言之，RAG 方法在「信息覆蓋」與「信息干擾」之間存在一個敏感的平衡點，其性能高度依賴于 Top-K 的選擇。

相比之下，Doc-V* 并未表現出類似的明顯退化趨勢。這主要是因為其輸入并非一次性確定，而是在推理過程中逐步擴展：模型只在需要時引入新的頁面，并結合已有證據進行判斷，從而避免了無關信息的過度積累。

圖 5：不同方法在 MMLongBench-Doc 數據集上的不同文檔長度的表現對比。

除此之外，本文還對不同方法在不同文檔長度上的表現進行了分析。隨著文檔整體長度增加，無論是 RAG 還是 All Pages 方法，其性能均呈現出整體下降趨勢。

這進一步說明，面對越來越長的文檔，「給更多內容」并不能解決問題，真正需要的是一種更智能的信息獲取策略。

「信息獲取 ≠ 信息堆疊」，當無關信息占據上下文時，模型反而更容易被「視覺上顯眼但無關」的頁面誤導，忽略真正關鍵的證據頁。

圖 6：不同方法具體推理過程。

真正需要的是「策略驅動的信息獲取」，Doc-V* 在其中做了一件關鍵的事情 —— 不是盲目讀取內容，而是「先判斷去哪里看」。

具體表現為一個非常接近人類的過程：先看縮略圖（判斷哪些頁面「看起來可能有用」）→ 直接跳轉到最可能包含答案的頁面 → 基于最小但最相關的信息完成答案。

這背后其實是一個核心的轉變：從「被動接收信息」→「主動決策信息獲取路徑」，從全局搜索 → 局部確認 → 逐步逼近答案，這正是人類閱讀長文檔時的真實行為。

從更大的視角看：文檔理解的下一步

整體來看，Doc-V* 提供了一種不同于傳統方法的視角：將多頁文檔理解問題從「靜態建模」轉化為「動態證據獲取與整合」的過程。

通過引入縮略圖導航、交互式操作以及工作記憶機制，模型能夠在推理過程中不斷修正自身判斷，從而更有效地處理長文檔中的復雜信息關系。

這種方法并不依賴于更大的模型或更長的上下文，而是通過更合理的信息使用方式，提高推理效率與結果可靠性。

對文檔理解來說，真正重要的，也許從來不是「一次性看完所有內容」，而是能不能像人一樣，在閱讀過程中不斷調整策略、主動尋找證據、逐步逼近答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

960萬人圍觀！Claude Code工程師談HTML“復興”：Agent時代，Markdown不夠用了

智東西 2026-05-12 12:41:12
6 跟貼 6
龍蝦退燒后，榮耀給它造了一個宇宙

量子位 2026-05-12 15:50:23
0 跟貼 0

Claude Code終于長出調度臺：一個屏幕盯住所有AI會話，無需多開

新智元 2026-05-12 12:35:45
0 跟貼 0

TTS也要真人感！首個字級內容、毫秒級停頓控制的語音合成系統

新智元 2026-05-12 19:36:35
0 跟貼 0
ChatGPT、豆包集體翻車：AI沒有價值觀，只有「求生欲」

雷科技 2026-05-11 21:18:29
406 跟貼 406

今天，Claude Code的智能體“監工屏”上線

智東西 2026-05-12 15:07:25
0 跟貼 0

沖刺3400億估值，翁荔親自出鏡，交出一款更像人的大模型

智東西 2026-05-12 15:33:00
0 跟貼 0
上海誕生"新幣王"5083萬元成交目前存世僅七枚

看看新聞Knews 2026-05-11 22:19:07
5410 跟貼 5410

車內自衛術，男子教女子遇襲后的應對策略，你往后躺啊

班子愛生活 2026-05-11 11:13:52
3 跟貼 3
合肥市區改善第一盤中海觀廬府重新定義好房子

樂居財經官方 2026-05-12 16:03:48
0 跟貼 0
被罵飯圈第一人！Top Barry回應這是褒義！

SwagFuck 2026-05-12 18:48:04
0 跟貼 0
上海旅遊包車推薦榜：遊客評價TOP2，港澳臺及華僑外賓首選

游多多旅游攻略 2026-05-12 17:18:23
0 跟貼 0
女子快速路上發現1米多大蛇爬行

荔枝新聞 2026-05-12 00:24:18
172 跟貼 172
“超級帥哥與頂級帥哥的區別，這種類型男神有點吃建模啊”

青桅 2026-05-10 23:50:14
16 跟貼 16
圍棋225課：山花笑顏，黑子先行策略解析

四號花店p 2026-05-12 12:16:32
0 跟貼 0
SM公司策略揭秘：后輩必修前輩作品，肥水不流外人田

今夜繁星墜落 2026-05-11 03:33:12
1 跟貼 1
工廠老板的新發明，表面看似網格，下秒立馬變成了餐桌！

橘子愛搞笑 2026-05-10 21:09:55
1 跟貼 1
主場拿下了，騎士確認4件事，哈登策略有效果，賽眼也找到了

體壇大辣椒 2026-05-12 15:51:07
1 跟貼 1
日韓股市集體高開，韓國綜指逼近8000點

每日經濟新聞 2026-05-12 08:18:57
6224 跟貼 6224
姚來英已任中國煙草總公司總經理

界面新聞 2026-05-12 11:12:28
4775 跟貼 4775
非洲美女真實現狀，每日都避免不了一頓毒打，這場景誰看了誰揪心

嗡嗡生活說 2026-05-12 10:09:56
0 跟貼 0
預測下一個像素還需要幾年？谷歌：五年夠了

機器之心Pro 2025-11-26 15:48:35
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112
絕殺！OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

新智元 2026-05-12 19:36:49
0 跟貼 0
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
299 跟貼 299
ICML 2026 | 大模型內部也會長出「情緒樹」，規模越大越懂人心

機器之心Pro 2026-05-12 12:53:18
0 跟貼 0
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
799 跟貼 799
廣州30年老牌百貨要撤場？記者實探現場，經營方回應

南方都市報 2026-05-12 17:08:24
6 跟貼 6
全網確診前額葉損傷 AI正在批量生產“空心人”

經濟觀察報 2026-05-11 13:36:09
38 跟貼 38
終于來了！DeepSeek灰度測試聊天記錄搜索功能，非常實用

雷科技 2026-05-12 18:37:44
9 跟貼 9
“澎湃采訪后，副縣長實地走訪發現問題嚴重，要求立即全面整改”｜5.56公里高標準農田溝渠的來回“折騰”

澎湃新聞 2026-05-11 22:02:31
300 跟貼 300
靜態體驗2026款騰勢Z9GT和第二代騰勢D9，除了閃充還有何亮點？

車途派 2026-05-11 11:35:36
7 跟貼 7
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
任天堂修BUG幾小時 YouTube APP鴿1年！Switch 2玩家：大可不必

快科技 2026-05-12 17:49:10
1 跟貼 1
天津一廣場“胸口碎大石”表演錘頭突然脫把飛出一孩童被砸，當地政府：小朋友沒什么大問題

觀威海 2026-05-11 21:50:11
1184 跟貼 1184
清華女碩士參與瑞文推理智力測驗100分僅得25分，這是什么情況？

之乎者也小魚兒 2026-05-11 12:18:35
3 跟貼 3
海軍新型末端防空反導系統現身，指揮屏滿屏馬賽克解讀來了！

環球網資訊 2026-05-12 14:31:32
0 跟貼 0
【RAG 的17種方法全集】切片優化 + 動態切片 + Query 處理 + 檢索進階！大模型rag

盧菁老師 2026-05-11 10:52:04
0 跟貼 0
DECS從源頭消除冗余思考，實現推理token減半且性能不降反升

機器之心Pro 2026-05-12 12:58:05
0 跟貼 0
清華女碩士智力測驗僅得25分，“我當場問醫生我是弱智嗎？”

聽心堂 2026-05-11 12:39:00
4 跟貼 4

機器之心Pro

專業的人工智能媒體

12976文章數 142648關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

數碼

手機

公開課

干細胞能讓人“返老還童”嗎

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

Doc-V*：讀100頁文檔不如只翻對5頁，80頁場景「暴打」RAG 10個點

宇樹發布載人變形機甲，定價390萬元起

媒體：斯塔默能否保住相位 現在已成英國政壇最大懸念

媒體：斯塔默能否保住相位 現在已成英國政壇最大懸念

總是掉鏈子的“倒霉蛋”，闖進了歐戰決賽

白鹿風波升級！掉粉20萬評論區淪陷

黃仁勛真是被白宮徹底封殺了

吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

態度原創

干細胞能讓人“返老還童”嗎

極簡主義下的居住場域與空間

ATK推出A9 Mini大師版+中小手鼠標：PAW3955MASTER傳感器

華為暢享90 Pro Max率先開更鴻蒙HarmonyOS 6.1.0.120 SP8

媒體：斯塔默能否保住相位現在已成英國政壇最大懸念

媒體：斯塔默能否保住相位現在已成英國政壇最大懸念

吉利銀河“TT”申報圖曝光電動尾翼+激光雷達