<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Doc-V*:讀100頁文檔不如只翻對5頁,80頁場景「暴打」RAG 10個點

      0
      分享至



      本項目主要貢獻(xiàn)者包括鄭元雷(華中科技大學(xué) VLRLab)、付培(小米大模型 Plus),通訊作者為羅振波(小米大模型 Plus)、陳偉(華中科技大學(xué) VLRLab)

      在多頁文檔理解任務(wù)中,一個被廣泛接受但很少被質(zhì)疑的假設(shè)是:要理解一篇長文檔,模型就應(yīng)該盡可能多地「看」。

      但如果換個角度想:人類閱讀一份幾十頁的報告時,真的會逐頁從頭看到尾嗎?顯然不會。我們會先翻目錄、掃標(biāo)題,找到可能相關(guān)的部分,然后才精讀。真正值得追問的問題是:為什么現(xiàn)有的文檔理解模型,不能也這樣做?

      這正是 Doc-V* 想要回答的問題。

      Doc-V* 由小米大模型 Plus 團隊和華中科技大學(xué) VLRLab 團隊合作提出,一種從「靜態(tài)閱讀」到「主動探索」的多頁文檔理解新范式,通過交互式視覺推理讓模型像人一樣有策略地閱讀長文檔。

      從結(jié)果上看,這條思路確實帶來了實際收益:在統(tǒng)一使用 Qwen2.5-VL 7B 作為 backbone 的設(shè)定下,Doc-V* 相比 RAG 變體在多個多頁文檔問答基準(zhǔn)上取得了 49.7% 的提升,且不依賴更大的模型或更長的上下文窗口。

      這說明,與其給模型塞更多頁面,不如讓模型學(xué)會「在合適的時機獲取合適的頁面」。



      • 論文鏈接:https://arxiv.org/abs/2604.13731v1

      重新審視「看全部頁面」:靜態(tài)輸入范式的根本矛盾

      現(xiàn)有方法在處理長文檔時,面臨一個根深蒂固的矛盾。

      一類方法嘗試將所有頁面一次性輸入模型,以保證信息完整,但隨著文檔長度增加,計算成本迅速上升,同時模型容易受到「中間信息遺忘」等問題影響。

      另一類方法則依賴檢索策略,僅選擇部分頁面作為輸入,雖然在效率上有所改善,但其性能高度依賴檢索結(jié)果 —— 一旦關(guān)鍵頁面未被召回,后續(xù)推理便難以修正。

      從根本上看,這兩類方法都采用了一種「靜態(tài)輸入」范式:在推理開始前就固定輸入內(nèi)容,而缺乏在推理過程中動態(tài)調(diào)整信息獲取策略的能力。

      這種方式與人類處理長文檔的習(xí)慣存在明顯差異,也限制了模型在復(fù)雜多跳推理場景中的表現(xiàn)。

      Doc-V* 的方法設(shè)計:從「靜態(tài)閱讀」到「主動探索」

      Doc-V* 的核心思路可以用一句話概括:不要一次性把所有內(nèi)容塞給模型,而是讓模型自己決定看什么、什么時候看。

      第一步是構(gòu)建 Global Thumbnail Overview。在輸入階段,Doc-V* 并不會直接處理所有高分辨率頁面,而是首先將每一頁壓縮為低分辨率縮略圖,并按照網(wǎng)格形式排列。這使模型能夠在較低成本下觀察文檔的整體結(jié)構(gòu),例如章節(jié)分布、圖表位置以及高層語義區(qū)域。

      這種設(shè)計的關(guān)鍵在于,它并不試圖提供精細(xì)內(nèi)容,而是提供一種結(jié)構(gòu)性導(dǎo)航信號,幫助模型在后續(xù)步驟中更有針對性地選擇頁面。



      圖 1:Pipeline 示意,初始輸入為 Question+Document Thumbnail。模型先獲得文檔的全局縮略圖視角,再有針對性調(diào)用工具對文檔作深入的探索。

      第二步是兩種交互式操作。在獲得初步結(jié)構(gòu)信息后,模型可以通過兩類操作與文檔進行交互:

      • :全局語義檢索(粗粒度探索)



      • :精確頁面獲取(細(xì)粒度證據(jù)定位 ?)



      基于結(jié)構(gòu)線索的直接定位:從 thumbnail 中看到某幾頁包含表格 / 圖表 / 標(biāo)題,直接跳轉(zhuǎn)這些頁面進行精細(xì)分析;

      ② 鄰接信息補全:表格跨頁、圖文分離、上下文延續(xù),自動獲取「前一頁 / 后一頁」補全語義;

      ③ 顯式頁碼問題的精確響應(yīng):如:「第 3 頁的表格中有多少個方法」?

      這兩種操作在功能上形成互補:前者用于覆蓋潛在的相關(guān)區(qū)域,從全局范圍內(nèi)召回可能有用的頁面;后者則更偏向于精細(xì)化定位,例如圍繞某一已知頁面獲取其上下相鄰頁,或依據(jù)問題描述以及縮略圖中的結(jié)構(gòu)線索,直接定位到具體的證據(jù)頁面。



      圖 2:Doc-V * 的數(shù)據(jù)構(gòu)造以及訓(xùn)練方式

      第三步是 SFT+GRPO 兩階段訓(xùn)練策略。在訓(xùn)練階段,Doc-V* 采用了 SFT+GRPO 兩階段策略,使模型學(xué)會何時調(diào)用哪種操作、如何基于已有證據(jù)進行判斷。

      實驗結(jié)果

      實驗結(jié)果首先驗證了 Doc-V* 在標(biāo)準(zhǔn)多頁文檔問答任務(wù)上的有效性。

      從主表結(jié)果可以看出,在統(tǒng)一 backbone(Qwen2.5-VL 7B)設(shè)置下,Doc-V* 相比基礎(chǔ)模型以及其 RAG 變體均取得了穩(wěn)定提升。RAG Top-5 相比原始模型在各數(shù)據(jù)集上已有一定增益,說明基于檢索的頁面篩選確實能夠在一定程度上緩解長文檔中的噪聲問題。

      然而,這種提升仍然受限于「靜態(tài)檢索」范式 —— 模型只能基于一次性召回的頁面完成推理,一旦關(guān)鍵證據(jù)未被包含在 Top-K 中,后續(xù)過程缺乏糾錯能力。



      圖 3:Doc-V * 在各個文檔問答 Benchmark 上的結(jié)果對比。*

      這說明,動態(tài)的證據(jù)獲取機制確實能夠彌補靜態(tài)檢索的固有缺陷,讓模型在推理過程中持續(xù)修正自身判斷。

      進一步分析不同方法在「輸入頁面數(shù)量 — 性能」之間的關(guān)系,可以觀察到一個值得關(guān)注的現(xiàn)象:對于基于 RAG 的方法,隨著輸入頁面數(shù)量的增加,性能通常呈現(xiàn)出「先提升、后下降」的趨勢。

      初始階段,增加頁面數(shù)量能夠提高召回率,使模型更有可能接觸到正確證據(jù),因此性能有所提升;但當(dāng)輸入頁面繼續(xù)增加時,大量無關(guān)或弱相關(guān)信息被引入,反而會干擾模型的注意力分配,使有效信號被稀釋,最終導(dǎo)致性能下降。



      圖 4:不同方法在「輸入頁面數(shù)量 — 性能」關(guān)系上的對比。RAG 方法存在明顯的性能拐點,隨著 K 的增加,性能先升后降,并趨于輸入所有頁面的性能,而 Doc-V * 則不受 K 的影響。

      這一現(xiàn)象在多個數(shù)據(jù)集(如 SlideVQA、LongDocURL、MMLongBench-Doc)上均有體現(xiàn),說明其并非特定任務(wù)或模型的個例,而是檢索式方法在長上下文場景中的普遍特征。

      換言之,RAG 方法在「信息覆蓋」與「信息干擾」之間存在一個敏感的平衡點,其性能高度依賴于 Top-K 的選擇。

      相比之下,Doc-V* 并未表現(xiàn)出類似的明顯退化趨勢。這主要是因為其輸入并非一次性確定,而是在推理過程中逐步擴展:模型只在需要時引入新的頁面,并結(jié)合已有證據(jù)進行判斷,從而避免了無關(guān)信息的過度積累。



      圖 5:不同方法在 MMLongBench-Doc 數(shù)據(jù)集上的不同文檔長度的表現(xiàn)對比。

      除此之外,本文還對不同方法在不同文檔長度上的表現(xiàn)進行了分析。隨著文檔整體長度增加,無論是 RAG 還是 All Pages 方法,其性能均呈現(xiàn)出整體下降趨勢。

      這進一步說明,面對越來越長的文檔,「給更多內(nèi)容」并不能解決問題,真正需要的是一種更智能的信息獲取策略。

      「信息獲取 ≠ 信息堆疊」,當(dāng)無關(guān)信息占據(jù)上下文時,模型反而更容易被「視覺上顯眼但無關(guān)」的頁面誤導(dǎo),忽略真正關(guān)鍵的證據(jù)頁。



      圖 6:不同方法具體推理過程。

      真正需要的是「策略驅(qū)動的信息獲取」,Doc-V* 在其中做了一件關(guān)鍵的事情 —— 不是盲目讀取內(nèi)容,而是「先判斷去哪里看」。

      具體表現(xiàn)為一個非常接近人類的過程:先看縮略圖(判斷哪些頁面「看起來可能有用」)→ 直接跳轉(zhuǎn)到最可能包含答案的頁面 → 基于最小但最相關(guān)的信息完成答案。

      這背后其實是一個核心的轉(zhuǎn)變:從「被動接收信息」→「主動決策信息獲取路徑」,從全局搜索 → 局部確認(rèn) → 逐步逼近答案,這正是人類閱讀長文檔時的真實行為。

      從更大的視角看:文檔理解的下一步

      整體來看,Doc-V* 提供了一種不同于傳統(tǒng)方法的視角:將多頁文檔理解問題從「靜態(tài)建模」轉(zhuǎn)化為「動態(tài)證據(jù)獲取與整合」的過程。

      通過引入縮略圖導(dǎo)航、交互式操作以及工作記憶機制,模型能夠在推理過程中不斷修正自身判斷,從而更有效地處理長文檔中的復(fù)雜信息關(guān)系。

      這種方法并不依賴于更大的模型或更長的上下文,而是通過更合理的信息使用方式,提高推理效率與結(jié)果可靠性。

      對文檔理解來說,真正重要的,也許從來不是「一次性看完所有內(nèi)容」,而是能不能像人一樣,在閱讀過程中不斷調(diào)整策略、主動尋找證據(jù)、逐步逼近答案。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      烏克蘭的“機器狗”們已實戰(zhàn),單次俘虜多名俄士兵,摧毀俄軍坦克

      烏克蘭的“機器狗”們已實戰(zhàn),單次俘虜多名俄士兵,摧毀俄軍坦克

      網(wǎng)易新聞出品
      2026-05-09 11:37:34
      塞爾比:我防住了全世界,卻沒防住徒弟的進攻和女兒的倒戈!

      塞爾比:我防住了全世界,卻沒防住徒弟的進攻和女兒的倒戈!

      小娛樂悠悠
      2026-05-06 09:52:35
      黎姿母親節(jié)辦家宴,殘疾弟弟驚喜現(xiàn)身,黎姿從背后輕輕摟住弟弟

      黎姿母親節(jié)辦家宴,殘疾弟弟驚喜現(xiàn)身,黎姿從背后輕輕摟住弟弟

      草莓解說體育
      2026-05-11 10:20:01
      “我還沒上車啊”!浙江一高架發(fā)生事故,駕駛員一著急將下車查看的同伴落高架上,直接開走!

      “我還沒上車啊”!浙江一高架發(fā)生事故,駕駛員一著急將下車查看的同伴落高架上,直接開走!

      環(huán)球網(wǎng)資訊
      2026-05-11 14:21:45
      伊媒:伊朗已拒絕美國提出的方案

      伊媒:伊朗已拒絕美國提出的方案

      新華社
      2026-05-11 07:07:03
      快船自從2009年選中格里芬以后,第一次獲得前五順位選秀權(quán)

      快船自從2009年選中格里芬以后,第一次獲得前五順位選秀權(quán)

      懂球帝
      2026-05-11 14:29:26
      漢武帝為什么總選春天進攻匈奴?司馬光:匈奴女子春天更容易懷孕

      漢武帝為什么總選春天進攻匈奴?司馬光:匈奴女子春天更容易懷孕

      云霄紀(jì)史觀
      2026-05-08 00:57:48
      “廣東地震局短信”上熱搜,最新回應(yīng)

      “廣東地震局短信”上熱搜,最新回應(yīng)

      新快報新聞
      2026-05-11 11:04:09
      一架土耳其客機在尼泊爾首都加德滿都機場降落時起火,乘客從緊急出口疏散

      一架土耳其客機在尼泊爾首都加德滿都機場降落時起火,乘客從緊急出口疏散

      瀟湘晨報
      2026-05-11 11:12:09
      何小鵬給自己造車:39.98萬起,下周見

      何小鵬給自己造車:39.98萬起,下周見

      Ping值焦慮
      2026-05-11 11:30:53
      日本隊主帥批張本智和:心理有問題!2-0都能被逆轉(zhuǎn) 給隊友壓力

      日本隊主帥批張本智和:心理有問題!2-0都能被逆轉(zhuǎn) 給隊友壓力

      念洲
      2026-05-11 12:39:21
      吃他汀猝死的人增多?醫(yī)生含淚勸告:天熱吃他汀,必須多注意3點

      吃他汀猝死的人增多?醫(yī)生含淚勸告:天熱吃他汀,必須多注意3點

      路醫(yī)生健康科普
      2026-05-11 17:37:03
      義烏商家:世界杯周邊銷量沒達(dá)預(yù)期,經(jīng)濟下行,時間也不友好

      義烏商家:世界杯周邊銷量沒達(dá)預(yù)期,經(jīng)濟下行,時間也不友好

      懂球帝
      2026-05-11 11:49:21
      太過分!皮皮蝦風(fēng)波當(dāng)事人把泰國瀨尿蝦說成普通蝦,至今沒有道歉

      太過分!皮皮蝦風(fēng)波當(dāng)事人把泰國瀨尿蝦說成普通蝦,至今沒有道歉

      小徐講八卦
      2026-05-10 07:56:14
      微信轉(zhuǎn)賬出新功能了,這次很實用!

      微信轉(zhuǎn)賬出新功能了,這次很實用!

      全是技能
      2026-05-10 15:28:54
      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      大漢體育解說
      2026-02-09 13:07:34
      連中國都看懵了!特朗普訪華前夕,高市早苗砸萬億對美下狠手!

      連中國都看懵了!特朗普訪華前夕,高市早苗砸萬億對美下狠手!

      丁丁鯉史紀(jì)
      2026-05-11 15:49:27
      5月20官宣三婚!頭發(fā)都白了,何潔現(xiàn)狀惹人心疼

      5月20官宣三婚!頭發(fā)都白了,何潔現(xiàn)狀惹人心疼

      老吳教育課堂
      2026-05-08 20:06:05
      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      以茶帶書
      2026-05-08 15:40:11
      臺積電創(chuàng)始人張忠謀曾言:真要制裁中國大陸,大陸將毫無還手之力

      臺積電創(chuàng)始人張忠謀曾言:真要制裁中國大陸,大陸將毫無還手之力

      最新聲音
      2026-05-10 23:27:26
      2026-05-11 18:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12970文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      旅游
      數(shù)碼
      健康
      教育

      家居要聞

      多元生活 此處無聲

      旅游要聞

      南京人的“莫奈花園”如期上線,燕雀湖睡蓮盛放美成童話

      數(shù)碼要聞

      羅技“超便攜”無線鼠標(biāo)曝光:無物理滾輪,支持對折

      干細(xì)胞能讓人“返老還童”嗎

      教育要聞

      一招教你差倍問題的解法!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 在线观看国产一区亚洲bd| 国产精品久久久久久久免费看| 亚洲人成色4444在线观看| 成人精品一区日本无码网| 精品久久人妻果冻传媒| 国产精品青草视频免费播放| 国产精品网站夜色| av二区三区| 日日碰狠狠躁久久躁| 国产99视频精品免费专区| 中文字幕第8页| 国产精品久久久久网站| 波多野结衣一区二区三区88| 国产在线视频精品视频| 亚洲AV人无码综合在线观看 | 成人小说亚洲一区二区三区| 色情午夜 码一区二区三区| 免费国产黄网在线观看| 国产激情电影综合在线看| 成人av片在线观看免费| 人人妻人人插视频| 少妇潮喷无码白浆水视频| 国产成人亚洲综合二区| 亚洲中文字幕有综合久久| 69xxx国产| 欧洲亚洲一区| 国产伦精品一区二区三区| 美女毛片在线| 手机在线a视频| 亚洲 欧美 影音先锋| 免费看少妇作爱视频| 亚洲春色av无码专区在线播放 | 日本中文字幕一区二区视频| 国产乱码一区二区三区爽爽爽| 国产一区二区不卡在线| 亚洲丝袜精品在线视频| 亚洲天堂自拍| 2020aa一级毛片免费高清| 成人无号精品一区二区三区| 精品毛片乱码1区2区3区| 东京热av无码电影一区二区|