網易首頁 > 網易號 > 正文申請入駐

PDF表格幻覺：99%幽靈表格被一個數學公式殺死，工程師揭秘上下文感知提取

2026-05-13 07:35:15　來源: 報錯免疫體

北京舉報

分享至

如果你寫過PDF解析腳本，一定經歷過這種絕望：跑一遍通用文本提取器，原本整齊的表格變成一堵文字墻，所有列被暴力壓成垂直堆疊。更糟的是換用表格提取器——它開始到處 hallucinate（產生幻覺）。加粗標題帶下劃線？ parser 認定這是 1×1 表格。段落間的水平分隔線？砰，幽靈表格誕生。

問題根源在于大多數 PDF 解析器采用嚴格的順序流水線。它們掃描所有線條，掃描所有文字，然后簡單粗暴地混在一起。我受夠了這種"機器式閱讀"，于是重新設計了提取流水線——讓 parser 像人類一樣"看見"文檔。

這就是上下文感知 PDF 提取的數學原理。

盲目提取的災難

我們之前的流水線是這樣工作的：找出所有水平和垂直線段（H-segs 和 V-segs），丟進 LatticeReconstructor 找交叉網格，每個網格都當表格處理，再用嚴格的"點是否在框內"判斷把所有文字塞進這些網格。

這種設計對圖文混排文檔是災難。段落里一條裝飾性下劃線會讓 LatticeReconstructor panic，強行造表。表格單元格里的文字因坐標抖動稍微偏移，"點-框檢測"就失敗，文字直接從輸出里消失。

我需要 parser 理解上下文。

上下文分類器的介入

我構建了 contextClassifier。它不再把 PDF 當作形狀和文字的容器，而是遍歷文檔，將每個元素歸類到空間有界的類型區域：TABLE、PARAGRAPH、HEADING、LIST、IMAGE。

但機器怎么區分表格邊框和裝飾下劃線？用鄰近度數學。

代碼邏輯很直接：遍歷每條水平線段，計算其中點縱坐標 hY；遍歷每個文字元數據，計算 hY 與文字基線縱坐標 tm.vy 的垂直距離 yDist。如果 yDist 在 -1 到 5 像素之間，且水平方向與文字重疊，這條線就是下劃線而非表格邊框。

在表格重建前標記并剔除這些下劃線，99% 的幽靈表格被消滅。

文字作用域：告別碰撞

表格檢測完成后，我們計算表格網格的精確邊界框。contextClassifier 不再把整份文檔的文字丟給表格構建器，而是只撈取物理上位于該邊界框內的文字項。這種"物理居住"檢查替代了粗暴的全局匹配，從根本上消除了文字錯配和消失的問題。

這套數學框架的核心洞察很簡單：PDF 不是幾何圖形的隨機堆疊，而是人類視覺意圖的編碼。用像素級的鄰近關系重建這種意圖，機器才能停止幻覺，開始理解。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

查重工具如何快速找出多份文檔的重復內容？

火眼測評 2026-05-11 11:24:41
4 跟貼 4
你寫了那么多，真的在進步嗎？

晚風也遺憾 2026-05-12 11:29:32
0 跟貼 0

PDF合并怎么弄？老師總結的四種實用方法

深情小崽 2026-05-12 16:06:36
0 跟貼 0

國央企：不加班做PPT的超強外掛

身在國企心在江湖 2026-05-13 08:00:26
2 跟貼 2
不用買軟件，Excel就能做出自動更新的甘特圖

報錯免疫體 2026-05-13 08:10:27
0 跟貼 0

5款記賬軟件橫評：從免費到35美元，誰更適合小團隊

碼上閑敘 2026-05-13 06:38:16
0 跟貼 0

計件工資用什么軟件管理？企豐小工單&易特ERP增強版推薦

易特ERP顧問 2026-05-13 10:40:35
0 跟貼 0
別再把長文切碎了，HiLight讓AI直接在原文里劃重點

機器之心Pro 2026-05-11 10:39:41
0 跟貼 0

燒烤店將排煙管對隔壁直吹鄰居提議自費幫其改造遭拒店主：他說不想讓我占地

荔枝新聞 2026-05-13 04:35:09
251 跟貼 251
13年不寫代碼，5天花200美元重建400萬美元產品——YC掌門人是怎么做到的？

華爾街見聞官方 2026-05-11 10:52:07
36 跟貼 36
一個不會寫代碼的中年男人，用一周業余時間手搓一個 APP

朱常在 2026-05-12 22:38:06
0 跟貼 0
何愷明首個語言模型：105M參數，不走GPT自回歸老路

量子位 2026-05-13 09:21:00
0 跟貼 0
ChatGPT、豆包集體翻車：AI沒有價值觀，只有「求生欲」

雷科技 2026-05-11 21:18:29
406 跟貼 406
一鍵生成PPT和科研繪圖，北大開源Paper2Any，全流程可編輯

機器之心Pro 2026-01-04 17:32:26
4 跟貼 4
露臺框架終于完成了

小新的視界 2026-05-12 07:53:12
0 跟貼 0
大模型解剖圖火了，30多個開源模型架構差異一目了然，還可接入AI

DeepTech深科技 2026-03-16 17:33:15
0 跟貼 0
忘掉你寫過的，才能繼續寫下去

時光慢郵啊 2026-05-12 11:30:18
0 跟貼 0
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3112 跟貼 3112
數據湖面試的四個底層模型：別急著報廠商名字

Ping值焦慮 2026-05-11 11:46:50
0 跟貼 0
文章沒人看？這5個坑你可能全踩了

心事寄山海 2026-05-12 06:47:45
0 跟貼 0
你究竟是玩家，還是被計算的“數據”？

虎嗅APP 2026-04-14 01:00:26
0 跟貼 0
林俊旸果然創業了！一個“Qwen負責人”頭銜值135億

量子位 2026-05-13 16:51:05
0 跟貼 0
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
寫完第2本書后，我懂了：真正重要的事，不需要觀眾

晚風也遺憾 2026-05-12 11:18:03
0 跟貼 0
【技術】一種高效的城市建筑三維建模方法

測繪之家 2026-05-11 20:09:47
0 跟貼 0
突然爆火！湖北37歲小伙吹氣球，半個月賺了60萬！

大風新聞 2026-05-12 21:05:08
2252 跟貼 2252
嘴炮王者譚sir竟被邏輯女帝反殺成渣：愿大姐被歲月溫柔以待

解壓小劇場 2026-05-09 08:17:50
414 跟貼 414
工廠老板的新發明，表面看似網格，下秒立馬變成了餐桌！

橘子愛搞笑 2026-05-10 21:09:55
1 跟貼 1
這份開源資源庫，覆蓋小初高至大學教材

星哥玩云 2026-05-12 09:21:55
0 跟貼 0
U17國足勝卡塔爾驚險晉級亞洲杯淘汰賽，中國足球時隔21年重返世界大賽

文匯報 2026-05-13 07:48:10
1052 跟貼 1052
兩千年以下對上的生存邏輯，只給框架，不給結論

星際軍武 2026-05-12 16:26:54
0 跟貼 0
女子拍照每張照片都有“標記”，眾多網友以為是靈異事件

梗王突襲 2026-05-12 09:57:20
1 跟貼 1
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
904 跟貼 904
一張4090就能爆改！面壁智能MiniCPM-V 4.6，1B多模態卷出新高度

機器之心Pro 2026-05-13 14:18:42
0 跟貼 0
13歲女孩沉迷“二次元”，花光父親18萬積蓄買畫稿，最貴一張5400元，畫稿師：不知對方是未成年人，愿退費

環球網資訊 2026-05-12 19:26:13
877 跟貼 877
如果兩物體以光速反方向運動，相對速度豈不是超越光速了？

宇宙時空 2026-05-11 18:21:39
4 跟貼 4
廣州中考名額分配詳細結果出爐：誰家拿到9個二中名額？

南方都市報 2026-05-12 19:06:26
356 跟貼 356
識字不多，邏輯清晰！萌娃自創圖文手繪梳理運動會要求

星辰視頻 2026-05-13 08:57:34
1 跟貼 1
離譜！F-16被伊朗二代機擊中，掛7700代碼逃命

夜里看海 2026-05-13 05:20:53
0 跟貼 0
安全管理形式主義越來越嚴重，根源到底在哪？

職場資深秘書 2026-05-13 16:25:38
0 跟貼 0

汽車要聞

手機 / 數碼

房產 / 家居

PDF表格幻覺：99%幽靈表格被一個數學公式殺死，工程師揭秘上下文感知提取

出租車司機被兩老外"拐跑"：3萬車費從海南開到黑龍江

出租車司機被兩老外"拐跑"：3萬車費從海南開到黑龍江

14年半，74萬，何冰嬌沒選那條更安穩的路

白鹿掉20萬粉，網友為李晨鳴不平

盤中最高4041.99點！創業板創歷史新高

谷歌劇透安卓重大升級 Gemini深度集成底層

4月BBA無一款車型銷量破萬 新能源滲透率首破60%

態度原創

老錢風失寵了？這個風格突然爆火，夏天穿太高級了！

消息稱追覓AURORA手機將于今年第四季度發布

6000 元左右性價比輕薄本怎么選？全能機型深度對比！

內在自敘，無域有方

乾隆 “翻車” 名畫刷屏！

4月BBA無一款車型銷量破萬新能源滲透率首破60%