人類對結構的感知能力堪稱神奇。
給你看一個文件夾,里面裝著檢驗報告、發票、簡歷——幾秒鐘內,你就能理解這些數據的形態。檢驗報告有日期、檢測項、數值、參考范圍、結論。發票有供應商、金額、稅率、付款條件。結構顯而易見。
![]()
但絕大多數軟件系統看不見這些。
現代AI工具處理文件的方式通常是"檢索":把文檔切成塊,給塊做嵌入向量,按相似度搜索,再把塊喂給大語言模型。這招對"檢索型問題"出奇地好用——"這份合同里的違約金條款是什么?"系統能精準定位相關段落。
然而現實中的很多問題根本不是檢索問題,而是"聚合問題"。
檢索系統的本質優化目標是返回相關片段。聚合卻需要完全不同的東西:結構化記錄。關鍵洞察在于:結構本來就存在于文件內部。人類一眼就能看出來,而大語言模型現在已經足夠可靠,能把它們提取出來。
這徹底改變了架構邏輯。
舊 pipeline 是:文件 → 切塊 → 嵌入 → 檢索。新 pipeline 變成:文件 → 結構化記錄 → 查詢引擎。差異是深遠的。一旦文件變成記錄,你就可以問:"過去三個月所有超過10萬美元的采購中,有多少比例采用了凈30天付款條款?"——這類問題對檢索系統幾乎不可能,對記錄查詢卻 trivial。
這個思路催生了 Sifter。它的工作流刻意保持簡單:上傳文件,系統提取結構化記錄,直接用 SQL 或自然語言查詢。核心在于系統不是在檢索片段,而是在查詢記錄。
大多數組織已經坐擁海量潛在的結構化數據。問題從不是數據缺失,而是結構被困在文件里。一個文件夾,往往就是一個等待被喚醒的數據庫。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.