<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      OCR 新紀元,超強文檔解析 Skills 來了

      0
      分享至


      知識管理缺了一塊拼圖

      前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki

      這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown

      合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出

      OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

      現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式

      先說大家最關心的格式支持問題,再細說安裝的事兒

      格式支持

      TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

      • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

      • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限

      Skills 地址:github.com/intsig-textin/xparse-skills

      核心是兩樣東西:

      • SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由

      • xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API

      整個工作流如下圖:


      用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

      全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

      安裝方式

      方式一:對話框一句話安裝

      在 Agent 對話框直接說:

      幫我從技能市場安裝 intsig-textin/xparse-parser

      方式二:npx 命令安裝(強烈推薦)

      npx skills add intsig-textin/xparse-skills

      我最推薦這種方式,比較優雅


      而且還可以一鍵安裝到所有 Agent 工具中


      憑證配置只要一條命令:

      xparse-cli auth

      按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取

      也支持環境變量方式(適合 CI/CD):

      export XPARSE_APP_ID=your_app_id
      export XPARSE_SECRET_CODE=your_secret_code
      用法

      在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

      例如:

      • “幫我讀一下這份PDF合同,提取關鍵條款”

      • “把這個報告轉成Markdown,保存到桌面”

      • “這份加密PDF密碼是123456,幫我解析前10頁”

      • “提取這張表格圖片里的內容,輸出JSON”

      核心命令詳解

      這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

      # 最基礎:解析 PDF,輸出 Markdown 到終端
      xparse-cli parse report.pdf

      # 輸出結構化 JSON
      xparse-cli parse report.pdf --view json

      # 保存到目錄(自動命名為 report.md / report.json)
      xparse-cli parse report.pdf --output ./result/

      # 保存到指定文件
      xparse-cli parse report.pdf --output parsed.md

      # 只解析指定頁碼范圍(支持多段)
      xparse-cli parse report.pdf --page-range 1-5
      xparse-cli parse report.pdf --page-range 1-2,5-10

      # 解析加密 PDF
      xparse-cli parse secret.pdf --password mypassword

      # 獲取字符級坐標和置信度(做人工核驗時用)
      xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

      值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:

      能力

      標題層級

      自動識別文檔結構,最多 5 級標題

      表格結構

      HTML 格式保留單元格層級

      圖片提取

      內嵌圖片識別和提取

      目錄樹

      自動生成文檔 TOC

      分頁結果

      頁面級元數據

      唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟

      幾個實用進階玩法

      ① 管道組合,直接喂給 LLM

      # 解析后搜索關鍵詞
      xparse-cli parse report.pdf | grep "revenue"


      # 解析完直接喂給 LLM 總結
      xparse-cli parse paper.pdf | llm "summarize this paper"

      ② 批量處理

      # 準備一個文件列表 files.txt,一行一個路徑
      xparse-cli parse --list files.txt --output ./results/

      ③ 從解析結果里下載圖片

      # 先解析為 JSON
      xparse-cli parse report.pdf --view json --output result.json


      # 再從 JSON 里批量下載所有圖片
      xparse-cli download --from result.json --output ./images/

      ④ 私有化部署

      如果是私有部署的 TextIn 服務,可以通過--base-url指定:

      xparse-cli parse report.pdf --base-url https://your-private-server.com
      總結

      xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:

      適合你用的場景:

      • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

      • 搭建 RAG 知識庫,需要高精度的文檔結構化

      • 日常工作要解析合同、財報、研報這類復雜文檔

      優缺點直說:

      評價

      ? 零代碼零門檻

      說話就能用,適合所有技術水平

      ? 復雜表格能力強

      跨頁拼接、合并單元格、無線表格都不虛

      ? 免費額度夠用

      PDF+ 圖片 1000 頁/天,輕度使用完全夠

      ? 管道/批量支持

      可與 LLM、腳本組合,適合自動化流水線

      ?? Word/PPT/Excel 需付費

      免費版只有 PDF 和圖片

      ?? 免費版 10MB 限制

      大型 PDF 需要付費賬戶

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陳麗華去世1個月,73歲遲重瑞現狀曝光,他果然不是“軟柿子”

      陳麗華去世1個月,73歲遲重瑞現狀曝光,他果然不是“軟柿子”

      攬星河的筆記
      2026-05-13 17:03:14
      合肥警方:多名“黃牛”音樂節現場落網!演唱會門票千萬別從這些渠道買

      合肥警方:多名“黃牛”音樂節現場落網!演唱會門票千萬別從這些渠道買

      環球網資訊
      2026-05-13 17:15:14
      邪門!少了30多萬中國人消費,日本的旅游收入反而比以前多了

      邪門!少了30多萬中國人消費,日本的旅游收入反而比以前多了

      壹只灰鴿子
      2026-05-13 10:44:56
      閆妮調侃張嘉益:我能演《主角》中花彩香嗎?張嘉益回復顯情商

      閆妮調侃張嘉益:我能演《主角》中花彩香嗎?張嘉益回復顯情商

      蕭狡科普解說
      2026-05-13 16:46:33
      俄烏戰爭主動權首次向烏克蘭傾斜!俄軍春季攻勢潰敗

      俄烏戰爭主動權首次向烏克蘭傾斜!俄軍春季攻勢潰敗

      項鵬飛
      2026-05-12 18:12:50
      閃婚閃離 千萬房產該怎么分?法院判了

      閃婚閃離 千萬房產該怎么分?法院判了

      大象新聞
      2026-05-13 15:02:06
      大疆多款產品降價,Pocket3至高直降1400元,Pocket4仍無現貨

      大疆多款產品降價,Pocket3至高直降1400元,Pocket4仍無現貨

      魯中晨報
      2026-05-13 16:06:55
      德納:特朗普訪華的中美博弈

      德納:特朗普訪華的中美博弈

      德納視角
      2026-05-12 15:54:22
      聯合國副秘書長因訪問加沙遭以色列扣留訊問:護照沒收,扣留45分鐘;當事人稱“前所未有”,取消所有正式會議

      聯合國副秘書長因訪問加沙遭以色列扣留訊問:護照沒收,扣留45分鐘;當事人稱“前所未有”,取消所有正式會議

      極目新聞
      2026-05-13 13:57:35
      特朗普訪華名單上的黑石帝王施瓦茨曼:他用李世民給自己命名

      特朗普訪華名單上的黑石帝王施瓦茨曼:他用李世民給自己命名

      人間像素
      2026-05-13 13:17:48
      歐美為什么希望我們也不要加班?

      歐美為什么希望我們也不要加班?

      羅sir財話
      2026-05-11 17:35:24
      雷陣雨+中到大雨!高溫上線隨后降雨來襲,河北未來三天……

      雷陣雨+中到大雨!高溫上線隨后降雨來襲,河北未來三天……

      魯中晨報
      2026-05-13 18:22:07
      橫掃出局!打廢2.4億頂薪?湖人的問題,在他身上!

      橫掃出局!打廢2.4億頂薪?湖人的問題,在他身上!

      籃球盛世
      2026-05-13 18:13:49
      新疆一女生沒電腦在電競館學習,女店主得知后免費:只要是不打游戲,來學習的都免費

      新疆一女生沒電腦在電競館學習,女店主得知后免費:只要是不打游戲,來學習的都免費

      瀟湘晨報
      2026-05-13 15:32:29
      日本考察團來華,中國:不接待,不見面!

      日本考察團來華,中國:不接待,不見面!

      達文西看世界
      2026-05-13 10:47:32
      媒體人:廣東要評估崔永熙留隊前景,協商杜鋒身兼三職的精力問題

      媒體人:廣東要評估崔永熙留隊前景,協商杜鋒身兼三職的精力問題

      懂球帝
      2026-05-13 14:29:33
      突傳噩耗!香港知名商人在家中燒炭身亡,公司面臨巨大財政壓力

      突傳噩耗!香港知名商人在家中燒炭身亡,公司面臨巨大財政壓力

      情感大頭說說
      2026-05-13 17:16:43
      抗戰時一地下黨被捕,偽鄉長看后踢了對方一腳:共產黨會要這蠢貨

      抗戰時一地下黨被捕,偽鄉長看后踢了對方一腳:共產黨會要這蠢貨

      浩渺青史
      2026-05-12 20:43:52
      亞運會名單公布!孫穎莎領銜,陳幸同意外落選,陳熠入選引爭議

      亞運會名單公布!孫穎莎領銜,陳幸同意外落選,陳熠入選引爭議

      體育就你秀
      2026-05-13 09:48:17
      27+17+5+3!文班干掉華子,只是不小心踩死一只螞蟻!

      27+17+5+3!文班干掉華子,只是不小心踩死一只螞蟻!

      貴圈真亂
      2026-05-13 12:20:58
      2026-05-13 18:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3397文章數 11150關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      俄軍:"世界上最強大導彈"試射成功 射程超35000公里

      頭條要聞

      俄軍:"世界上最強大導彈"試射成功 射程超35000公里

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      盤中最高4041.99點!創業板創歷史新高

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      教育
      家居
      健康
      游戲
      公開課

      教育要聞

      【教研幫扶】廣東省教育研究院走進粵東西北(云浮)教研幫扶活動中小學心理健康教育學科專場舉行

      家居要聞

      內在自敘,無域有方

      干細胞能讓人“返老還童”嗎

      這也有懷舊服?《守望先鋒》經典版2016限時活動上線

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 97人人模人人爽人人喊新闻| 国产精品自拍三级av| 亚洲欧美成人网| 日本顶级少妇极度色诱视频| 亚洲熟悉妇女xxx妇女av| zooslook欧美另类最新| 天天躁日日躁狠狠躁超碰97| 人妻中出无码一区二区三区| 久久久久青草大香综合精品| 国产性色的免费视频网站| 亚洲综合自拍一区| 欧美国产视频| 亚洲男人第一av天堂| 日本中文一二区有码在线| 亚洲精品自拍| 亚洲精品在线视频自拍| 国产精品密蕾丝视频| 日韩有码中文字幕国产| 亚洲综合激情在线| 久久久www成人免费精品| 定远县| 亚洲 欧美日韩 综合 国产| 日韩AV无码免费播放| 国产亚洲曝欧美精品手机在线| 国内精品久久久久影院蜜芽| 在线日韩一区二区| 2018av无码视频在线播放 | 偷国产乱人伦偷精品视频| 999zyz玖玖资源站永久| 欧美va亚洲va在线观看不卡| 国产哟交泬泬视频在线播放| 国产3P视频| 国产午夜福利在线观看播放| 狠狠色综合久久久久尤物| 久久天天躁狠狠躁夜夜婷| 无码一区二区三区AV蜜桃视| 午夜男女很黄的视频| 精品国产亚洲av网站| 国产成人人人97超碰超爽8| 久久久久美女| 欧美性猛交99久久久久99按摩|