<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      RAG 工程里最大的痛點解決了,已開源

      0
      分享至

      關于 RAG 這個話題,我之前寫過:

      今天聊一個完全不一樣的角度——RAG / Agent context 工程里最大的痛點,從來不是 chunking 也不是 rerank,而是"數據陳舊"

      你給 Agent 喂的代碼庫、會議紀要、Slack 記錄、文檔站,每天都在變。LangChain 那一套一次性建完索引就萬事大吉?做 demo 行,上生產你就知道有多痛——文件改一個,整個 vector DB 要不要重建?build 一次幾十分鐘?凌晨跑批結果第二天還是看到舊數據?

      就是沖這個痛點來的,我今天介紹一個項目叫 CocoIndex

      地址:github.com/cocoindex-io/cocoindex

      它給自己的定位很狠:"為 Agent 提供持續 fresh 的上下文"——不是搭一個 RAG 框架,是搭一個專門為 AI workload 設計的增量數據引擎

      我看完它的設計哲學之后只有一個感覺:這才是 RAG / agent context 的正確打開方式

      簡介

      先放一句話定位:

      ? CocoIndex is an incremental engine for long-horizon agents.Turn codebases, meeting notes, inboxes, videos … into live context for your agents to reason over effectively — with minimal incremental processing. Fresh data anytime.

      翻譯成大白話:把企業里的代碼庫、會議筆記、郵件、視頻、文檔全部接進來,統一變成 Agent 可查詢的實時上下文,只重處理變化的部分

      它的核心心智模型只有一句話——target = F(source)

      你聲明目標狀態,引擎負責讓目標狀態和源數據持續同步。源變了或者代碼(F)變了,引擎自動算出 delta 重跑。這套思路在前端工程師眼里非常熟悉——就是 React 在數據工程的版本

      官方原話叫 "React for data engineering",我覺得說得相當準確

      核心特點:

      • 增量優先(Incremental by default) :每次只處理 delta,單文件改動 → 單行重 sync,不再有"凌晨重建索引"這種事

      • 聲明式(Declarative) :Python 寫轉換函數,引擎自動并行調度,沒有 DAG,沒有 YAML,沒有 Airflow 那一堆運維負擔

      • 代碼改了也是 delta :F 變了之后只重跑受影響的行,schema 自動演進, no index swap, no downtime ——這點我得給個 star,比 LangChain 那種"換個 embedding model 就重建一切"友好十倍

      • 為長 horizon agent 設計 :不是 demo 級框架,retry / back-off / dead letter / lineage / observability 全部內建,就是奔著生產去的

      • Rust 內核 + Python 接口 :性能層 Rust,業務層 Python,在 RAG 框架里屬于稀缺組合

      安裝

      CocoIndex 是 Python 包,pip 直接裝:

      pip install -U cocoindex

      按官方 quickstart,5 分鐘跑通一個 PDF → Markdown 的增量管道

      先建個項目目錄、放點 PDF 進去:

      mkdir cocoindex-quickstart && cd cocoindex-quickstart
      mkdir pdf_files
      echo "COCOINDEX_DB=./cocoindex.db" > .env
      pip install -U cocoindex docling

      寫一個 main.py,把 PDF 轉 Markdown 的邏輯聲明出來:

      import pathlib
      import cocoindex as coco
      from cocoindex.connectors import localfs
      from cocoindex.resources.file import PatternFilePathMatcher
      from docling.document_converter import DocumentConverter

      _converter = DocumentConverter()

      @coco.fn(memo=True)
      def process_file(file: localfs.File, outdir: pathlib.Path) -> None:
      markdown = _converter.convert(file.file_path.resolve()) \
      .document.export_to_markdown()
      outname = file.file_path.path.stem + ".md"
      localfs.declare_file(outdir / outname, markdown, create_parent_dirs=True)

      @coco.fn
      asyncdef app_main(sourcedir: pathlib.Path, outdir: pathlib.Path) -> None:
      files = localfs.walk_dir(
      sourcedir,
      recursive=True,
      path_matcher=PatternFilePathMatcher(included_patterns=["**/*.pdf"]),
      )
      await coco.mount_each(process_file, files.items(), outdir)

      app = coco.App(
      "PdfToMarkdown",
      app_main,
      sourcedir=pathlib.Path("./pdf_files"),
      outdir=pathlib.Path("./out"),
      )

      跑起來:

      cocoindex run main.py

      第一次會處理所有 PDF,第二次再跑——只有新增或修改的 PDF 會被處理,其他的因為 @coco.fn(memo=True) 標記被自動跳過

      注意幾個細節:

      • @coco.fn(memo=True) :標記這個函數的輸出可緩存,輸入指紋一致就直接復用結果

      • localfs.declare_file() :聲明一個 target 文件,源被刪了 target 也會自動跟著刪, 自動反向 GC

      • coco.mount_each() :每個文件自動掛一個獨立的處理組件,并行跑

      整個心智模型就是寫一次性腳本——但引擎自動給你套上增量、緩存、并行、target sync 這一整套生產能力

      進階案例:把播客做成知識圖譜

      PDF → Markdown 太樸素了,看不出威力。CocoIndex 官方博客里有一個我特別喜歡的進階 demo——把 Lex Fridman、Dwarkesh Patel 的播客做成可查詢的知識圖譜

      整體管線是這樣的:YouTube URL → yt-dlp 下載音頻 → AssemblyAI 帶說話人識別的轉錄 → LLM 抽取人物 / 技術 / 組織 / 論斷 → SurrealDB 存圖

      下圖是整個管線的架構圖:


      CocoIndex 播客知識圖譜管線

      知識圖譜的 schema 設計了 5 種節點(session / statement / person / tech / org)和 4 種關系:


      知識圖譜 schema

      整個流程跑三個 phase:

      Phase 1:每個 episode 獨立處理——下載、轉錄、LLM 抽實體和論斷。session 和 statement 立刻寫庫,因為不需要跨 episode 去重

      Phase 2:跨 episode 收集所有人名 / 技術名 / 組織名,用 embedding 相似度 + LLM 二次確認做實體消歧(同一個 GPT-4 不同集里可能寫成 "GPT-4"、"GPT4"、"OpenAI's GPT-4")

      Phase 3:把消歧后的實體和關系寫庫


      Phase 1 詳細流程

      代碼骨架長這樣(取最關鍵的 fetch_transcript 一段):

      @coco.fn(memo=True)
      asyncdef fetch_transcript(youtube_id: str) -> SessionTranscript:
      url = f"https://www.youtube.com/watch?v={youtube_id}"
      with tempfile.TemporaryDirectory() as tmpdir:
      audio_path = os.path.join(tmpdir, "audio.mp3")
      ydl_opts = {"format": "bestaudio/best", "outtmpl": audio_path,
      "quiet": True,
      "postprocessors": [{"key": "FFmpegExtractAudio",
      "preferredcodec": "mp3"}]}
      with yt_dlp.YoutubeDL(ydl_opts) as ydl:
      info = ydl.extract_info(url, download=True)
      config = aai.TranscriptionConfig(speaker_labels=True)
      transcript = aai.Transcriber().transcribe(audio_path, config)
      utterances = [Utterance(speaker=u.speaker, text=u.text)
      for u in transcript.utterances]
      return SessionTranscript(utterances=utterances, ...)

      注意那個 @coco.fn(memo=True)——同一個 YouTube ID 跑過一次之后永遠不會再下載第二次,哪怕你重啟進程、改了下游的 LLM prompt,轉錄這一步的結果直接復用

      我看完這個 case 的最深感受:這就是為什么"data infra for AI"應該是一個獨立賽道

      LangChain 那種"我封裝一遍 OpenAI、Pinecone、PDF loader 就叫框架"的玩法,跟 CocoIndex 這種從增量引擎、lineage、schema 演進、failure recovery 一層一層往下做的根基性工作,根本不是同一個量級

      總結

      老章對它的評價:這是目前我見過最像"工業級 RAG/agent context 基礎設施"的開源項目

      優點

      • 心智模型極其干凈,target = F(source),剩下交給引擎,寫起來跟一次性腳本沒差別

      • 增量是 first-class citizen,不是"我們也支持增量"那種半吊子

      • 代碼改動也算 delta,schema 自動演進,對長期維護的 RAG 系統來說太重要了——你換個 embedding model 不用全量重建

      • Rust 內核保證了性能,長跑大規模數據的場景比純 Python 框架靠譜

      • 內置 CocoInsight 控制平面,lineage / 緩存 / 版本 / 調度全可觀測,運維友好

      • 文檔質量很高,每個 example 都是開箱即跑的工業級代碼,不是"hello world"水平

      缺點 / 局限

      • 學習曲線比 LangChain 陡——你得理解"聲明式增量"這套思路,寫慣了命令式管道的人需要扭一下腦子

      • 中文資料目前幾乎為零,社區問題主要在 Discord,英文交流

      • target 端連接器現在主要覆蓋 vector DB / graph DB / data warehouse,傳統的全文檢索(ES / OpenSearch)支持還在補

      • 團隊還小(一年從 1k stars 走過來),生態成熟度不如 LangChain / LlamaIndex 那種巨無霸

      適合誰用

      • 在做 生產級 RAG 系統 的工程師,特別是數據每天都在變(codebase / Slack / 文檔站 / 郵件)的場景

      • 在做 編碼 agent / code-review agent / security-audit agent ,需要隨時拿到最新代碼索引和 call graph

      • 在做 知識圖譜 + LLM ,需要持續從多源數據里增量抽實體的

      • 覺得 LangChain 一坨膠水代碼不夠"工程化"的人

      不適合誰

      • 只做單次實驗、demo、一次性 batch 跑完就不管的場景——增量引擎對你是 overkill

      • 完全不會寫 Python、希望 zero-code 拖拖拽拽的——這玩意兒還是面向開發者的

      • 公司已經有重度 LangChain / LlamaIndex 投入、且數據規模不大的——遷移收益不一定值得

      One More Thing

      CocoIndex 團隊 2025 年 3 月開源,5 月 8 日 1k stars,到現在差不多一年時間,已經迭代到 v1,commit 節奏非常猛

      他們 blog 里有篇文章叫 *"AI-Native Data Pipeline - Why We Made It"*,核心觀點我特別認同:

      ? 下一波 AI 應用真正的瓶頸不在模型,而在喂給模型的數據是不是新鮮、可信、可追溯

      模型只能做它看到的數據所允許的判斷。如果你給 Agent 的代碼索引是上周的、文檔是上個月的、對話歷史是上次重建索引時的——再聰明的 Agent 也會一本正經地胡說八道

      模型卷了三年,是時候卷一卷"喂給模型的數據"了——CocoIndex 這條路是對的

      一句話總結:如果你正在認真做 RAG 或 Agent context,今晚就裝上玩玩,CocoIndex 大概率會改變你對"數據管道"這件事的理解

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2026抗癌新突破!中晚期患者的春天來了,目前已全額納入醫保

      2026抗癌新突破!中晚期患者的春天來了,目前已全額納入醫保

      牛鍋巴小釩
      2026-05-12 18:55:38
      美防長曾警告中國,沙特大手筆欲購12艘052D,美國不允許此事發生

      美防長曾警告中國,沙特大手筆欲購12艘052D,美國不允許此事發生

      紅岸衛士
      2026-05-11 22:12:18
      特朗普應邀訪華3天,中方準備了高規格禮遇,他想邀中方回訪美國

      特朗普應邀訪華3天,中方準備了高規格禮遇,他想邀中方回訪美國

      別讓往昔的悲傷和對未來的恐懼
      2026-05-13 02:30:26
      過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準是你

      過了六十歲,如果你還有八九十歲的父母健在,千萬別熱心包辦他們的這兩件事,不然最后吃力不討好的準是你

      心理觀察局
      2026-05-03 08:29:04
      男子2天內嫖娼2次被行拘

      男子2天內嫖娼2次被行拘

      觀威海
      2026-05-12 10:47:08
      7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

      7年敗光2個億,鄒市明冉瑩穎共同發文,終究還是踏出了這一步

      林輕吟
      2026-02-11 11:29:40
      歷史重演,騎士2-2追平活塞,就看哈登學的是06年詹姆斯還是07年

      歷史重演,騎士2-2追平活塞,就看哈登學的是06年詹姆斯還是07年

      鐵甲西奇
      2026-05-12 15:46:20
      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      比日本還囂張!為支持臺灣與中國斷交后,又要求中國主動低頭求和

      杰絲聊古今
      2026-05-02 11:06:33
      當代網友大無語事件:集體破防名場面來了!

      當代網友大無語事件:集體破防名場面來了!

      夜深愛雜談
      2026-03-25 22:26:58
      亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現最出色的球員

      亞歷山大:毫不夸張地說 米切爾是這輪系列賽表現最出色的球員

      北青網-北京青年報
      2026-05-12 20:22:04
      退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

      退休后才明白:別人夸你“看起來真年輕”,千萬別答“哪有哪有”

      心理觀察局
      2026-05-07 08:18:05
      想安穩活到81歲?66歲起,兩性關系這8句一定要聽進去

      想安穩活到81歲?66歲起,兩性關系這8句一定要聽進去

      新時代的兩性情感
      2026-04-24 12:36:15
      人民日報發聲:機關事業單位的隱性收入,正在消失

      人民日報發聲:機關事業單位的隱性收入,正在消失

      細說職場
      2026-05-09 12:16:27
      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能向中國妥協

      特朗普上飛機前坦白,對華稱呼已變,美參議員:不能向中國妥協

      娛樂的宅急便
      2026-05-13 00:36:36
      常吃輔酶Q10不能與這4類藥物搭配,每天都有人吃錯,醫生科普真相

      常吃輔酶Q10不能與這4類藥物搭配,每天都有人吃錯,醫生科普真相

      健康之光
      2026-05-03 13:10:12
      貝蒂斯2-1埃爾切鎖定歐冠席位,庫喬建功,福爾納爾斯制勝

      貝蒂斯2-1埃爾切鎖定歐冠席位,庫喬建功,福爾納爾斯制勝

      懂球帝
      2026-05-13 04:33:27
      大媽打掃指揮部時,猛然發現眼前的八路軍參謀長有可能是日軍特務

      大媽打掃指揮部時,猛然發現眼前的八路軍參謀長有可能是日軍特務

      云端小院
      2026-05-12 06:43:51
      比美國更怕中國崛起的是俄羅斯,俄怕的并不只是領土那點事

      比美國更怕中國崛起的是俄羅斯,俄怕的并不只是領土那點事

      小輧喜歡解說
      2026-05-13 00:17:23
      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當地的生態災難

      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當地的生態災難

      怪羅
      2026-05-11 10:01:52
      一位上海媽媽的親身經歷:當孩子確診ADHD,我是這樣走過來的

      一位上海媽媽的親身經歷:當孩子確診ADHD,我是這樣走過來的

      小美教育筆
      2026-05-10 15:03:19
      2026-05-13 05:08:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      旅游
      親子
      公開課
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      旅游要聞

      故宮擠滿游客,人人撐傘前行:寧愿熱到出汗,也要奔赴紫禁城!

      親子要聞

      夏天建議:把孩子的空調服換成它!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产乱妇乱子视频在播放| 国产精品久久久久影院亚瑟| 亚州性色| 亚洲第一成人会所| 亚洲AV成人无码久久精品黑人| 99热成人精品国产免国语的| 亚洲最新版av无码中文字幕一区| 日本一区二区更新不卡| 中文字幕第4页| 久久久久久久综合| 精品视频国产香蕉尹人视频| 亚洲av永久无码精品天堂久久| 91爱爱网| 亚洲欧美丝袜精品久久中文字幕| 精品动漫一区二区无遮挡| 26uuu另类亚洲欧美日本| 亚洲无码免费在线观看| av无码天一区二区一三区| 欧美国产日韩在线| 国产成人精品午夜视频| 亚洲熟妇无码av不卡在线| 亚洲成a人片77777kkkk| 精品伊人久久久99热这里只| 在线成人国产天堂精品av| 国产成人精品一区二区无| 久久久国产精品人人片| 人人爽人人澡人人高潮| 亚洲码欧美码一区二区三区 | 亚洲v?a| 91福利姬| 北条麻妃在线一区二区| 夫妻性生活av| 欧美高清精品一区二区| 亚洲人成网站7亚洲国国产自偷自偷免费一区 | 中文字幕人妻无码专区app| 国产成人精品无码短视频| 极品人妻少妇一区二区| 手机在线国产精品| 亚洲国产成人久久综合碰| 午夜毛片不卡免费观看视频| 国产一二区Av|