<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      百萬 Token 也能無損壓縮?C3 模型用“級聯壓縮”重新定義長上下文挑戰

      0
      分享至


      【編者按】百萬級別 Token 的輸入,正在成為大型語言模型(LLMs)長上下文任務中的計算與內存“噩夢”。DeepSeekOCR 憑借“上下文光學壓縮”技術實現了 10 倍 Token 壓縮率,引發全網熱議。但透過現象看本質,高壓縮率的秘密,真的在于“圖像化”嗎?

      作者 |劉帆帆

      出品丨作者投稿

      DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關鍵。然而,研究團隊經過深入分析發現,高壓縮率的核心其實源自 Latent Tokens(潛在 Token)本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

      基于這一洞察,作者所在的研究團隊提出了一種直擊本質的全新路徑:Context Cascade Compression (C3,上下文級聯壓縮)。

      將兩種路徑進行對比:

      • DeepSeek OCR 路徑: 文本 → 圖像 → 視覺 Token → 語言模型(引入了布局、噪點、視覺編碼器等無關干擾)

      • C3 路徑: 文本 → 文本 Latent Tokens → 語言模型(純粹、無損、直接)

      具體來說,一個小型 LLM 作為第一級,通過將長上下文壓縮成一組潛在 token(例如,長度為 32 或 64),實現高比例的文本 token 到潛在 token 的壓縮。 一個大型 LLM 作為第二級,然后對這個壓縮的上下文執行解碼任務。

      這一設計也驗證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關于「LLM 本質是無損壓縮」的論斷。

      實驗表明,在 20 倍壓縮比(文本 token 數量是潛在 token 數量的 20 倍)下,C3 實現了 98% 的解碼準確率,而 DeepSeek OCR 大約為60%。當我們進一步將壓縮比增加到 40 倍時,準確率仍保持在約 93%。這表明在上下文壓縮領域,C3 壓縮比光學字符壓縮展示了更優越的性能和可行性。

      目前模型與代碼現已開源:

      • 原文:https://arxiv.org/pdf/2511.15244

      • 代碼:https://github.com/liufanfanlff/C3-Context-Cascade-Compression

      • 模型:https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression


      架構

      在介紹 C3 之前,先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創新的"視覺壓縮"思路,這種方法的優勢在于利用了視覺編碼器強大的特征提取能力,但也面臨著圖像布局復雜性、低分辨率下的模糊等固有限制。C3 提出了一個更直接的壓縮思路:跳過視覺中介,沒有中間商賺差價,直接在文本域進行壓縮。其核心架構包括:

      1.雙 LLM 級聯設計

      • 小型 LLM(算力消耗低)作為壓縮編碼器,壓縮上下文信息。

      • 大型 LLM(推理生成能力強)作為解碼器執行下游任務。

      2.壓縮機制

      • 引入可學習的"上下文查詢"(Context Query)嵌入

      • 將長文本壓縮為固定長度的潛在token(如32或64個)。

      • 完全保留預訓練 LLM 的語言壓縮能力



      性能表現

      在 Fox 基準測試中,C3 展現出顯著優勢:

      • 在約 20 倍壓縮時,C3 保持 98.4% 精度,而D eepSeek-OCR 降至59.1%

      • 即使在極限的 40 倍壓縮率下(32 個潛在 token),C3 仍能維持 93% 以上的重建精度

      獨特的"遺忘模式":更接近人類記憶


      研究還發現了 C3 的一個有趣特性:當壓縮率過高導致信息損失時,錯誤往往集中在文本末尾,呈現序列性信息衰減。這與光學壓縮方法的"全局模糊"不同,反而更類似人類記憶的漸進式遺忘過程。

      這種特性使得 C3 在實際應用中更具可預測性——重要信息可以優先放置在文本前部,確保關鍵內容的完整保留。

      測試


      無論是在長英文文本還是中文古文上均做到了近乎完美的壓縮還原

      甚至對于 LLM 一直難以處理的亂序文本也能精準還原


      應用前景

      1. 超長上下文處理:C3 可作為現有 LLM 的"前端壓縮器",將百萬級 token 的輸入(如整本書籍、大型代碼庫)壓縮到可處理范圍,降低計算成本。

      2. 多模態:級連輕量級 VLM 和 LLM,輕量級 VLM 作為視覺 encoder 進行信息壓縮,處理視覺信息豐富的長文檔等。

      3. 下一代模型的基礎組件 :C3 的編碼-解碼架構可直接應用于擴散語言模型和潛在自回歸模型,將可變長度文本轉換為固定長度潛在表示。

      這是一個在有限的人力、算力與數據背景下誕生的“小而美”項目。

      目前 C3 的代碼與權重開源,希望開源社區的研究者們能接過這一棒,激發出C3 的巨大潛能。


      【活動推薦】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」北京現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

      本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中美峰會,蔡英文表態后,國民黨一人不裝了,新黨發聲,不一般

      中美峰會,蔡英文表態后,國民黨一人不裝了,新黨發聲,不一般

      DS北風
      2026-05-15 18:38:11
      布馮:當年買了輛保時捷但父親覺得張揚,不到一年我就賣了

      布馮:當年買了輛保時捷但父親覺得張揚,不到一年我就賣了

      懂球帝
      2026-05-14 09:57:48
      港獨、罵中國人,現在卻還想來內地撈金,這3位香港明星令人作嘔

      港獨、罵中國人,現在卻還想來內地撈金,這3位香港明星令人作嘔

      陳意小可愛
      2026-05-15 17:51:05
      同樣是國乒男隊功臣,王皓梁靖崑是兒子接機,他卻很低調是女兒接

      同樣是國乒男隊功臣,王皓梁靖崑是兒子接機,他卻很低調是女兒接

      凡知
      2026-05-14 15:05:20
      英國真的會成為穆斯林國家嗎?分享Claude的結論

      英國真的會成為穆斯林國家嗎?分享Claude的結論

      劉耘博士
      2026-05-14 08:50:43
      別只看尺度,這5部懸疑神作值得收藏

      別只看尺度,這5部懸疑神作值得收藏

      天天美劇吧
      2026-05-15 19:43:46
      千萬網友組成最悲壯調查兵團,全死在了各大地圖APP的假公廁門前

      千萬網友組成最悲壯調查兵團,全死在了各大地圖APP的假公廁門前

      情報姬
      2026-05-13 23:05:41
      張雪機車半價承諾!因28歲的小伙評論:如果抗癌成功,立馬買輛張雪機車!

      張雪機車半價承諾!因28歲的小伙評論:如果抗癌成功,立馬買輛張雪機車!

      朗威談星座
      2026-05-15 16:25:49
      湖北釣友破紀錄,開始以為掛底,遛魚上岸一看是80斤的大鱤魚

      湖北釣友破紀錄,開始以為掛底,遛魚上岸一看是80斤的大鱤魚

      豆媽熱愛每一天
      2026-05-13 10:42:17
      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      兩性關系:55-65歲這十年,惜命最好的方式,不是鍛煉,做好這6點

      三農老歷
      2026-04-13 17:10:06
      曝央視與國際足聯談判成功,價格相對合理,將于近日簽約

      曝央視與國際足聯談判成功,價格相對合理,將于近日簽約

      塵語者
      2026-05-15 11:20:11
      籃協增補集訓名單!張皓嘉杜潤旺的替補入選,球迷:杜鋒怎么看?

      籃協增補集訓名單!張皓嘉杜潤旺的替補入選,球迷:杜鋒怎么看?

      南海浪花
      2026-05-15 18:34:41
      密密麻麻!21至27號樓全“掛滿”了…

      密密麻麻!21至27號樓全“掛滿”了…

      上觀新聞
      2026-05-14 16:58:25
      三好老師的大長腿,夠你義務教育9年!

      三好老師的大長腿,夠你義務教育9年!

      貴圈真亂
      2026-05-15 11:17:56
      榴蓮多付10萬后續:銷售經理已經進去,女子宣布起訴商家

      榴蓮多付10萬后續:銷售經理已經進去,女子宣布起訴商家

      映射生活的身影
      2026-05-15 16:04:50
      ESPN記者:湖人不想放走詹姆斯,但他不會接受無理由的降薪

      ESPN記者:湖人不想放走詹姆斯,但他不會接受無理由的降薪

      懂球帝
      2026-05-14 21:29:14
      實錘內訌!廣東輸球后亂套,杜鋒嘴硬遭俱樂部連夜打臉,下課聲起

      實錘內訌!廣東輸球后亂套,杜鋒嘴硬遭俱樂部連夜打臉,下課聲起

      海闊山遙YAO
      2026-05-15 19:16:00
      男籃短訓營最新26人名單:增補趙繼偉胡明軒等8人 后場人員充足

      男籃短訓營最新26人名單:增補趙繼偉胡明軒等8人 后場人員充足

      醉臥浮生
      2026-05-15 17:41:26
      夏奇拉:這已經是我第四屆世界杯,Waka Waka是最愛歌曲之一

      夏奇拉:這已經是我第四屆世界杯,Waka Waka是最愛歌曲之一

      懂球帝
      2026-05-15 17:50:13
      四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

      四川武警營門推哨兵后續:大家都搞錯了罪名,她面臨的不是襲警罪

      奇思妙想草葉君
      2026-05-13 18:25:17
      2026-05-15 20:20:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創造者和使用者
      2692文章數 7684關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      家居
      旅游
      本地
      公開課
      軍事航空

      家居要聞

      110㎡淡而有致的生活表達

      旅游要聞

      首屆中國新文創市集暨潮玩游園會打造文旅消費新場景

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩在线中文字幕第一页| 在线观看亚洲a| 九九99热久久精品在线6| 无码AV最新无码AV专区| 午夜成人无码免费看网站| 美乳视频一区二区| 狠狠躁天天躁日日躁97| а的天堂网最新版在线| 国产69精品久久久久app下载| 久久午夜私人影院| 福利在线视频导航| 亚洲综合不卡一区二区三区| 国产精品白浆无码流出| 五月婷婷亚洲综合| 国内精品久久久久影视老司机| 思热99re视热频这里只精品| 亚洲一级一区二区三区| 亚洲精品一区久久久久久| 久久乐国产精品亚洲综合| 性人久久久久| 99国产成人高清在线视频| 久久久国产精品| 免费现黄频在线观看国产| 熟女国产精品| 中文字幕亚洲综合久久综合| 亚洲不卡1卡2卡三卡2021麻豆| 国产成人av无码永久免费一线天 | 国产av大陆精品一区二区三区| 久久久噜噜噜久久久| 国产高清不卡| 国产精品51麻豆cm传媒| A片黄色| 欧美综合自拍亚洲综合区| 亚洲国产成人手机在线电影bd| 国产乱子伦60女人的皮视频| 性无码专区无码片| 人妻丝袜| 亚洲第一黄色网址| 国产成人福利av一区二区三区| 亚洲视频黄| 少妇高潮太爽了在线观看|