網易首頁 > 網易號 > 正文申請入駐

DeepSeek 新論文，多模態的正確打開方式

2026-05-04 11:25:08　來源: Ai學習的老章

北京舉報

分享至

今天再來聊聊 DeepSeek 聯手北大、清華甩出的新論文 ——《Thinking with Visual Primitives》（用視覺原語思考）

短暫發到Github后被撤回了，原因不明，趁假期看看論文都有什么巧思

戳到了多模態的痛點

今天的多模態大模型（MLLM）幾乎都在卷一件事：Perception Gap（感知鴻溝）

說人話——圖看不清、看不全

于是大家拼命往里堆視覺 token，高分辨率切片、動態 patch，恨不得把每個像素都塞進上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 處理一張 800×800 的圖，普遍要吃掉 700~1100 個視覺 token

但 DeepSeek 團隊點出了一個更要命的問題：Reference Gap（指代鴻溝）。

什么意思？你讓模型"數一數圖里有幾只皮卡丘"，它"看見了"，但用文字思考的時候，根本說不清"哦那只在左上角帶帽子的、和右下角被半遮住的是不是同一只"。語言天生不擅長指代連續的視覺空間，于是越推理越亂，幻覺一層疊一層。

這事兒很反直覺但又很對——人類自己數密集物體的時候也得用手指點一點，對吧？

下圖是論文開頭那張對比，左邊是 KV Cache 占用，右邊是 7 個 benchmark 的平均分。這家伙 KV Cache 只用 90 條左右，分數卻跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一檔：

token效率與平均得分對比核心思路：讓"點和框"成為思考的最小單元

DeepSeek 的解法聽起來樸素，做起來不容易：

? 把空間標記（points 和 bounding boxes）從"輸出結果"提升為"思考的最小單元"，和文字 token 交替出現在 CoT 思維鏈里

打個比方：以前的模型像一個只會用嘴說話的人在描述一幅畫，"那個穿紅衣服的、不對是另一個、嗯左邊那個……"；現在的模型像一個邊說話邊伸手指的人，每次提到某個對象，直接附帶一個坐標 <｜point｜>[[309,512]]<｜/point｜> 或框 <｜box｜>[[x1,y1,x2,y2]]<｜/box｜>

邏輯就錨定在物理坐標上了，再也不會"指著指著就忘了剛才指的是哪個"

下圖是它的整體架構和訓練流程，基于 DeepSeek-V4-Flash（284B 總參 / 13B 激活的 MoE）和自研的 DeepSeek-ViT：

模型架構與訓練流程

視覺部分有幾個值得關注的工程細節：

ViT 出口先做 3×3 空間壓縮 ：每 9 個相鄰 patch token 合成 1 個，沿通道維拼接
Compressed Sparse Attention（CSA）繼續壓 4 倍 KV ：放進 LLM 的 KV Cache 里只剩極小一部分
整體壓縮比 7056× ：一張 756×756 的圖，571536 個像素，最后只占 81 個 KV 條目

這就是為什么它的 token 預算能壓到對手的 1/8，同時還把性能維持住——壓縮本來就是 DeepSeek 的看家本領（看過 DeepSeek-OCR 那篇的同學應該有印象，這家公司是真的癡迷于"用更少 token 裝下更多信息"）

訓練怎么搞：先海量灌"框"，再 RL 學"點"

這部分我讀得最仔細。DeepSeek 團隊沒用 COCO、Pixmo-Points 這類老數據集（量太小、多樣性差），而是自己抓了大規模 web 數據來標 bbox

為什么優先 bbox 不是 point？三個理由很硬：

bbox 的標注是確定性的 ——一個點可以落在物體的任何位置，沒有標準答案；框緊緊包住物體，標注穩定
bbox 能泛化到 point ——左上角和右下角兩個點就能定義一個框，反過來不行
bbox 信息更豐富 ——除了位置還有寬高，更適合復雜推理

后訓練階段是論文最有意思的部分：專家化 SFT + 專項 RL + 統一 RFT + On-Policy 蒸餾的四段式流水線。每個能力（計數、空間推理、迷宮、路徑追蹤）單獨訓出一個專家，再合并蒸餾成統一模型

特別是迷宮導航的 RL 獎勵設計，拆得很細：路徑覆蓋度、探索完整度、墻壁判斷準確率、最終路徑有效性……這套機制讓模型真的學會了先標起點和終點 → 試探性探索 → 回溯 → 給出完整路徑的人類式解題流程

跑分成績：拓撲推理領先一個身位

直接上表，11 個 benchmark 橫向對比：

與前沿模型的對比

我重點看這幾個數字：

CountQA（EM/RA@10） ：64.9/74.1，比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截，僅次于 Gemini-3-Flash
Pixmo-Count ：89.2，全場第一
DS_Spatial_Reasoning ：98.7，斷崖領先
DS_Maze_Navigation（迷宮導航） ：66.9，第二名 GPT-5.4 才 50.6
DS_Path_Tracing（路徑追蹤） ：56.7，第二名 GPT-5.4 才 46.5

特別值得說道的是迷宮和路徑這兩項——所有前沿大模型基本卡在 50% 上下（跟瞎猜沒差太多），DeepSeek 這套方法直接拉到 66.9% 和 56.7%

這說明純靠語言 CoT 真做不動拓撲推理，必須給模型一根"手指頭"

實戰 case：邊想邊指是什么樣

光看分數沒感覺，看幾個實際推理過程。

例 1：數圖里的皮卡丘

模型一邊推理一邊在圖上畫框，把每只 Pokemon 的位置全標出來，最后給出 6 這個答案：

細粒度計數案例

例 2：中文 + 世界知識 + 空間定位

注意，論文明確說后訓練數據里沒有中文視覺原語語料，但模型靠基座的多語言能力直接秒了一個中文世界地理問題——"這附近有 NBA 球隊嗎？" 它先框出"彩色的金門大橋"，識別出舊金山，再回答勇士隊。這種跨能力涌現是真有意思：

中文世界知識推理案例

例 3：迷宮導航——這才是"視覺原語"真正的舞臺

模型先用 <｜point｜> 標記起點（綠菱形）和終點（紅標簽），然后一步步在迷宮里點出探索路徑，遇到死路就回溯，最后輸出完整可達路徑或判定不可解：

迷宮導航案例

這個過程幾乎就是把人類拿手指在迷宮上比劃的動作翻譯成了 token 序列，看著就很"像在思考"

老章的幾點觀察

1. 這是 DeepSeek 一以貫之的"壓縮哲學"

從 DeepSeek-OCR 的"用圖像 token 壓縮文本"，到這篇的"用視覺原語壓縮思考"，DeepSeek 一直在做同一件事：讓模型用更少的 token 干更多的事。這是真正在工程上摳極限的團隊，相比之下隔壁某些"暴力堆參數"的路線顯得很粗糙

2. Reference Gap 這個問題提得相當犀利

之前業界一窩蜂在 Perception Gap 上卷，DeepSeek 直接把戰場往前推了一格。一旦你接受了"語言無法精確指代視覺空間"這個前提，就會發現現在主流多模態模型在密集計數、迷宮、復雜場景理解上的崩盤，根源都在這里

3. 局限也別忽略

論文自己承認了三點：

受限輸入分辨率，細粒度場景下視覺原語輸出仍有偏差
當前還得靠"觸發詞"啟動這個機制，不能自適應判斷什么時候該用
用 point 解決復雜拓撲推理，跨場景泛化還不夠好

短期內這套范式還需要更多打磨，但方向我覺得是對的。

4. 對開發者意味著什么

如果你做的產品涉及：

復雜圖表 / UI 截圖理解
倉儲、零售場景的密集物體計數
工業圖紙、電路圖、地圖這類需要拓撲推理的場景
機器人路徑規劃相關的 VLM

那這套思路非常值得關注。理論上，未來 DeepSeek-V4-VL（如果開源的話）會讓這些場景的精度上一個臺階。

總結

這篇論文最大的價值不在于又跑贏了 GPT 和 Claude，而在于指出了多模態的下一道坎在哪——從"看清"走到"想清"，需要讓模型獲得"指點的能力"

技術上，DeepSeek 用極致 token 效率 + 視覺原語 CoT + 專家化訓練流水線，給出了一條可走通的路徑。論文里展示的迷宮 case 和中文涌現能力，讓人有種"哎，多模態原來還可以這么玩"的感覺

我會持續盯著，第一時間給大家帶來后續動向

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.