網易首頁 > 網易號 > 正文申請入駐

DeepSeek連夜刪掉的新論文，到底說了什么

2026-05-01 08:25:39　來源: AppSo

廣東舉報

分享至

昨晚 DeepSeek 多模態研究員陳小康在 X 上發了一條推，并公布了DeepSeek 關于多模態技術的新論文《Thinking with Visual Primitives》，表示「Excited to release」。

今天一早，推文刪了，GitHub 上的論文也撤了。

但 APPSO 在它消失之前把全文讀完了。讀完之后覺得，這篇論文被撤可能不是因為內容有問題。

恰恰相反，它可能透露了太多了。

前天我們剛，讓它數手指，它思考了一通，自己吐槽「我真的是數暈了」，然后答錯了。當時以為是灰測階段的小問題。

這篇論文告訴我們，數手指數暈這件事，背后藏著一個 GPT、Claude、Gemini 集體沒解好的技術瓶頸。

而 DeepSeek 給出的解法，說出來幾乎有點可笑的樸素：給 AI 裝一根手指。

陳小康在那條推文里寫道：

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

「傳統的思維鏈停留在語言空間里，但視覺推理需要更多。通過使用點和框作為認知錨點，我們的模型彌合了「引用鴻溝」，模擬了人類「邊指邊想」的協同機制。」

看得清和指得準，是兩回事

目前所有多模態大模型做圖像推理，本質都是把看到的畫面轉化成文字，然后在文字空間里做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash，全是這個路子。

過去兩年，OpenAI、Google、Anthropic 的改進方向集中在一個問題：怎么讓模型看得更清楚。高分辨率裁切、動態分塊、把圖片放大再塞進去。DeepSeek 管這個叫 Perception Gap，感知鴻溝。

但這篇論文指出了另一個瓶頸：Reference Gap，引用鴻溝。模型看清了，但在推理過程中沒法精確指向圖中的某個東西。

你可以這樣理解：一張圖里 25 個人密密麻麻站在一起，你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」，描述本身就是模糊的。模型數著數著就丟了上下文，忘了剛才數到誰。

人類怎么解決這個問題？夠原始的：伸出手指，指一個數一個。

284B 參數的模型，裝上了一根手指

DeepSeek 的方案：讓模型在思考過程中直接輸出圖片上的坐標。

想象一下，模型看到一張圖里有很多人，它的思維鏈不再是「我看到左邊有個穿藍衣服的人」，而是「我看到這個人」然后附上一個框的坐標，把人圈出來。每數一個人就圈一個框，圈完之后數框的數量就行了。

兩種坐標格式：一種是框（bounding box），畫個矩形把物體圈住，適合標定物體位置；一種是點（point），在圖上戳一個位置，適合追蹤路徑和走迷宮。DeepSeek 管這兩種東西叫「視覺原語」，最小的思維單元。

關鍵變化在這里：以前模型輸出坐標是作為最終答案（「目標在這里」），現在坐標嵌入了思考過程本身。坐標是草稿紙上的標記，不是答卷上的答案。

把一張圖壓縮 7056 倍，然后還能數清楚里面有幾個人

模型底座是 DeepSeek-V4-Flash，一個 284B 參數的 MoE 模型。MoE 的意思是：模型腦子很大，但每次回答問題只調用一小部分神經元來干活，推理時只激活 13B 參數。類似于一個百人團隊，每個任務只派 5 個人上場。

視覺編碼器這邊，做了三級壓縮。打個比方：你有一張照片要發給朋友，網速很慢。第一步，你把照片切成小方格備用；第二步，每 9 個小方格合并成 1 個（3×3 壓縮）；第三步，再在傳輸時進一步精簡掉冗余信息（KV Cache 壓縮 4 倍）。

實際數字：一張 756×756 的圖，57 萬像素，一路壓下去變成 81 個信息單元。壓縮比 7,056 倍。

我看到這個數字的第一反應是：這還能看清東西？但論文里的結果說明，確實能。不光能看清，還能精確數出圖里有 25 個人。

對比一下：同樣 800×800 的圖，Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖，Claude-Sonnet-4.6 約 870 個，GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個信息單元。別人用一千多個格子來記住一張圖，DeepSeek 用 90 個格子就夠了，然后騰出來的算力全拿去「指」。

4000 萬條訓練數據怎么攢出來的

DeepSeek 從 Huggingface 等平臺把所有帶「目標檢測」標簽的數據集都爬了下來，初篩得到 97,984 個數據源。

然后做了兩輪篩選。

第一輪查標簽質量。用 AI 自動審核三類問題：標簽是無意義的數字編號（類別名叫「0」「1」的那種）、標簽是私人實體（「MyRoommate」）、標簽是模糊縮寫（工業檢測里的「OK」「NG」，一個蘋果「OK」和一個電路板「OK」長得完全不一樣，AI 學不了）。這輪砍掉 56%，剩 43,141 個。

第二輪查框的質量。三個標準：漏標太多的（標了一半就不標了）、框畫歪了切掉物體一半的、框大到把整張圖都框住的（說明原始數據是圖片分類硬轉成的檢測數據，沒有定位信息）。再砍 27%，剩 31,701 個。

最后按類別采樣、去重，產出超過 4000 萬高質量樣本。

DeepSeek 選擇先把框的數據做大，點的數據后面再補。原因也簡單：你讓 AI 標一個框，答案基本唯一（把物體剛好圈住）；但讓 AI 標一個點，物體上哪個位置都算對，沒有唯一正確答案，訓練信號太模糊。而且框本身就包含了兩個點（左上角和右下角），學會畫框之后標點就是降維操作。

怎么把「指」這個能力教給模型

后訓練的策略是「先分頭練，再合并」。

DeepSeek 先拿框的數據訓練一個專門畫框的專家模型，再拿點的數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大，兩種能力混在一起容易互相干擾。

然后對兩個專家分別做強化學習。怎么判斷模型「畫對了框」或「走對了路」？DeepSeek 設計了一套多維度的打分系統：格式對不對（坐標語法正確嗎）、邏輯通不通（思考過程有沒有自相矛盾）、答案準不準（最終結果和標準答案差多少）。

強化學習的數據篩選也有講究：先讓模型做 N 遍同一道題，全做對的題太簡單沒訓練價值，全做錯的題太難學不到東西，只留「有對有錯」的題來練。

最后一步是把兩個專家的能力合到一個模型里。具體做法：讓統一模型照著兩個專家的輸出去學，類似于一個學生同時跟兩個老師學不同科目。

給了它手指之后，它是怎么數數的

數 25 個人

給模型一張足球隊合照，問「圖里有多少人？」

思考過程：先判斷「這是團隊合照，要數所有人，包括球員和教練」。然后一次性輸出 25 個框坐標，每個人身上圈一個框。接著按排數統計：前排坐著 4 個 + 中排 9 個 + 后排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。

「地上的熊有幾只？」

圖中有三只熊。模型逐一給每只畫框并判斷位置：第一只，在樹干上垂直攀爬，排除；第二只，在巖石邊緣走動，算；第三只，在碎木和泥土間，算。答案：2 只。

不是先數出三只再減一只，而是對每只都做了「是不是在地面上」的判斷，每個判斷背后都有一個具體坐標錨定。它真的在逐個檢查，不是在猜。

多跳空間推理

一個 3D 渲染場景里有一堆彩色幾何體。問題：「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大？」

模型先框出灰色金屬球體，確認是個小號物體。然后逐一框出場景里其他小號物體：棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐個查，顏色、材質、大小三個屬性一一核對。結論：不存在紫色橡膠的。

六次定位，六次判斷。每一步都有坐標錨著，不會出現「等等剛才查到哪了」的情況。

論文中更多案例參考：

迷宮導航：別人擲硬幣，DeepSeek 真的在搜索

論文測了四種任務，迷宮是差距拉得最開的一個。

任務很直接：給一張迷宮圖，問從起點到終點有沒有路，有的話畫出來。迷宮有三種形狀，方格的、圓環的、蜂巢的。

模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣：選一條岔路走到頭，走不通就退回來試另一條。區別是它每走一步都在圖上標一個坐標點，留下記錄。

論文里展示了一個圓形迷宮的完整過程：模型先標出起點和終點的位置，然后開始探索。走了 18 步，中間兩次鉆進死胡同又退出來，最后繞出了一條通路，把整條路徑的坐標點串起來輸出。

DeepSeek 還設計了一批陷阱迷宮：乍一看有路，但中間某段被偷偷堵住了。這種迷宮考的是耐心，模型不能只看起點附近的走勢就下結論，得老老實實把能走的路都試一遍才能確認走不通。

準確率對比：

- DeepSeek：66.9%

- GPT-5.4：50.6%

- Claude-Sonnet-4.6：48.9%

- Gemini-3-Flash：49.4%

- Qwen3-VL：49.6%

迷宮只有兩種答案：有路，或者沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃，跟擲硬幣沒什么區別。DeepSeek 的 66.9% 不算高，但它確實是在一步步走的，不是在蒙。

路徑追蹤：大家來找茬的終極版本

這個任務更直觀：一堆線纏在一起，每條線從一個標記通向另一個標記。你的耳機線從口袋里掏出來是什么樣，畫面就是什么樣。題目問你：C 這條線通向哪個終點？

模型的做法是沿著線一路輸出坐標點，像手指劃過紙面。線彎得厲害的地方點標得密，直線段標得疏。人用眼睛追一根線的時候也是這樣，彎道處慢下來，直線處一掃而過。

論文還加了一個加難版測試：所有線顏色粗細都一樣。不能靠顏色區分是哪根線了，只能靠曲線本身的走勢連續性來判斷交叉口該跟著哪條走。

- DeepSeek：56.7%

- GPT-5.4：46.5%

- Claude-Sonnet-4.6：30.6%

- Gemini-3-Flash：41.4%

Claude 的 30.6% 有點出乎意料。終點一般有四五個選項，隨機猜也該有 20% 出頭，30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上，語言推理的慣性反而幫了倒忙。

怎么教 AI 走迷宮不作弊

迷宮的訓練有一個現實問題：如果只看最終答對沒答對來給分，模型很快就學精了，與其費勁搜索還可能答錯，不如直接猜一個，反正認真走了答錯跟沒走答錯，分數一樣是零。

DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分，穿墻扣分，走得越遠越好。哪怕最后沒到終點，只要認真搜索了大部分區域，也能拿到不錯的成績。這樣一來，模型就沒有偷懶的動力了。

不可解迷宮的要求更高：不能光說一句「走不通」，還得證明你確實把能到的地方都走遍了。搜索覆蓋率也算分。

一個彩蛋，三個局限

后訓練數據里沒有中文。但模型能用中文做視覺原語推理。

給它一張咖啡機的照片，用中文問「怎么做拿鐵」，它用中文標注了蒸汽棒、奶壺、咖啡豆、拿鐵按鈕的位置坐標，然后給出操作步驟。多語言能力是從基座模型那里繼承的，視覺原語的訓練沒有把它破壞掉。

它還能把看圖和世界知識結合起來：給一張金門大橋的照片問「這附近有 NBA 球隊嗎？」它先框出金門大橋，推理出這是舊金山，然后回答金州勇士隊。

能理解幽默：一塊水果切面上的天然斑點恰好組成了一張憂郁貓臉的模樣，模型能指出相似點在哪里并解釋為什么好笑。

能做密室逃脫指導：框出高處的鑰匙、地板上的椅子、帶鎖的門，建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。

論文很坦誠地寫了目前做不到的事。

輸入分辨率有限制。ViT 輸出被卡在 81 到 384 個視覺信息單元之間，遇到很精細的場景（比如數手指這種），坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。

目前需要特定觸發詞才能激活視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」，得有人提醒它。

拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好，換一種新的空間結構就可能掉鏈子。陳小康在那條已刪推文里也說了：

「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

「我們還在早期階段，復雜拓撲推理任務的泛化還不完善，但我們會持續解決。」

前天實測時，DeepSeek 識圖模式展現的那些能力（追問發布者身份、聯想鯨魚 logo 含義、自我糾正、給自己開「小型答辯會」），和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點，圍繞錨點做推理，碰到矛盾就回溯修正。

而數手指數暈了，就是 Reference Gap 的活體演示。手指交叉重疊的畫面里，純靠語言描述去區分「從左數第三根」和「從右數第二根」，跟你自己不伸手指去數一群擠在一起的人一個道理，注定混亂。

這篇論文指向的方向是：多模態推理的下一步進化在錨定機制上。DeepSeek 用 90 個信息單元就打平了別人用上千 token 的效果，省下來的算力全拿去讓模型「一邊想一邊指」。

分辨率軍備競賽可以緩一緩了，教會模型伸出手指，比給它配一副更貴的眼鏡管用。

這只鯨魚開了眼之后，還長出了手指。66.9% 的迷宮準確率離完美還遠，但至少它在認真走，不像隔壁那幾位在擲硬幣。

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.