<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek連夜刪掉的新論文,到底說了什么

      0
      分享至

      昨晚 DeepSeek 多模態研究員陳小康在 X 上發了一條推,并公布了DeepSeek 關于多模態技術的新論文《Thinking with Visual Primitives》,表示「Excited to release」。


      今天一早,推文刪了,GitHub 上的論文也撤了。


      但 APPSO 在它消失之前把全文讀完了。讀完之后覺得,這篇論文被撤可能不是因為內容有問題。

      恰恰相反,它可能透露了太多了。

      前天我們剛,讓它數手指,它思考了一通,自己吐槽「我真的是數暈了」,然后答錯了。當時以為是灰測階段的小問題。


      這篇論文告訴我們,數手指數暈這件事,背后藏著一個 GPT、Claude、Gemini 集體沒解好的技術瓶頸。

      而 DeepSeek 給出的解法,說出來幾乎有點可笑的樸素:給 AI 裝一根手指


      陳小康在那條推文里寫道:

      「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」

      「傳統的思維鏈停留在語言空間里,但視覺推理需要更多。通過使用點和框作為認知錨點,我們的模型彌合了「引用鴻溝」,模擬了人類「邊指邊想」的協同機制。」

      看得清和指得準,是兩回事

      目前所有多模態大模型做圖像推理,本質都是把看到的畫面轉化成文字,然后在文字空間里做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全是這個路子。

      過去兩年,OpenAI、Google、Anthropic 的改進方向集中在一個問題:怎么讓模型看得更清楚。高分辨率裁切、動態分塊、把圖片放大再塞進去。DeepSeek 管這個叫 Perception Gap,感知鴻溝。

      但這篇論文指出了另一個瓶頸:Reference Gap,引用鴻溝。模型看清了,但在推理過程中沒法精確指向圖中的某個東西。

      你可以這樣理解:一張圖里 25 個人密密麻麻站在一起,你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」,描述本身就是模糊的。模型數著數著就丟了上下文,忘了剛才數到誰。

      人類怎么解決這個問題?夠原始的:伸出手指,指一個數一個。

      284B 參數的模型,裝上了一根手指

      DeepSeek 的方案:讓模型在思考過程中直接輸出圖片上的坐標。

      想象一下,模型看到一張圖里有很多人,它的思維鏈不再是「我看到左邊有個穿藍衣服的人」,而是「我看到這個人」然后附上一個框的坐標,把人圈出來。每數一個人就圈一個框,圈完之后數框的數量就行了。

      兩種坐標格式:一種是框(bounding box),畫個矩形把物體圈住,適合標定物體位置;一種是點(point),在圖上戳一個位置,適合追蹤路徑和走迷宮。DeepSeek 管這兩種東西叫「視覺原語」,最小的思維單元。

      關鍵變化在這里:以前模型輸出坐標是作為最終答案(「目標在這里」),現在坐標嵌入了思考過程本身。坐標是草稿紙上的標記,不是答卷上的答案。

      把一張圖壓縮 7056 倍,然后還能數清楚里面有幾個人

      模型底座是 DeepSeek-V4-Flash,一個 284B 參數的 MoE 模型。MoE 的意思是:模型腦子很大,但每次回答問題只調用一小部分神經元來干活,推理時只激活 13B 參數。類似于一個百人團隊,每個任務只派 5 個人上場。

      視覺編碼器這邊,做了三級壓縮。打個比方:你有一張照片要發給朋友,網速很慢。第一步,你把照片切成小方格備用;第二步,每 9 個小方格合并成 1 個(3×3 壓縮);第三步,再在傳輸時進一步精簡掉冗余信息(KV Cache 壓縮 4 倍)。

      實際數字:一張 756×756 的圖,57 萬像素,一路壓下去變成 81 個信息單元。壓縮比 7,056 倍。

      我看到這個數字的第一反應是:這還能看清東西?但論文里的結果說明,確實能。不光能看清,還能精確數出圖里有 25 個人。


      對比一下:同樣 800×800 的圖,Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖,Claude-Sonnet-4.6 約 870 個,GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個信息單元。別人用一千多個格子來記住一張圖,DeepSeek 用 90 個格子就夠了,然后騰出來的算力全拿去「指」。

      4000 萬條訓練數據怎么攢出來的

      DeepSeek 從 Huggingface 等平臺把所有帶「目標檢測」標簽的數據集都爬了下來,初篩得到 97,984 個數據源。

      然后做了兩輪篩選。

      第一輪查標簽質量。用 AI 自動審核三類問題:標簽是無意義的數字編號(類別名叫「0」「1」的那種)、標簽是私人實體(「MyRoommate」)、標簽是模糊縮寫(工業檢測里的「OK」「NG」,一個蘋果「OK」和一個電路板「OK」長得完全不一樣,AI 學不了)。這輪砍掉 56%,剩 43,141 個。

      第二輪查框的質量。三個標準:漏標太多的(標了一半就不標了)、框畫歪了切掉物體一半的、框大到把整張圖都框住的(說明原始數據是圖片分類硬轉成的檢測數據,沒有定位信息)。再砍 27%,剩 31,701 個。

      最后按類別采樣、去重,產出超過 4000 萬高質量樣本。

      DeepSeek 選擇先把框的數據做大,點的數據后面再補。原因也簡單:你讓 AI 標一個框,答案基本唯一(把物體剛好圈住);但讓 AI 標一個點,物體上哪個位置都算對,沒有唯一正確答案,訓練信號太模糊。而且框本身就包含了兩個點(左上角和右下角),學會畫框之后標點就是降維操作。

      怎么把「指」這個能力教給模型

      后訓練的策略是「先分頭練,再合并」。

      DeepSeek 先拿框的數據訓練一個專門畫框的專家模型,再拿點的數據訓練一個專門標點的專家模型。分開訓練是因為數據量還不夠大,兩種能力混在一起容易互相干擾。

      然后對兩個專家分別做強化學習。怎么判斷模型「畫對了框」或「走對了路」?DeepSeek 設計了一套多維度的打分系統:格式對不對(坐標語法正確嗎)、邏輯通不通(思考過程有沒有自相矛盾)、答案準不準(最終結果和標準答案差多少)。

      強化學習的數據篩選也有講究:先讓模型做 N 遍同一道題,全做對的題太簡單沒訓練價值,全做錯的題太難學不到東西,只留「有對有錯」的題來練。

      最后一步是把兩個專家的能力合到一個模型里。具體做法:讓統一模型照著兩個專家的輸出去學,類似于一個學生同時跟兩個老師學不同科目。

      給了它手指之后,它是怎么數數的

      數 25 個人


      給模型一張足球隊合照,問「圖里有多少人?」

      思考過程:先判斷「這是團隊合照,要數所有人,包括球員和教練」。然后一次性輸出 25 個框坐標,每個人身上圈一個框。接著按排數統計:前排坐著 4 個 + 中排 9 個 + 后排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。

      「地上的熊有幾只?」


      圖中有三只熊。模型逐一給每只畫框并判斷位置:第一只,在樹干上垂直攀爬,排除;第二只,在巖石邊緣走動,算;第三只,在碎木和泥土間,算。答案:2 只。

      不是先數出三只再減一只,而是對每只都做了「是不是在地面上」的判斷,每個判斷背后都有一個具體坐標錨定。它真的在逐個檢查,不是在猜。

      多跳空間推理


      一個 3D 渲染場景里有一堆彩色幾何體。問題:「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大?」

      模型先框出灰色金屬球體,確認是個小號物體。然后逐一框出場景里其他小號物體:棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐個查,顏色、材質、大小三個屬性一一核對。結論:不存在紫色橡膠的。

      六次定位,六次判斷。每一步都有坐標錨著,不會出現「等等剛才查到哪了」的情況。

      論文中更多案例參考:


      迷宮導航:別人擲硬幣,DeepSeek 真的在搜索

      論文測了四種任務,迷宮是差距拉得最開的一個。

      任務很直接:給一張迷宮圖,問從起點到終點有沒有路,有的話畫出來。迷宮有三種形狀,方格的、圓環的、蜂巢的。

      模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣:選一條岔路走到頭,走不通就退回來試另一條。區別是它每走一步都在圖上標一個坐標點,留下記錄。

      論文里展示了一個圓形迷宮的完整過程:模型先標出起點和終點的位置,然后開始探索。走了 18 步,中間兩次鉆進死胡同又退出來,最后繞出了一條通路,把整條路徑的坐標點串起來輸出。

      DeepSeek 還設計了一批陷阱迷宮:乍一看有路,但中間某段被偷偷堵住了。這種迷宮考的是耐心,模型不能只看起點附近的走勢就下結論,得老老實實把能走的路都試一遍才能確認走不通。


      準確率對比:

      - DeepSeek:66.9%

      - GPT-5.4:50.6%

      - Claude-Sonnet-4.6:48.9%

      - Gemini-3-Flash:49.4%

      - Qwen3-VL:49.6%

      迷宮只有兩種答案:有路,或者沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟擲硬幣沒什么區別。DeepSeek 的 66.9% 不算高,但它確實是在一步步走的,不是在蒙。

      路徑追蹤:大家來找茬的終極版本

      這個任務更直觀:一堆線纏在一起,每條線從一個標記通向另一個標記。你的耳機線從口袋里掏出來是什么樣,畫面就是什么樣。題目問你:C 這條線通向哪個終點?

      模型的做法是沿著線一路輸出坐標點,像手指劃過紙面。線彎得厲害的地方點標得密,直線段標得疏。人用眼睛追一根線的時候也是這樣,彎道處慢下來,直線處一掃而過。


      論文還加了一個加難版測試:所有線顏色粗細都一樣。不能靠顏色區分是哪根線了,只能靠曲線本身的走勢連續性來判斷交叉口該跟著哪條走。

      - DeepSeek:56.7%

      - GPT-5.4:46.5%

      - Claude-Sonnet-4.6:30.6%

      - Gemini-3-Flash:41.4%

      Claude 的 30.6% 有點出乎意料。終點一般有四五個選項,隨機猜也該有 20% 出頭,30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上,語言推理的慣性反而幫了倒忙。

      怎么教 AI 走迷宮不作弊

      迷宮的訓練有一個現實問題:如果只看最終答對沒答對來給分,模型很快就學精了,與其費勁搜索還可能答錯,不如直接猜一個,反正認真走了答錯跟沒走答錯,分數一樣是零。

      DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分,穿墻扣分,走得越遠越好。哪怕最后沒到終點,只要認真搜索了大部分區域,也能拿到不錯的成績。這樣一來,模型就沒有偷懶的動力了。

      不可解迷宮的要求更高:不能光說一句「走不通」,還得證明你確實把能到的地方都走遍了。搜索覆蓋率也算分。

      一個彩蛋,三個局限

      后訓練數據里沒有中文。但模型能用中文做視覺原語推理。

      給它一張咖啡機的照片,用中文問「怎么做拿鐵」,它用中文標注了蒸汽棒、奶壺、咖啡豆、拿鐵按鈕的位置坐標,然后給出操作步驟。多語言能力是從基座模型那里繼承的,視覺原語的訓練沒有把它破壞掉。


      它還能把看圖和世界知識結合起來:給一張金門大橋的照片問「這附近有 NBA 球隊嗎?」它先框出金門大橋,推理出這是舊金山,然后回答金州勇士隊。


      能理解幽默:一塊水果切面上的天然斑點恰好組成了一張憂郁貓臉的模樣,模型能指出相似點在哪里并解釋為什么好笑。


      能做密室逃脫指導:框出高處的鑰匙、地板上的椅子、帶鎖的門,建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。


      論文很坦誠地寫了目前做不到的事。

      輸入分辨率有限制。ViT 輸出被卡在 81 到 384 個視覺信息單元之間,遇到很精細的場景(比如數手指這種),坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。

      目前需要特定觸發詞才能激活視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」,得有人提醒它。

      拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好,換一種新的空間結構就可能掉鏈子。陳小康在那條已刪推文里也說了:

      「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」

      「我們還在早期階段,復雜拓撲推理任務的泛化還不完善,但我們會持續解決。」

      前天實測時,DeepSeek 識圖模式展現的那些能力(追問發布者身份、聯想鯨魚 logo 含義、自我糾正、給自己開「小型答辯會」),和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點,圍繞錨點做推理,碰到矛盾就回溯修正。

      而數手指數暈了,就是 Reference Gap 的活體演示。手指交叉重疊的畫面里,純靠語言描述去區分「從左數第三根」和「從右數第二根」,跟你自己不伸手指去數一群擠在一起的人一個道理,注定混亂。

      這篇論文指向的方向是:多模態推理的下一步進化在錨定機制上。DeepSeek 用 90 個信息單元就打平了別人用上千 token 的效果,省下來的算力全拿去讓模型「一邊想一邊指」。


      分辨率軍備競賽可以緩一緩了,教會模型伸出手指,比給它配一副更貴的眼鏡管用。

      這只鯨魚開了眼之后,還長出了手指。66.9% 的迷宮準確率離完美還遠,但至少它在認真走,不像隔壁那幾位在擲硬幣。

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      浙江12歲男孩跟隨家長到單位“上班”,因無聊玩打火機點燃紙巾,差點燒掉一間辦公室!一片狼藉……

      浙江12歲男孩跟隨家長到單位“上班”,因無聊玩打火機點燃紙巾,差點燒掉一間辦公室!一片狼藉……

      環球網資訊
      2026-05-10 15:57:07
      2009年,98歲錢學森臨終前坦言:對我影響最深的不是導師馮·卡門

      2009年,98歲錢學森臨終前坦言:對我影響最深的不是導師馮·卡門

      飯小妹說歷史
      2026-05-10 10:18:21
      300449,簽超27億元大單!是去年營收的15倍!

      300449,簽超27億元大單!是去年營收的15倍!

      證券時報e公司
      2026-05-10 20:11:11
      克雷桑太強了!山東泰山2:1沖進前4!戰重慶銅梁龍:2將遺憾停賽

      克雷桑太強了!山東泰山2:1沖進前4!戰重慶銅梁龍:2將遺憾停賽

      話體壇
      2026-05-10 20:28:45
      中超爭議判罰!李昊撞人送點,何龍海捶打草坪,西海岸遭絕平

      中超爭議判罰!李昊撞人送點,何龍海捶打草坪,西海岸遭絕平

      奧拜爾
      2026-05-10 19:40:47
      “不是找不到工作 是享受的工作真的難找” “網紅教授”鄭強:大學不應完全按市場需求設專業,更應教授原理和基礎

      “不是找不到工作 是享受的工作真的難找” “網紅教授”鄭強:大學不應完全按市場需求設專業,更應教授原理和基礎

      每日經濟新聞
      2026-05-10 17:07:19
      美媒:不是美國不想對付中國,而是它每次轉身,都被中東拽了回去

      美媒:不是美國不想對付中國,而是它每次轉身,都被中東拽了回去

      基斯默默
      2026-05-09 15:25:07
      破案!張皓嘉絕殺前,趙睿故意不防的原因找到,許利民李楠要背鍋

      破案!張皓嘉絕殺前,趙睿故意不防的原因找到,許利民李楠要背鍋

      后仰大風車
      2026-05-10 09:05:17
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      孫穎莎越過鏡頭直奔邱貽可,這個動作究竟打臉了誰?

      孫穎莎越過鏡頭直奔邱貽可,這個動作究竟打臉了誰?

      老瑋是個手藝人
      2026-04-07 06:37:32
      曾火遍全國的玖月奇跡,兩人離婚8年后,如今都怎么樣了?

      曾火遍全國的玖月奇跡,兩人離婚8年后,如今都怎么樣了?

      林輕吟
      2026-05-10 22:01:35
      結不起還是結不動?一季度全國結婚登記再創紀錄新低

      結不起還是結不動?一季度全國結婚登記再創紀錄新低

      聽心堂
      2026-05-10 17:04:06
      2-1!王彤補時讀秒丟球!韓鵬兄弟遭戲耍!泰山關系戶再成笑柄

      2-1!王彤補時讀秒丟球!韓鵬兄弟遭戲耍!泰山關系戶再成笑柄

      建哥說體育
      2026-05-10 20:17:27
      電商白嫖黨新套路,直播穿完就退貨,商家血虧還幫洗衣服

      電商白嫖黨新套路,直播穿完就退貨,商家血虧還幫洗衣服

      燕梳樓頻道
      2026-05-09 21:42:19
      美伊一場大戰,永久改變了伊朗,伊朗最高領袖不再“說一不二”

      美伊一場大戰,永久改變了伊朗,伊朗最高領袖不再“說一不二”

      琴音繚繞回
      2026-05-10 22:46:05
      湖人本輪季后賽出局的最大元兇,是他!打崩湖人,年薪僅300萬!

      湖人本輪季后賽出局的最大元兇,是他!打崩湖人,年薪僅300萬!

      漫川舟船
      2026-05-11 00:46:08
      韓媒曾說:一旦開戰,將對北京發起“致命打擊”,大連、青島在列

      韓媒曾說:一旦開戰,將對北京發起“致命打擊”,大連、青島在列

      懸崖那枝花
      2026-05-09 18:56:20
      徐正源開門黑!遼寧鐵人六連敗,36天7戰不勝,延續3魔咒

      徐正源開門黑!遼寧鐵人六連敗,36天7戰不勝,延續3魔咒

      奧拜爾
      2026-05-10 20:58:15
      2026最讓人羨慕的三大生肖!全年順風順水,連煩惱都繞著走

      2026最讓人羨慕的三大生肖!全年順風順水,連煩惱都繞著走

      毅談生肖
      2026-05-08 11:11:05
      白酒大逃殺

      白酒大逃殺

      虎嗅APP
      2026-05-10 05:30:10
      2026-05-11 01:39:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6365文章數 26832關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      頭條要聞

      兒子車禍受傷生存希望不足0.1% 母親請中醫熬"還魂湯"

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      手機
      家居
      游戲
      數碼
      公開課

      手機要聞

      OPPO Reno16系列參數全曝光,就差價格了

      家居要聞

      菁英人居 全能豪宅

      LPL第二賽段:拒絕讓一追二!JDG三局戰勝AL,挺進前三

      數碼要聞

      你昂貴的DDR5內存可能是假貨:穿著三星的馬甲 心里卻是SK海力士

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲欧美日韩在线观看一区二区三区| 国产欧美另类久久久精品丝瓜| 狠狠色丁香五月综合婷婷| 一个本道久久综合久久88| 日韩国产成人无码av毛片| 国产精品国产主播在线观看| 国产亚洲精品综合一区| 午夜成人福利| 亚洲综合一区二区国产精品| 超碰99在线| 在线天堂新版最新版在线8| 少妇无码一区二区三区免费| 精品熟妇av一区二区三区四区| 国产亚洲欧美在线专区| 日韩中文字幕在线不卡一区| 日本亚洲成a人片在线观看| av 日韩 人妻 黑人 综合 无码| 欧美一本大道香蕉综合视频| 91精品啪在线观看国产色| 一区二区三区四区在线不卡高清 | 亚洲日本va午夜中文字幕| 亚洲二页| 久久ww| 国内自拍无码区在线播放| 日本口工视频在线观看网站| 精品久久久久久久中文字幕| 国产精品一区中文字幕| av一区二区三| freeAV爽视频| 中文字幕一区二区三区在线不卡| 思思久久96热在精品不卡| 九九九九热精品视频| 国产青草视频在线观看| 美女无遮挡免费视频网站| 爱爱视频h| 狠狠人妻久久久久久综合蜜桃| 国产午夜视频| 久久伊99综合婷婷久久伊| 国产福利社区一区二区| 福利精品| 久久亚洲A?V|