<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 新論文,多模態的正確打開方式

      0
      分享至

      今天再來聊聊 DeepSeek 聯手北大、清華甩出的新論文 ——《Thinking with Visual Primitives》(用視覺原語思考)


      短暫發到Github后被撤回了,原因不明,趁假期看看論文都有什么巧思

      戳到了多模態的痛點

      今天的多模態大模型(MLLM)幾乎都在卷一件事:Perception Gap(感知鴻溝)

      說人話——圖看不清、看不全

      于是大家拼命往里堆視覺 token,高分辨率切片、動態 patch,恨不得把每個像素都塞進上下文。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 處理一張 800×800 的圖,普遍要吃掉 700~1100 個視覺 token

      但 DeepSeek 團隊點出了一個更要命的問題:Reference Gap(指代鴻溝)

      什么意思?你讓模型"數一數圖里有幾只皮卡丘",它"看見了",但用文字思考的時候,根本說不清"哦那只在左上角帶帽子的、和右下角被半遮住的是不是同一只"。語言天生不擅長指代連續的視覺空間,于是越推理越亂,幻覺一層疊一層。


      這事兒很反直覺但又很對——人類自己數密集物體的時候也得用手指點一點,對吧?

      下圖是論文開頭那張對比,左邊是 KV Cache 占用,右邊是 7 個 benchmark 的平均分。這家伙 KV Cache 只用 90 條左右,分數卻跟 Gemini-3-Flash、GPT-5.4、Claude-Sonnet-4.6 站在同一檔:


      token效率與平均得分對比 核心思路:讓"點和框"成為思考的最小單元

      DeepSeek 的解法聽起來樸素,做起來不容易:

      ? 把空間標記(points 和 bounding boxes)從"輸出結果"提升為"思考的最小單元",和文字 token 交替出現在 CoT 思維鏈里

      打個比方:以前的模型像一個只會用嘴說話的人在描述一幅畫,"那個穿紅衣服的、不對是另一個、嗯左邊那個……";現在的模型像一個邊說話邊伸手指的人,每次提到某個對象,直接附帶一個坐標 <|point|>[[309,512]]<|/point|> 或框 <|box|>[[x1,y1,x2,y2]]<|/box|>

      邏輯就錨定在物理坐標上了,再也不會"指著指著就忘了剛才指的是哪個"

      下圖是它的整體架構和訓練流程,基于 DeepSeek-V4-Flash(284B 總參 / 13B 激活的 MoE)和自研的 DeepSeek-ViT:


      模型架構與訓練流程

      視覺部分有幾個值得關注的工程細節:

      • ViT 出口先做 3×3 空間壓縮 :每 9 個相鄰 patch token 合成 1 個,沿通道維拼接

      • Compressed Sparse Attention(CSA)繼續壓 4 倍 KV :放進 LLM 的 KV Cache 里只剩極小一部分

      • 整體壓縮比 7056× :一張 756×756 的圖,571536 個像素,最后只占 81 個 KV 條目

      這就是為什么它的 token 預算能壓到對手的 1/8,同時還把性能維持住——壓縮本來就是 DeepSeek 的看家本領(看過 DeepSeek-OCR 那篇的同學應該有印象,這家公司是真的癡迷于"用更少 token 裝下更多信息")

      訓練怎么搞:先海量灌"框",再 RL 學"點"

      這部分我讀得最仔細。DeepSeek 團隊沒用 COCO、Pixmo-Points 這類老數據集(量太小、多樣性差),而是自己抓了大規模 web 數據來標 bbox

      為什么優先 bbox 不是 point?三個理由很硬:

      1. bbox 的標注是確定性的 ——一個點可以落在物體的任何位置,沒有標準答案;框緊緊包住物體,標注穩定

      2. bbox 能泛化到 point ——左上角和右下角兩個點就能定義一個框,反過來不行

      3. bbox 信息更豐富 ——除了位置還有寬高,更適合復雜推理

      后訓練階段是論文最有意思的部分:專家化 SFT + 專項 RL + 統一 RFT + On-Policy 蒸餾的四段式流水線。每個能力(計數、空間推理、迷宮、路徑追蹤)單獨訓出一個專家,再合并蒸餾成統一模型

      特別是迷宮導航的 RL 獎勵設計,拆得很細:路徑覆蓋度、探索完整度、墻壁判斷準確率、最終路徑有效性……這套機制讓模型真的學會了先標起點和終點 → 試探性探索 → 回溯 → 給出完整路徑的人類式解題流程

      跑分成績:拓撲推理領先一個身位

      直接上表,11 個 benchmark 橫向對比:


      與前沿模型的對比

      我重點看這幾個數字:

      • CountQA(EM/RA@10) :64.9/74.1,比 GPT-5.4 的 48.3/60.3、Claude-Sonnet-4.6 的 34.8/46.6 高了一大截,僅次于 Gemini-3-Flash

      • Pixmo-Count :89.2,全場第一

      • DS_Spatial_Reasoning :98.7,斷崖領先

      • DS_Maze_Navigation(迷宮導航) :66.9,第二名 GPT-5.4 才 50.6

      • DS_Path_Tracing(路徑追蹤) :56.7,第二名 GPT-5.4 才 46.5

      特別值得說道的是迷宮和路徑這兩項——所有前沿大模型基本卡在 50% 上下(跟瞎猜沒差太多),DeepSeek 這套方法直接拉到 66.9% 和 56.7%

      這說明純靠語言 CoT 真做不動拓撲推理,必須給模型一根"手指頭"

      實戰 case:邊想邊指是什么樣

      光看分數沒感覺,看幾個實際推理過程。

      例 1:數圖里的皮卡丘

      模型一邊推理一邊在圖上畫框,把每只 Pokemon 的位置全標出來,最后給出 6 這個答案:


      細粒度計數案例

      例 2:中文 + 世界知識 + 空間定位

      注意,論文明確說后訓練數據里沒有中文視覺原語語料,但模型靠基座的多語言能力直接秒了一個中文世界地理問題——"這附近有 NBA 球隊嗎?" 它先框出"彩色的金門大橋",識別出舊金山,再回答勇士隊。這種跨能力涌現是真有意思:


      中文世界知識推理案例

      例 3:迷宮導航——這才是"視覺原語"真正的舞臺

      模型先用 <|point|> 標記起點(綠菱形)和終點(紅標簽),然后一步步在迷宮里點出探索路徑,遇到死路就回溯,最后輸出完整可達路徑或判定不可解:


      迷宮導航案例

      這個過程幾乎就是把人類拿手指在迷宮上比劃的動作翻譯成了 token 序列,看著就很"像在思考"

      老章的幾點觀察

      1. 這是 DeepSeek 一以貫之的"壓縮哲學"

      從 DeepSeek-OCR 的"用圖像 token 壓縮文本",到這篇的"用視覺原語壓縮思考",DeepSeek 一直在做同一件事:讓模型用更少的 token 干更多的事。這是真正在工程上摳極限的團隊,相比之下隔壁某些"暴力堆參數"的路線顯得很粗糙

      2. Reference Gap 這個問題提得相當犀利

      之前業界一窩蜂在 Perception Gap 上卷,DeepSeek 直接把戰場往前推了一格。一旦你接受了"語言無法精確指代視覺空間"這個前提,就會發現現在主流多模態模型在密集計數、迷宮、復雜場景理解上的崩盤,根源都在這里

      3. 局限也別忽略

      論文自己承認了三點:

      • 受限輸入分辨率,細粒度場景下視覺原語輸出仍有偏差

      • 當前還得靠"觸發詞"啟動這個機制,不能自適應判斷什么時候該用

      • 用 point 解決復雜拓撲推理,跨場景泛化還不夠好

      短期內這套范式還需要更多打磨,但方向我覺得是對的。

      4. 對開發者意味著什么

      如果你做的產品涉及:

      • 復雜圖表 / UI 截圖理解

      • 倉儲、零售場景的密集物體計數

      • 工業圖紙、電路圖、地圖這類需要拓撲推理的場景

      • 機器人路徑規劃相關的 VLM

      那這套思路非常值得關注。理論上,未來 DeepSeek-V4-VL(如果開源的話)會讓這些場景的精度上一個臺階。

      總結

      這篇論文最大的價值不在于又跑贏了 GPT 和 Claude,而在于指出了多模態的下一道坎在哪——從"看清"走到"想清",需要讓模型獲得"指點的能力"

      技術上,DeepSeek 用極致 token 效率 + 視覺原語 CoT + 專家化訓練流水線,給出了一條可走通的路徑。論文里展示的迷宮 case 和中文涌現能力,讓人有種"哎,多模態原來還可以這么玩"的感覺

      我會持續盯著,第一時間給大家帶來后續動向

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摩洛哥姑娘嫁江蘇農村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      摩洛哥姑娘嫁江蘇農村小伙,婚禮全程開心大笑,攝影師感慨:拍了七年婚禮沒見過這樣的

      可達鴨面面觀
      2026-05-10 13:46:52
      記者:穆里尼奧將在五月份正式亮相伯納烏

      記者:穆里尼奧將在五月份正式亮相伯納烏

      懂球帝
      2026-05-12 16:45:12
      13歲女孩沉迷“二次元”,花光父親18萬積蓄買畫稿,最貴一張5400元,畫稿師:不知對方是未成年人,愿退費

      13歲女孩沉迷“二次元”,花光父親18萬積蓄買畫稿,最貴一張5400元,畫稿師:不知對方是未成年人,愿退費

      環球網資訊
      2026-05-12 19:26:13
      9.3億罰款+全球禁售?扒一扒“杜卡迪起訴張雪機車”背后的驚天謠言!

      9.3億罰款+全球禁售?扒一扒“杜卡迪起訴張雪機車”背后的驚天謠言!

      沙雕小琳琳
      2026-05-12 19:22:21
      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      11年前優衣庫男女主現狀曝光,他們還在一起生了兩個孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      偉大的2-0!中國男足21年后重返世界大賽 U17國足小組第2進世少賽

      偉大的2-0!中國男足21年后重返世界大賽 U17國足小組第2進世少賽

      風過鄉
      2026-05-13 05:44:42
      八村壘談成為自由球員:我愛湖人,但談判的事還是交給經紀人

      八村壘談成為自由球員:我愛湖人,但談判的事還是交給經紀人

      懂球帝
      2026-05-12 18:21:06
      夫妻倆把家產給兒子,赴上海投奔剛升副總的女兒,結果一下車蒙了

      夫妻倆把家產給兒子,赴上海投奔剛升副總的女兒,結果一下車蒙了

      三農老歷
      2026-05-13 00:05:38
      8年前擊敗北大碩士,拿下詩詞大會冠軍的外賣大叔,如今過得怎樣

      8年前擊敗北大碩士,拿下詩詞大會冠軍的外賣大叔,如今過得怎樣

      從零到一研究所
      2026-05-09 16:17:39
      一場2-3爆出大冷門,補時慘遭絕殺,孔蒂不敢相信,爭四格局大亂

      一場2-3爆出大冷門,補時慘遭絕殺,孔蒂不敢相信,爭四格局大亂

      足球狗說
      2026-05-12 06:03:30
      黑衣女子推搡哨兵后續:知情人爆料,官媒發聲恐不止坐牢這么簡單

      黑衣女子推搡哨兵后續:知情人爆料,官媒發聲恐不止坐牢這么簡單

      趙枹是個熱血青年
      2026-05-12 23:05:47
      秦始皇子孫后代被找到,這四個姓氏都是他的后裔,有你的姓氏嗎?

      秦始皇子孫后代被找到,這四個姓氏都是他的后裔,有你的姓氏嗎?

      興趣知識
      2026-05-11 18:04:48
      4死1傷!遼寧遼陽發布一起較大交通事故調查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      4死1傷!遼寧遼陽發布一起較大交通事故調查報告:韓某某駕駛過程中吸食含有丙烷、正丁烷、異丁烷成分的氣體,與重型半掛牽引車相撞

      揚子晚報
      2026-05-12 20:57:58
      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金6分鐘自救法,快了解,關鍵時刻可自救

      健康科普365
      2026-01-20 16:05:03
      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      劉濤雨中跪拜媽祖,一道光打下來,福建人徹底信了

      TVB的四小花
      2026-05-10 10:38:33
      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      美股全線下跌,超3500只個股走低,中概股普跌;英偉達逆勢上揚,再創歷史新高!金銀下挫,國際油價拉升|美股開盤

      每日經濟新聞
      2026-05-12 22:18:42
      毫無格局!杜鋒賽后發言引爭議,知名大V反駁,粵迷也不認同

      毫無格局!杜鋒賽后發言引爭議,知名大V反駁,粵迷也不認同

      去山野間追風
      2026-05-13 01:14:28
      出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

      出乎意料!特朗普原定訪華計劃作廢,中方官宣,特意增加停留時間

      黑鷹觀軍事
      2026-05-11 16:30:09
      山東37歲女子離婚當天徹底瘋了,當場撒潑嘶吼前夫,網友紛紛叫好

      山東37歲女子離婚當天徹底瘋了,當場撒潑嘶吼前夫,網友紛紛叫好

      社會日日鮮
      2026-05-12 08:09:39
      Skip:我猜詹姆斯會主動降薪留湖人,東契奇會默默說‘不,又來’

      Skip:我猜詹姆斯會主動降薪留湖人,東契奇會默默說‘不,又來’

      好火子
      2026-05-13 00:34:13
      2026-05-13 06:20:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3395文章數 11150關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      藝術
      親子
      房產
      本地
      公開課

      藝術要聞

      這位女攝影師的航拍風景照片,簡直太美了!

      親子要聞

      夏天建議:把孩子的空調服換成它!

      房產要聞

      穗八條引爆樓市!萬博寶藏紅盤,五一勁銷出圈

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本a级精品一区二区三区 | 78竖立的100张照片| 亚洲夂夂婷婷色拍ww47| 少妇高潮视频| 久久精品国产只有精品2020| 婷婷色婷婷开心五月四房播播| 欧美颜射| 精品一区二区三区无码免费直播| 亚洲色图欧美一区| 成人A级片| 美日av| 亚洲一区二区婷婷久久| 人妻超碰在线| 国产精品国产三级国产专播 | 青青青伊人色综合久久| 国产AV一区二区三区| 东北老头嫖妓猛对白精彩| 婷婷在线视频| 国产真实乱子伦偷精品| 老司机精品无码免费视频| 狠狠躁夜夜躁人人爽天天bl| 国产产无码乱码精品久久鸭| aa级国产女人毛片好多水| 欧美,日韩aⅴ| 亚洲黄色短视频| 国产主播一区二区三区| 99久久精品日本一区二区免费| 亚洲丰满熟女一区二区蜜桃| 久久不射影院| 国产精品亚洲二区在线看| 国产精品三级在线不卡| 人妻av无码系列一区二区三区| 亚洲在线一区二区| 亚洲国产精品久久精品成人网站| 久久五月天综合| 久热av性爱在线观看| 成人欧美一区二区三区| 女人爽得直叫免费视频| 激情综合色区网激情五月| 青青AV| 国内精品久久久久国产盗摄|