<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,DeepSeek多模態技術范式公布,以視覺原語思考

      0
      分享至



      機器之心編輯部

      雖遲但到,五一長假將至,DeepSeek 給大家公開新技術了。

      昨天,DeepSeek 陳小康一個 X 消息,讓大家開始關注 DeepSeek 的多模態。



      之后,一些用戶就已經可以在 DeepSeek 網頁端和 App 上體驗其多模態能力。

      而就在剛剛,DeepSeek 在 Github 上正式發布了多模態模型,公布了背后的技術報告。



      實打實的新鮮出爐!而且是開創性的推理范式。



      • 項目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
      • 技術報告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

      下面我們就基于 DeepSeek 這篇技術報告,具體看看 DeepSeek、北京大學、清華大學又創造了怎樣的奇跡。

      這篇論文名叫「Thinking with Visual Primitives(以視覺原語思考)」。它提出的問題,幾乎擊中了當前所有多模態大模型的軟肋:這些模型能「看見」,但不一定能「想清楚」。

      給一張密集的人群照片,問 GPT-5.4「圖里有多少人」,它很可能數錯。給 Claude Sonnet 4.6 一張復雜電路圖,問「左邊的紅色電容在右邊電感的左側還是右側」,它的回答往往語焉不詳,甚至前后矛盾。這不是模型看不清圖片的問題,而是模型在「思考」時根本抓不住它想談的視覺對象。

      DeepSeek 把這個問題命名為「Reference Gap」(指代鴻溝),并給出了一套完整的解法。

      背景:「看清」和「想清」是兩件事

      要理解這個問題,先想象你在向一個看不見你屏幕的朋友描述一張復雜的棋盤布局。你說「左邊那個棋子要吃掉中間偏右一點那個棋子」,然而對方根本不知道你在說哪兩顆棋子。

      這正是現有多模態大模型在推理時的處境。它們用自然語言構建「思維鏈」(CoT),但自然語言天生模糊:「左邊那個大的」、「靠近中央的紅色物體」,這些描述在密集場景里根本無法精確定位。模型的注意力在推理過程中逐漸「漂移」,越說越亂,最后得出錯誤結論。

      學術界此前的應對方案,主要是讓模型「看得更清楚」:對圖片進行高分辨率切割、動態分塊,確保模型能感知到細節。這解決的是「感知鴻溝」(Perception Gap)。

      但 DeepSeek 的論文指出,感知能力再強,也代替不了精確的「指代能力」。「看見」和「能說清楚在說哪個」,是兩件不同的事。

      架構:站在 V4-Flash 肩膀上

      這項工作以 DeepSeek 剛發布的 V4-Flash 為語言主干 —— 這是一個 284B 總參數、推理時激活 13B 參數的混合專家模型(MoE)。視覺編碼部分則使用 DeepSeek 自研的 ViT(視覺 Transformer),支持任意分辨率輸入。



      值得注意的是,這支團隊的核心貢獻在于提出了一套完整的「訓練哲學」:如何用極少的視覺 token,教會模型在推理過程中精確指代視覺對象。

      核心創新一:把坐標變成「思維單元」

      這篇論文最核心的思路,用一句話說就是:把點坐標和邊界框(Bounding Box)變成推理的基本單位,像文字一樣穿插在思維鏈里。

      傳統做法中,邊界框是輸出的一部分:模型先想清楚,再告訴你「目標在圖片左上角坐標 [100,200,300,400]」。這是事后標注,不是思考工具。

      DeepSeek 的做法不同。模型在推理過程中,每當提到一個視覺對象,就同步輸出它的坐標:

      「掃描圖片尋找熊,找到一只 <|ref|> 熊 <|/ref|><|box|>[[452,23,804,411]]<|/box|>,它正在爬樹,不在地面上,排除。再往左下看,找到另一只 <|ref|> 熊 <|/ref|><|box|>[[50,447,647,771]]<|/box|>,站在巖石邊緣,符合條件。」

      這就像人類在數東西時會用手指逐一點過去。坐標不再是答案,而是推理過程中消除歧義的「錨點」。模型的邏輯鏈被釘在圖片的物理坐標上,不會漂移。

      這套機制有兩種「原語」(Primitives):邊界框(<|box|>)用于需要定位和尺寸信息的對象;點坐標(<|point|>)用于更抽象的空間指代,比如迷宮探索軌跡或曲線追蹤路徑。

      核心創新二:7056 倍的視覺壓縮

      另一個令人印象深刻的技術創新,來自架構層面的壓縮。

      對于一張 756×756 的圖片,傳統方案需要大量視覺 token 喂給語言模型。DeepSeek 的流程是這樣的:圖片先經過 ViT 處理,生成 2916 個圖像塊 token;再經過 3×3 空間壓縮,合并為 324 個 token 輸入語言模型;最后,內置在 V4-Flash 里的「壓縮稀疏注意力」(Compressed Sparse Attention,CSA)機制,將 KV 緩存進一步壓縮 4 倍,最終只剩 81 個視覺 KV 條目。

      從原始像素到最終緩存條目,整體壓縮比為 7056 倍。

      這意味著,對于一張 800×800 的圖片,這個模型只需要約 90 個 KV 緩存條目,而 Claude Sonnet 4.6 需要約 870 個,Gemini-3-Flash 需要約 1100 個。論文的論點是:精確的空間指代能力,可以在一定程度上彌補視覺 token 不足的問題。模型不需要「看更多」,而需要「指更準」。

      核心創新三:冷啟動數據的精心設計

      技術創新的第三個維度,在于訓練數據的構建方式。

      團隊首先爬取了近 10 萬個與目標檢測相關的數據集,經過兩輪嚴格篩選(語義審核和幾何質量審核),最終保留約 3.17 萬個高質量數據源,生成超過 4000 萬條訓練樣本。

      在「思考與視覺原語」的專項冷啟動數據上,團隊設計了四類任務。

      第一類是計數,分粗粒度(「圖里有多少人」)和細粒度(「穿藍色衣服的人有幾個」)兩種。對于粗粒度計數,模型學習「批量鎖定」—— 一次性框出所有候選對象再數;對于細粒度計數,則學習逐一掃描、逐一核對屬性。兩種策略對應不同認知負荷,分別訓練。



      第二類是空間推理和視覺問答,大量利用 GQA 數據集(自然場景)和 CLEVR 工具鏈(可控合成場景)生成多跳推理樣本,迫使模型在每一步推理時都用邊界框鎖定涉及的對象。



      第三類是迷宮導航,共生成 46 萬條樣本。團隊用 DFS(深度優先搜索)、Prim 和 Kruskal 算法生成矩形、圓形、六邊形三種拓撲結構的迷宮,并專門設計了「表面可解但實際無解」的迷宮來訓練模型的魯棒性。模型需要用點坐標記錄每一步探索軌跡,回溯時也要用坐標標記已排除路徑。



      第四類是路徑追蹤,共 12.5 萬條樣本。給定一張多條貝塞爾曲線相互交叉的圖,要求模型追蹤指定起點的曲線到達終點。關鍵挑戰在于「交叉歧義消解」:兩條線交叉時,模型必須判斷哪一條才是目標曲線的延續,而不是用顏色取巧 —— 專門設計了所有曲線顏色相同的測試版本。



      訓練流程:「先分家,再合體」

      后訓練階段,團隊采用「先專家化,后統一」的策略。

      第一步,用邊界框數據和點坐標數據分別訓練兩個專家模型(FTwG 和 FTwP),避免兩種模態在數據量較少時互相干擾。

      第二步,對兩個專家模型各自進行強化學習(RL),使用 GRPO 算法。獎勵設計非常精細:格式獎勵(輸出格式是否正確)、質量獎勵(LLM 評判思考內容和答案是否一致)、精度獎勵(任務特定)三路并行。計數任務使用平滑指數衰減獎勵而非二值對錯,迷宮任務的獎勵分解為五個子項(因果探索進度、探索完整性、穿墻懲罰、路徑有效性、答案正確性),都是為了給模型提供密集而信息豐富的學習信號。

      第三步,用兩個專家模型的 rollout 數據進行統一的強化微調(Unified RFT),再從預訓練模型重新初始化開始訓練,得到統一模型 F。

      第四步,用 On-Policy Distillation(在線策略蒸餾)彌合統一模型與專家模型之間的性能差距 —— 讓學生模型自己生成軌跡,然后最小化其輸出分布與專家分布之間的 KL 散度。

      實驗結果:在「最難的那類題」上超越 GPT-5.4

      論文在 11 個基準測試上進行了評測,與 Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、Gemma4-31B、Qwen3-VL-235B 等主流模型對比(所有 frontier 模型均通過 API 評測,使用統一提示詞)。



      結果概要如下:

      • 在計數任務上,該模型在 Pixmo-Count(精確匹配)上得分 89.2%,超過 Gemini-3-Flash 的 88.2%,大幅領先 GPT-5.4 的 76.6% 和 Claude Sonnet 4.6 的 68.7%。在細粒度計數上(DS_Finegrained_Counting),以 88.7% 超過 Qwen3-VL 的 87.2%,位居第一。
      • 在空間推理的多個基準上,整體表現與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。
      • 最具代表性的差距出現在拓撲推理任務上。在迷宮導航(DS_Maze_Navigation)上,該模型得分 66.9%,而 GPT-5.4 為 50.6%、Gemini-3-Flash 為 49.4%、Claude Sonnet 4.6 為 48.9%—— 所有 frontier 模型都只能答對一半,而這個模型提升了約 17 個百分點。在路徑追蹤(DS_Path_Tracing)上,該模型 56.7% vs. GPT-5.4 的 46.5%、Gemini-3-Flash 的 41.4%,差距同樣懸殊。

      論文誠實地指出:「所有 frontier 模型在拓撲推理任務上均表現欠佳,說明多模態大模型的推理能力仍有相當大的提升空間。」

      下面展示了幾個定性示例:







      局限與未來

      論文沒有回避幾個已知的局限性。

      • 當前模型需要明確的「觸發詞」才會啟用視覺原語機制 —— 它還不能自主判斷什么時候該「用手指」。
      • 受輸入分辨率限制,在極細粒度的視覺場景中,視覺原語的位置偶爾會不夠精準。團隊認為與現有高分辨率感知方案的結合是自然的下一步。
      • 用點坐標解決復雜拓撲推理問題,目前的跨場景泛化能力仍然有限。

      結語:一種新的「思考姿勢」

      這篇論文的意義,不只是在幾個榜單上拿了第一。

      它提出的問題 ——「推理過程中語言指代的歧義性是多模態模型的根本瓶頸之一」—— 在此之前并不是學界的主流敘事。

      主流的努力方向是更大的模型、更高的分辨率、更多的訓練數據。這篇論文給出了另一條路:不是讓模型「看更多」,而是讓模型「指更準」,用坐標代替語言描述,用空間錨點穩定邏輯鏈。

      從這個角度看,「Thinking with Visual Primitives」更像是在給多模態推理增添一種「思考姿勢」—— 一種人類在處理復雜視覺任務時本能就會使用、但 AI 此前一直缺失的姿勢:用手指點著想。

      更多詳情請參閱原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

      用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

      讓心靈得以棲息
      2026-05-08 11:19:31
      誰說垃圾堆里長不出玫瑰?19歲廢品站女孩,用半年就登上了時裝周

      誰說垃圾堆里長不出玫瑰?19歲廢品站女孩,用半年就登上了時裝周

      從零到一研究所
      2026-05-09 14:53:43
      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      時光派長壽觀察
      2026-05-08 17:08:02
      美媒文章:美國面對的是已然闊步前行的中國

      美媒文章:美國面對的是已然闊步前行的中國

      參考消息
      2026-05-10 15:38:08
      特朗普訪華前,日宣布以西南諸島為中心進行演習,透露出兩點信息

      特朗普訪華前,日宣布以西南諸島為中心進行演習,透露出兩點信息

      起喜電影
      2026-05-10 17:40:51
      這身材真的很棒,無數人心中的完美伴侶

      這身材真的很棒,無數人心中的完美伴侶

      草莓解說體育
      2026-05-10 18:01:41
      法拉奇橫空出世,英國政治正式進入“川普化”新時代

      法拉奇橫空出世,英國政治正式進入“川普化”新時代

      壹家言
      2026-05-09 16:03:04
      李小冉北京豪宅太絕了!稀缺獨棟復古洋房,估值8億滿是歲月質感

      李小冉北京豪宅太絕了!稀缺獨棟復古洋房,估值8億滿是歲月質感

      觀魚聽雨
      2026-05-07 23:17:09
      蘋果和英特爾,分手六年后,又「在一起」了

      蘋果和英特爾,分手六年后,又「在一起」了

      極客公園
      2026-05-09 10:51:05
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰吉爾吉斯斯坦

      好簽?亞洲杯抽簽揭曉:國足與伊朗+敘利亞同組 將戰吉爾吉斯斯坦

      我愛英超
      2026-05-10 02:56:29
      車主剛提車就裂了,張雪查完監控:質檢員開除,店長罰1萬,店關

      車主剛提車就裂了,張雪查完監控:質檢員開除,店長罰1萬,店關

      小娛樂悠悠
      2026-05-10 11:47:14
      人均獎金300萬?穿這件工服相親橫著走

      人均獎金300萬?穿這件工服相親橫著走

      中國新聞周刊
      2026-05-10 13:22:10
      美媒終于認清現實:中國壓根不盼特朗普訪華,早就不把美國放眼里

      美媒終于認清現實:中國壓根不盼特朗普訪華,早就不把美國放眼里

      起喜電影
      2026-05-10 15:23:57
      15億人次“擠爆”五一,舊旅游邏輯終于“死透”了

      15億人次“擠爆”五一,舊旅游邏輯終于“死透”了

      藍鯨新聞
      2026-05-10 09:45:59
      奧迪高管炮轟友商:刷圈用特調車!換輪胎、改懸掛、單獨寫軟件…

      奧迪高管炮轟友商:刷圈用特調車!換輪胎、改懸掛、單獨寫軟件…

      柴狗夫斯基
      2026-05-09 12:38:15
      西班牙、英國宣布發現漢坦病毒疑似病例,張文宏最新發聲

      西班牙、英國宣布發現漢坦病毒疑似病例,張文宏最新發聲

      21世紀經濟報道
      2026-05-10 09:45:48
      女人偷吃后晚上跟丈夫同房是什么體驗?這位46歲出軌女人說出答案

      女人偷吃后晚上跟丈夫同房是什么體驗?這位46歲出軌女人說出答案

      混音情感
      2026-05-10 09:57:59
      兩連漲停!002491、002031,最新發聲!多只牛股提示!

      兩連漲停!002491、002031,最新發聲!多只牛股提示!

      證券時報e公司
      2026-05-10 18:11:16
      皇馬國家德比大名單:姆巴佩缺席!楚阿梅尼入選,巴爾韋德傷缺

      皇馬國家德比大名單:姆巴佩缺席!楚阿梅尼入選,巴爾韋德傷缺

      懂球帝
      2026-05-10 18:09:21
      2026-05-10 18:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142647關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      頭條要聞

      面對中方強硬態度 世界杯中國轉播費從3億美元腰斬

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      游戲
      時尚
      親子
      軍事航空

      本地新聞

      用蘇繡的方式,打開江西婺源

      炸裂!熊孩子刮花6張PS5光盤 家長僅200元打發了事

      今年最好看的襯衫竟然是它?太減齡了!

      親子要聞

      我有的是辦法

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av片免费网站| 一夜七次郎最新网站| 久久精品国产亚洲AV瑜伽| 自拍日韩亚洲一区在线| 色噜噜狠狠色综合av| 91精品国产自产91精品资源| 久久婷婷色香五月综合激情| 一本一道VS无码中文字幕| 中国国产XXXX免费视频| 亚洲精品另类| 国产欧美日本亚洲精品一4区| 亚洲综合在线视频自拍| 精品综合视频精品| 久久国产乱子伦精品免费女,网站| 国产成+人+综合+欧美亚洲| 深夜视频国产在线观看| 制服丝袜中文字幕在线| h肉辣文公交车系列| 99er热精品视频| 蜜臀av午夜精品福利| 国产精品免费重口又黄又粗| 四虎永久免费高清视频| 人妻少妇太爽了嫩草影院 | 嘉善县| 精品亚洲成在人线av无码| 日本一区二区三区久久久| 95国产精品| 亚洲精品久久久久国色天香| 99国产精成人午夜视频一区二区| 一区二区三区在线 | 欧洲| 国产精品av中文字幕| 国产成人无码一区二区三区在线| 国产精品成人自拍视频| 中国精学生妹品射精久久| 亚洲国产成人久久77| 99久久久国产精品无码| 国产av午夜精品一区二区三区| A片丝袜| 国产极品嫩模在线精品| 日韩精品欧美国产在线| 91九色首页|