<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek首次有了視覺能力,技術論文卻被它連夜刪掉了

      0
      分享至


      作者 | 孫芮
      郵箱 | sunrui@pingwest.com

      DeepSeek做了件罕見的事情:在終于開始灰測多模態能力后,它放出了一篇解釋背后技術的論文,但這篇論文卻在發布沒多久就又被悄悄撤掉。

      4月29日,DeepSeek研究員陳小康在X發布一條推文——現在,我們可以看見你了。配圖中,DeepSeek 標志性的鯨魚 logo 摘下眼罩,露出了眼睛。

      過去,DeepSeek 最被外界熟知的是它在文本、代碼和推理任務上的能力。但真實世界里的問題,并不總是以文字形式出現。它們可能是一張照片、一頁論文圖表、一個網頁截圖、一份復雜表格,也可能是一個需要理解空間關系和視覺細節的現實場景。

      對 DeepSeek 來說,視覺能力是讓它的推理能力從文本世界延伸到真實世界的關鍵一步。但這次灰測的視覺能力,很快被使用者們感覺到不同:它和其他模型給語言模型底座增加多模態功能不同,更像是一個單獨的模型,且不是以附庸形式定位,而是有某種原生的思考和推理能力。

      就在大家好奇心增加的時候,DeepSeek發布了一篇解釋它追求的視覺能力的論文:《Thinking with Visual Primitives》。


      Primitives是圖形學和幾何里的常用術語,Visual Primitves可以理解為那些用來描述幾何信息圖形空間信息的最基本元素,也可以稱為視覺基元。從這個題目就可以看出,DeepSeek眼里此刻最重要的“多模態”能力,依然是圍繞推理和思考,它要讓模型能在原生層面用圖形的基礎語言做更準確的思考。

      這并不是所有主流模型廠商在多模態領域的方向,這讓人意外,但這個想法非常有趣。DeepSeek再次給基礎研究提供了新的思路。

      但更加讓人意外的是,這篇論文很快就被撤下了,沒有給出任何解釋,也不確定是否會再次發布。

      所以,DeepSeek這次的視覺能力到底是怎樣的?我們結合實測、它的研究員的分享,以及這篇“消失”的論文的內容,來嘗試解釋一下它的做法。

      1

      01 當DeepSeek 的視覺能力,開始進入真實場景

      目前DeepSeek的視覺模式還在灰度測試,逐步向用戶開放中。

      從 X 上已經試用到這一功能的用戶反饋來看,DeepSeek 的視覺能力并不只是識別圖片里有什么,更重要的是,它會嘗試把圖像中的信息和已有的世界知識聯系起來。

      有用戶在X上表示DeepSeek視覺模式的世界知識非常豐富,思考過程也很有趣。他在公司附近拍了一張照片,發給DeepSeek。在DeepSeek的思考過程中可以看到,它幾乎知道我公司附近的每一棟樓,并盡量搜索正確的那棟。并且這個過程中沒有用到聯網搜索能力。


      還有用戶表示DeepSeek的網頁復刻還原能力非常好。這對設計師和產品經理來說,它可以讓視覺稿更快變成可演示的原型。以前從 Figma、截圖或參考網頁到可點擊 demo,中間需要設計師標注、開發切圖、工程師實現。現在模型能直接讀懂頁面,并生成接近真實效果的網頁,讓想法驗證的周期大幅變短。


      我實際測試了DeepSeek的視覺理解能力。我發送了一張迷宮圖讓它解答。



      DeepSeek的思考過程十分嚴謹,它用的是反向推理的方法,從終點出發,逐步反向追蹤,走到起點。為了驗證解法的可行性,DeepSeek這一路徑用正向的方式走了一遍,然后它又核算了一遍,再輸出最終答案。整個過程中,DeepSeek推理了四遍路徑的可行性。


      1

      02 多模態模型的難題,不只是看不清

      陳小康在30號發布的推文中給了更詳細的解釋:傳統的思維鏈(CoT)主要停留在語言空間里,但視覺推理需要更多能力。通過把點和框作為認知錨點,我們的模型彌合了“指代鴻溝”(Reference Gap),模擬了人類在視覺推理中常用的“指向—推理”協同機制。


      通過DeepSeek發布的報告,我們可以看到他們針對視覺理解提出了一個新的推理框架,就是使用視覺基元進行思考(Thinking with Visual Primitives)。

      什么是使用視覺基元進行思考呢?

      簡單來說,就是讓模型在看圖推理時,不再只依賴自然語言描述,而是把圖像中的點、邊界框、路徑坐標等空間標記,也作為推理過程的一部分。

      以往多模態模型面對一張圖片時,通常會用語言來組織思考。比如它會說“左邊那個人”“右上角的物體”“中間那條路”。但問題在于,這些描述在人類看來很自然,對模型來說卻并不總是精確。尤其在一張復雜圖片里,如果有很多相似的人、物體或區域,“左邊那個”“旁邊那個”很容易變得模糊,模型也可能在推理過程中把對象搞混。

      DeepSeek 在報告中把這個問題稱為“指代鴻溝”。也就是說,模型不是完全看不見,而是看見之后,很難在連續的視覺空間中穩定地指向自己正在討論的對象。

      視覺基元要解決的正是這個問題。所謂視覺基元,可以理解為模型在圖像中的“手指”。當模型數一張合照里有多少人時,它可以先用邊界框把每個人標出來,再進行統計;當模型判斷兩個物體的位置關系時,它可以先框出相關物體,再比較它們的相對位置;當模型走迷宮或追蹤一條線時,它可以用一串點記錄路徑,而不是只用語言說“往左、再往右”。

      這樣一來,模型的推理就不再懸浮在文字里,而是被錨定到圖像中的具體位置。這也是 DeepSeek 使用視覺基元進行思考最重要的變化,多模態模型的能力不只是看得更清楚,還要指得更準確。

      1

      03 DeepSeek 怎么做視覺推理

      陳小康指出,目前DeepSeek的視覺模型主要處理三類任務:計數、空間推理和拓撲推理。

      DeepSeek 的做法不是簡單讓模型看更高分辨率的圖片,而是讓模型在推理過程中使用點、框、路徑坐標這些“視覺基元”,把每一步判斷都落到圖像中的具體位置上。

      在計數任務上,DeepSeek 主要使用的是邊界框。

      報告中說,多模態大語言模型一直很難做到準確計數,尤其是在密集場景中。人類在數東西時,通常會采用一種“系統掃描和累加”的方式,比如從左到右一個個點著數。但語言模型在對象數量較多時,很難建立精確的對象對應關系。為了解決這個問題,DeepSeek 使用邊界框作為視覺基元,為每個被計數對象提供明確的視覺錨點。

      也就是說,模型不是直接憑感覺回答“有多少個”,而是先把目標對象找出來、框出來,再基于這些框進行統計。比如數一張合照里有多少人,模型會先框出圖中的每個人,再計算總數。對于更復雜的細粒度計數,比如“有幾只熊在地面上”,模型還會先找出所有熊,再逐一判斷它們是在樹上還是在地面,最后得出答案。


      報告中還把計數分成了兩類:一類是粗粒度計數,比如數“狗”“人”“車”這類普通對象;另一類是細粒度計數,比如數“白色的狗”“左邊的狗”“站在地上的熊”。后者不僅要求模型識別對象,還要判斷顏色、位置、狀態等附加條件。DeepSeek 在這里采用的是“定位—驗證—統計”的流程,讓模型先找到候選對象,再逐個判斷是否符合問題條件。

      在空間推理任務上,DeepSeek 也是先讓模型用視覺基元錨定對象,再進行關系判斷。

      報告中說,空間推理和一般視覺問答被放在同一個類別里處理,因為這類任務的共同難點是:如果只用語言描述,模型很容易出現指代模糊和語義漂移。比如“灰色金屬物體”“旁邊那個小物體”“同樣大小的紫色橡膠物體”,這些說法如果不落到具體圖像區域上,模型在推理過程中很容易把對象搞混。


      所以 DeepSeek 的方法是,讓模型先把關鍵對象框出來,再根據這些具體對象進行多步推理。報告中的例子是,模型需要判斷圖中是否存在一個紫色橡膠物體,和灰色金屬物體大小相同。模型會先定位灰色金屬球,判斷它是小物體;然后再逐一檢查其他小物體,看它們的顏色、材質、大小是否匹配。最后模型得出結論:圖中沒有符合條件的紫色橡膠物體。

      在拓撲推理任務上,DeepSeek 主要使用的是點。

      拓撲推理關心的不是某個物體是什么,而是路徑、連通性和結構關系。比如迷宮里從起點能不能走到終點,一堆交錯的線條中,某一條線最終連到哪個圖標。這類任務對多模態模型尤其困難,因為它要求模型持續跟蹤路徑,而不是看一眼就回答。

      報告中說,純語言的思維鏈很難準確描述不規則形狀的軌跡,因此使用點作為認知單元的視覺基元,特別適合處理這類問題。


      在迷宮導航任務中,DeepSeek 會讓模型先找到起點和終點,然后像做深度優先搜索一樣探索路徑。模型每走到一個關鍵位置,就用點坐標記錄下來;如果遇到死路,就回退到前一個岔路口,再嘗試另一條路徑。報告中提到,模型需要理解空間連通性和可達性,也就是判斷哪里有路、哪里被墻擋住、哪條路徑最終能到達終點。

      在線條追蹤任務中,模型也會用一串點來表示自己沿著哪條線走。報告中說,這類任務的核心挑戰是交叉點消歧:當兩條線交叉時,模型必須根據局部幾何連續性判斷哪一條才是目標線的延續,而不是被另一條線帶走。為了防止模型只是靠顏色猜,DeepSeek 還設計了所有線條顏色和粗細都一樣的樣本,迫使模型真正根據曲線連續性來追蹤路徑。

      1

      04 視覺基元并不是終點

      不過,使用視覺基元進行思考,并不意味著視覺推理問題已經被徹底解決。它最大的優勢,是讓模型的視覺推理變得更穩定,也更容易被驗證。

      這會帶來兩個直接好處。

      一是減少幻覺。模型如果要判斷“這里有沒有紫色橡膠物體”,就不能只憑語義猜測,而要先在圖中找出候選物體,再逐一排除。二是提高可解釋性。比如模型說一張圖里有 25 個人,如果它同時框出了這 25 個人,用戶就能判斷它有沒有漏數、重復數,或者把其他物體誤認成人。

      這也是為什么 DeepSeek 的視覺模式在網頁復刻、迷宮求解、復雜圖像問答這類場景中會顯得更有用。網頁復刻需要模型理解頁面里的模塊、層級和布局關系;迷宮求解需要模型持續追蹤路徑;復雜圖像問答則要求模型在多個視覺線索之間來回比對。它們共同需要的不是一句籠統的圖片描述,而是模型能夠穩定地“看圖說話”。

      另一個優勢是效率。報告中提到,DeepSeek 并不是簡單依賴大量視覺 token 來彌補視覺能力,而是通過更高效的視覺 token 壓縮架構,讓模型在較低圖像 token 消耗下仍然保持較強的推理能力。報告中說,對于 800×800 的輸入圖像,其模型在 KV cache 中只保留大約 90 個條目,卻能在計數和空間推理等基準上取得有競爭力的表現。

      DeepSeek 想走的路線,并不是無限提高分辨率、堆更多圖像 token,而是讓模型更有效地使用視覺信息。

      但這套方法也有局限,報告中提到這類方式有三部分的局限。


      首先是受輸入分辨率限制,模型在細粒度場景下的表現仍然不夠理想,有時會輸出不夠精確的視覺基元。也就是說,如果圖像里的目標非常小、細節非常密,或者需要識別的區域邊界很模糊,點和框本身也可能標得不準。視覺基元能改善指代問題,但它不能完全替代感知能力。模型首先要看清楚,才談得上指得準。

      第二個局限,這種能力目前還依賴顯式觸發。報告中說,當前使用視覺基元進行思考的能力需要通過明確觸發詞來激活,未來希望模型能夠根據具體上下文,自主判斷是否調用這一機制。

      這意味著,現在模型未必會在每個需要的場景里自動使用這項能力。用戶如果只是普通地問“這張圖里有多少人”“這條路能不能走通”,模型可能仍然用普通語言推理,而不是主動輸出點、框或路徑。真正理想的狀態應該是,模型自己判斷這個問題是否需要精確視覺定位。如果是計數、路徑、空間關系這類任務,它就自動拿出“手指”;如果只是描述畫面氛圍,就不必調用這套機制。

      第三個局限,是拓撲推理仍然很難。報告中說,使用點作為視覺基元來解決復雜拓撲推理問題,仍然是一項艱巨挑戰,目前模型的跨場景泛化能力也有限。

      這不難理解。點可以告訴模型“我現在走到哪里”,但點本身并不直接表示“這里和那里是否連通”。在迷宮里,兩個點看起來很近,中間可能隔著一堵墻;在交錯線條中,兩條線可能在視覺上相交,但實際并不是同一條路徑的延續。模型不僅要標點,還要持續判斷連通關系、路徑方向和局部幾何連續性。只要中間某一步走錯,后面的推理就可能全部偏掉。

      所以,視覺基元讓模型開始能夠在圖像中定位、比較和追蹤。但要真正處理開放世界里的復雜視覺問題,還需要更強的感知能力、更穩定的自主調用機制,以及更好的跨場景泛化能力。

      在視覺理解層面,DeepSeek 給出的答案是,讓圖像不再只是輸入材料,而是成為模型推理過程的一部分。模型不只是看見世界,而是開始學會在世界中找到錨點。

      這不像是一個附帶的研究,更像是DeepSeek對視覺的最重要的一個不同的理解。因此這次罕見的刪除論文行為也引起不少遐想,有人認為它對于開源模型來說“太強大”了,以至于不適合發表。真相如何可能要等DeepSeek自己給出解釋了。


      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      靚仔情感
      2026-05-09 01:38:15
      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      紙鳶奇譚
      2026-04-13 16:06:54
      星鉉:大西洋郵輪漢坦病毒事件-正在向越來越驚悚的方向發展

      星鉉:大西洋郵輪漢坦病毒事件-正在向越來越驚悚的方向發展

      星鉉
      2026-05-08 11:51:35
      頭號詹黑貝勒斯:詹姆斯排歷史第9 心理素質最脆弱+失去裁判尊重

      頭號詹黑貝勒斯:詹姆斯排歷史第9 心理素質最脆弱+失去裁判尊重

      羅說NBA
      2026-05-09 06:11:38
      瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

      瀏陽煙花廠事故升級!26人死亡變成37人,網友:煙花爆竹該清除了

      火山詩話
      2026-05-08 18:13:12
      Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

      Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

      新智元
      2026-05-08 15:10:12
      “近一半都是不正常孩子”,男老師吐槽鄉鎮學校現狀:只剩神人了

      “近一半都是不正常孩子”,男老師吐槽鄉鎮學校現狀:只剩神人了

      澤澤先生
      2026-05-07 18:43:15
      王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

      王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

      流云隨風去遠方
      2026-05-08 12:21:02
      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      央視正式確認!就在巴基斯坦空軍6:0打敗印度的當天,中國成飛團隊正在保障殲-10CE?

      軍武速遞
      2026-05-08 19:20:06
      首秀出局!王欣瑜0-2爆冷遭伊埃拉橫掃 無緣羅馬站32強

      首秀出局!王欣瑜0-2爆冷遭伊埃拉橫掃 無緣羅馬站32強

      醉臥浮生
      2026-05-08 18:35:30
      郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

      郵輪暴發漢坦病毒疫情!張文宏緊急發聲:這一點比新冠更可怕

      娛樂圈的筆娛君
      2026-05-09 00:46:51
      曝火箭今夏沒打算交易杜蘭特!寄望兩老將回歸 力爭續約阿門伊森

      曝火箭今夏沒打算交易杜蘭特!寄望兩老將回歸 力爭續約阿門伊森

      羅說NBA
      2026-05-09 06:14:33
      CPO/光模塊:龍頭十五強,誰還在低位?

      CPO/光模塊:龍頭十五強,誰還在低位?

      普陀動物世界
      2026-05-08 09:15:08
      SK海力士總部發610萬,中國工廠卻一毛不拔?

      SK海力士總部發610萬,中國工廠卻一毛不拔?

      齊天候
      2026-05-08 12:27:18
      國際足聯終于慌了!新方案緊急出爐,世界杯版權迎來重大轉機

      國際足聯終于慌了!新方案緊急出爐,世界杯版權迎來重大轉機

      社會日日鮮
      2026-05-08 04:12:52
      勝利主帥:我們連贏20場,結果才輸了1場就被人說要丟冠

      勝利主帥:我們連贏20場,結果才輸了1場就被人說要丟冠

      懂球帝
      2026-05-09 00:58:16
      倫敦世乒賽:日本女隊登上領獎臺!3:0大獲全勝,4強對陣出爐

      倫敦世乒賽:日本女隊登上領獎臺!3:0大獲全勝,4強對陣出爐

      國乒二三事
      2026-05-08 18:36:22
      底層游民生活的底色:麻將、酒局、性生活!

      底層游民生活的底色:麻將、酒局、性生活!

      燈錦年
      2026-05-08 18:56:06
      34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

      34歲肖戰高調官宣喜訊,官方發文全網恭喜,終于等到

      豬小艷吖
      2026-05-07 11:21:34
      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      別只吃雞蛋!高蛋白食物新排名:豆腐第4,牛奶第3,第1名想不到

      全球軍事記
      2026-05-08 21:21:30
      2026-05-09 07:04:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      3063文章數 10496關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      數碼
      房產
      本地
      時尚
      公開課

      數碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預約

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      本地新聞

      用蘇繡的方式,打開江西婺源

      衣服其實沒有必要買很貴,準備這三件基礎款,百搭實用又不挑人

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇熟女久久综合网色欲| 亚洲av综合永久无码精品天堂| 国产精品99在线播放| 国产对白老熟女正在播放| 精品人妻无码一区二区三区9| 久久无码高潮喷水| 日韩好精品视频你懂的| 视频三区精品中文字幕| 精品国产电影久久九九| 亚洲精品一区二区三区蜜臀| 亚洲自拍一区在线观看| 国内精品久久人妻无码妲| 男人的天堂va在线无码| 国产成人精品一区二区秒拍| 国产喷水1区2区3区咪咪爱AV| 久草影视午夜福利| 中文字幕日韩激情无码不卡码| 日韩精品一卡二卡在线观看 | 免费国产黄线在线观看视频 | 国产h视频在线观看视频| 2018年亚洲欧美在线v| 午夜DY888国产精品影院| 中文字幕亚洲另类天堂| 2020最新国产精品视频| 亚洲v无码一区二区三区四区观看| 一边吃奶一边做动态图| 日韩中文字幕精品视频在线| 欧美日韩中文国产一区发布| 色八区人妻在线视频| 亚洲综合天堂一区二区三区| www.91色色| 日日碰狠狠躁久久躁9| 精品日韩精品国产另类专区| 国产美女精品一区二区| 国产精品热久久毛片| 国产成人AV无码精品无毒| 99热热久久这里只有精品68| 国产乱码日产乱码精品精| 欧美日韩视频综合一区无弹窗| 国产成人乱色伦区小说| 新香蕉少妇视频网站|