<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek“開眼”背后的技術(shù),公開了!

      0
      分享至


      智東西
      作者 陳駿達
      編輯 心緣

      智東西4月30日報道,今天,DeepSeek發(fā)布多模態(tài)技術(shù)報告《用視覺原語思考(Thinking with Visaul Primitives)》,詳細闡釋了昨日灰度上線的DeepSeek識圖模式背后的技術(shù)細節(jié)(DeepSeek終于能看圖了!我第一時間用它算命)。


      DeepSeek識圖模式所使用的是一個284B參數(shù)、13B激活多模態(tài)推理模型,其正式名稱尚未對外發(fā)布,基座模型是DeepSeek-V4-Flash。DeepSeek稱,這一模型的權(quán)重將整合進DeepSeek的基礎(chǔ)模型,并在未來發(fā)布。

      當(dāng)前,傳統(tǒng)的思維鏈仍然停留在語言領(lǐng)域,但視覺推理所需要的信息更多。DeepSeek的新一代多模態(tài)推理模型的核心升級就在于,它把純粹的語言推理鏈條,升級成了一種“語言邏輯+空間坐標(biāo)”交織的雙軌思維。

      當(dāng)模型對著一張圖進行推理時,它是會像人一樣,直接輸出一個具體的框或者點,在圖中精準(zhǔn)地“指”出它當(dāng)下正在想的那個東西。

      DeepSeek多模態(tài)團隊負責(zé)人陳小康分享了一張動圖,形象地闡釋了這一運作機制。圖中,DeepSeek多模態(tài)模型可以在思維鏈中使用框進行定位,并在后續(xù)的推理步驟中持續(xù)引用這些被框定的視覺錨點,基于空間坐標(biāo)進行下一步判斷,極大提升了視覺推理的準(zhǔn)確性。


      ▲DeepSeek多模態(tài)模型推理過程

      在一系列高難度視覺QA任務(wù)中,這一模型的表現(xiàn)超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。


      較高的token效率也是這一模型的亮點。與當(dāng)前主流的多模態(tài)大模型將一張圖片轉(zhuǎn)化為成百上千個視覺token不同,DeepSeek這套架構(gòu)通過視覺壓縮策略,將高分辨率圖像從原始像素開始,經(jīng)過ViT特征提取、空間壓縮以及稀疏注意力機制的多級處理,最終在KV緩存中僅保留約90個視覺條目,實現(xiàn)超7000倍的壓縮。

      這意味著模型在進行復(fù)雜空間推理時,無需在海量視覺信息中反復(fù)檢索,思考過程的每一步都較為“輕量”。


      項目地址:

      https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

      技術(shù)報告:

      https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

      一、自然語言存在“指代鴻溝”,視覺標(biāo)記介入有望破解

      這篇論文中,DeepSeek多模態(tài)團隊提出了對現(xiàn)有多模態(tài)大模型缺陷的洞察。過去,當(dāng)業(yè)界談?wù)撎嵘曈X模型的推理能力時,幾乎所有的努力都集中在“感知鴻溝”上,也就是讓模型“看得更清楚”:通過更高分辨率的圖像切分、更精細的動態(tài)分塊,確保模型不會遺漏圖中的細節(jié)。

      但DeepSeek多模態(tài)團隊認為,即便把這一切做到極致,模型依然會在復(fù)雜的視覺推理任務(wù)中崩潰。

      自然語言在描述連續(xù)視覺空間時,天然存在一種“指代鴻溝”:當(dāng)你說“左邊那個東西”時,在擁擠的場景中,這個“東西”到底指哪一個,模型無法精確鎖定。

      于是,模型的思維鏈條看似環(huán)環(huán)相扣,實則每一步都存在偏離的風(fēng)險,一旦涉及到密集計數(shù)、多步空間推理或者拓撲導(dǎo)航這種需要逐步推理的任務(wù),邏輯就會因為指代不清而逐漸崩塌。

      基于這個判斷,DeepSeek多模態(tài)團隊嘗試讓模型在思考時“邊想邊指”,也就是讓模型用點坐標(biāo)和邊界框來“指”,把這些人類的視覺原語,變成模型思維鏈條上的最小認知單元。

      架構(gòu)層面,這一多模態(tài)模型通過DeepSeek-ViT負責(zé)將圖像轉(zhuǎn)換為視覺特征,下圖右下方的文本分詞器負責(zé)處理用戶的語言指令,兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合,最后由去分詞器輸出包含自然語言與視覺原語(如坐標(biāo)框、區(qū)域標(biāo)記)的聯(lián)合響應(yīng)。這種設(shè)計使模型兼顧文本理解能力和原生視覺定位能力。


      二、篩選超4000萬個高質(zhì)量樣本,對四類任務(wù)針對性優(yōu)化

      要把點和框變成模型思維的一部分,首先要解決的問題,就是如何讓模型真正“學(xué)會指”。模型需要把“指”這個動作內(nèi)化成一種思維習(xí)慣。

      為此,DeepSeek多模態(tài)團隊構(gòu)建了一條貫穿預(yù)訓(xùn)練、冷啟動和強化學(xué)習(xí)的訓(xùn)練流水線。

      在預(yù)訓(xùn)練階段,他們從互聯(lián)網(wǎng)上爬取了97984個與目標(biāo)檢測相關(guān)的數(shù)據(jù)源,設(shè)計了自動化的語義和幾何質(zhì)量審查機制,過濾掉亂碼標(biāo)簽、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低質(zhì)量標(biāo)注,最終篩選出31701個高質(zhì)量數(shù)據(jù)源,總計超過4000萬個的精準(zhǔn)樣本,先讓模型掌握基本定位能力。

      接下來是冷啟動數(shù)據(jù)構(gòu)建。DeepSeek多模態(tài)團隊針對計數(shù)、空間推理、迷宮導(dǎo)航和路徑追蹤這四類最能體現(xiàn)視覺原語價值的任務(wù),合成了一套帶有精確思考軌跡監(jiān)督的數(shù)據(jù)。

      以計數(shù)任務(wù)為例,模型被明確教導(dǎo),在思考時要先批量框選所有候選對象,然后再對這些錨定好的框進行逐一校驗和累加。


      ▲計數(shù)任務(wù)的一條冷啟動數(shù)據(jù)

      在迷宮任務(wù)中,模型的每一步探索都必須輸出一個點坐標(biāo)來標(biāo)記當(dāng)前所在,一旦失誤撞墻,整個后續(xù)探索在因果上就自動失效,模型必須學(xué)會回溯。

      這種把視覺原語操作直接整合進思維鏈的做法,讓模型在冷啟動階段就建立起“指向-推理”的強耦合。

      三、采用稠密獎勵機制,視覺編碼壓縮比超7000倍

      有了冷啟動模型之后,DeepSeek多模態(tài)團隊通過一套“訓(xùn)練專家再融合”的后訓(xùn)練策略,將模型的能力進一步精細化。其中的創(chuàng)新點在于強化學(xué)習(xí)階段的獎勵模型。

      以迷宮任務(wù)為例,獎勵分解為探索進度、撞墻懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個單元格、沒有非法穿越墻壁,都會獲得正向信號,而一旦發(fā)生撞墻,即便最終的答案為“可解”,也會被嚴格扣分。

      這種稠密的獎勵機制,讓模型必須認真對待每一個視覺原語操作,無法靠猜答案實現(xiàn)獎勵破解。

      為了同時掌握框定位和點指向這兩種視覺原語,該團隊還分別訓(xùn)練了兩個專家模型,最后通過在線策略蒸餾將它們?nèi)诤铣梢粋€統(tǒng)一模型,讓學(xué)生模型在自己生成的思維軌跡上,學(xué)習(xí)兩位專家老師的輸出分布。這種設(shè)計有效避免了兩種異構(gòu)原語在訓(xùn)練中的相互干擾。

      值得一提的是,這項工作的技術(shù)路線建立在一個高效的視覺編碼架構(gòu)之上。

      首先,Vision Transformer以14×14的塊大小將圖像切分成視覺token;然后,在ViT輸出端進行3×3的空間壓縮,將每9個相鄰token沿通道維度合并為1個;最后,利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制,將KV緩存中的視覺條目再壓縮4倍。

      以一張756×756分辨率的圖像為例,它原本會產(chǎn)生2916個patch token,經(jīng)過三級壓縮后最終僅保留81個視覺KV條目,整體壓縮比高達7056倍。

      這種token效率意味著,模型在展開復(fù)雜的空間推理時擁有了一份“提煉好的索引”,可以拿著索引直接進行思考,從工程上就減弱了無關(guān)像素對推理鏈路的干擾。

      結(jié)語:多模態(tài)智能的“系統(tǒng)二”進化

      DeepSeek多模態(tài)團隊也在報告中提到了當(dāng)前技術(shù)的邊界。模型在復(fù)雜拓撲推理任務(wù)上的跨場景泛化能力尚未完善,且思考中視覺基元的激活目前仍依賴顯式的觸發(fā)詞,尚未實現(xiàn)完全的自發(fā)調(diào)用。

      但他們也認為,這套框架為多模態(tài)社區(qū)展示了通往系統(tǒng)二級別的多模態(tài)智能的路徑。這一路徑?jīng)]有一味地堆高圖像分辨率,而在構(gòu)建了更精準(zhǔn)從參照指標(biāo)。

      用空間坐標(biāo)錨定抽象思維,讓模型像人類一樣“邊指邊想”,這本身就是一個值得繼續(xù)深挖的方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      舉報一個查一個!耿同學(xué)舉報3位大學(xué)院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學(xué)舉報3位大學(xué)院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

      南宋為洗靖康之恥有多狠?700萬金人僅剩10萬,辱金后還留一畫作

      掠影后有感
      2026-05-07 10:01:40
      江蘇生態(tài)環(huán)境廳工作組赴徐州調(diào)查,多部門連夜轉(zhuǎn)運黑臭水體

      江蘇生態(tài)環(huán)境廳工作組赴徐州調(diào)查,多部門連夜轉(zhuǎn)運黑臭水體

      上觀新聞
      2026-05-08 06:34:12
      外甥被趕出臺企,頑固“臺獨”分子破防了

      外甥被趕出臺企,頑固“臺獨”分子破防了

      樞密院十號
      2026-05-07 19:41:09
      娃哈哈董事長,大婚!

      娃哈哈董事長,大婚!

      家傳編輯部
      2026-05-07 22:11:46
      王毅見戴安斯一行,何為“重要象征意義”?

      王毅見戴安斯一行,何為“重要象征意義”?

      新民周刊
      2026-05-08 09:06:30
      廣州50萬粉絲“撿瓶小狗”,疑被“毒狗團伙”盯上,目前只能被迫困在家中;其主人被扒出姓名、住址等隱私信息,相關(guān)證據(jù)將交由公安處理

      廣州50萬粉絲“撿瓶小狗”,疑被“毒狗團伙”盯上,目前只能被迫困在家中;其主人被扒出姓名、住址等隱私信息,相關(guān)證據(jù)將交由公安處理

      揚子晚報
      2026-05-08 12:01:34
      毀三觀!老大爺數(shù)次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      毀三觀!老大爺數(shù)次猥褻小米汽車事件瘋傳!車身布滿J斑殘留

      魔都囡
      2026-05-08 09:57:03
      三星員工:240萬人民幣就想打發(fā)我 隔壁SK海力士明年可是要發(fā)650萬!

      三星員工:240萬人民幣就想打發(fā)我 隔壁SK海力士明年可是要發(fā)650萬!

      快科技
      2026-05-07 19:53:05
      突發(fā)!王暖暖深夜被送往醫(yī)院搶救,護士反復(fù)喊其名字,疑原因曝光

      突發(fā)!王暖暖深夜被送往醫(yī)院搶救,護士反復(fù)喊其名字,疑原因曝光

      裕豐娛間說
      2026-05-08 07:14:12
      14歲神童手搓發(fā)動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      14歲神童手搓發(fā)動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      社會日日鮮
      2026-05-08 04:18:01
      孟庭葦遭家暴與張志鵬離婚,現(xiàn)與兒子相依為命

      孟庭葦遭家暴與張志鵬離婚,現(xiàn)與兒子相依為命

      蕭狡科普解說
      2026-05-05 22:34:36
      荷蘭科學(xué)家首次繪制出陰蒂三維神經(jīng)圖,其神經(jīng)密度是陰莖的6~15倍

      荷蘭科學(xué)家首次繪制出陰蒂三維神經(jīng)圖,其神經(jīng)密度是陰莖的6~15倍

      科普大世界
      2026-05-08 09:36:59
      190元榴蓮遭“僅退款”,商家花5000余元驅(qū)車1600公里找買家,翻遍垃圾桶找證據(jù),騙取退款的買家已被行拘

      190元榴蓮遭“僅退款”,商家花5000余元驅(qū)車1600公里找買家,翻遍垃圾桶找證據(jù),騙取退款的買家已被行拘

      極目新聞
      2026-05-08 13:19:35
      關(guān)鍵2+1被吹掉!41歲勒布朗多次沖框僅4罰:鏖戰(zhàn)38分鐘轟23+6累慘

      關(guān)鍵2+1被吹掉!41歲勒布朗多次沖框僅4罰:鏖戰(zhàn)38分鐘轟23+6累慘

      顏小白的籃球夢
      2026-05-08 12:20:00
      3200 萬人請愿趕他走!姆巴佩破恥辱吉尼斯紀(jì)錄,進 41 球沒用!

      3200 萬人請愿趕他走!姆巴佩破恥辱吉尼斯紀(jì)錄,進 41 球沒用!

      奶蓋熊本熊
      2026-05-08 00:29:53
      伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

      伊朗導(dǎo)彈再次砸向阿聯(lián)酋!蝴蝶效應(yīng)開始,美國出現(xiàn)巨頭破產(chǎn)

      說歷史的老牢
      2026-05-07 14:51:15
      搞垮中國交通的罪魁禍?zhǔn)?,并非是車太多?這幾座山不移除就白搭了

      搞垮中國交通的罪魁禍?zhǔn)?,并非是車太多?這幾座山不移除就白搭了

      原來仙女不講理
      2026-05-07 23:09:21
      皇馬隊長親承內(nèi)訌 被隊友推搡撞桌 當(dāng)場昏迷+短暫失憶 將缺戰(zhàn)巴薩

      皇馬隊長親承內(nèi)訌 被隊友推搡撞桌 當(dāng)場昏迷+短暫失憶 將缺戰(zhàn)巴薩

      我愛英超
      2026-05-08 06:56:48
      涉疫郵輪船長宣布首例死亡視頻曝光 稱不會傳染

      涉疫郵輪船長宣布首例死亡視頻曝光 稱不會傳染

      看看新聞Knews
      2026-05-08 11:56:03
      2026-05-08 13:43:00
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11770文章數(shù) 117062關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠?

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開業(yè)

      頭條要聞

      "4只皮皮蝦1035元"店主事發(fā)次日病逝 家屬:不再開業(yè)

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      黃子佼獲緩刑4年,無需入獄服刑

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      健康
      家居
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術(shù)要聞

      探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

      干細胞治燒燙傷面臨這些“瓶頸”

      家居要聞

      流動的尺度 打破家的形式主義

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 97久久综合亚洲色hezyo| 超碰成人人人做人人爽| 日本熟妇精品一区二区三区| 国产精品国产三级国快看| 亚洲日本在线一区| 瑟久草| 亚洲有无码av在线播放| 国产三级精品三级| 亚洲国产成人久久一区二区三区| 天天综合91| 国产亚洲精品福利在线无卡一| 久碰久摸久看视频在线观看| 999zyz玖玖资源站在线观看| 精品国产美女| 大战丰满无码人妻50p| 亚洲成人av日韩在线| 国语自产免费精品视频在| 国产露脸无套对白在线播放| 国产肉体ⅹxxx137大胆| 被灌满精子的少妇视频| A片视频免费观看无摭挡| 精品国产av无码一道| 在线成人一区二区| 亚洲国产黄色| aⅴ中文字幕不卡在线无码| 7777精品久久久大香线蕉| 少妇综合网| 亚洲乱亚洲乱妇无码| 一本之道av不卡精品| 18亚洲AV无码成人网站国产| 亚洲日韩亚洲另类激情文学| 人人婷婷人人澡人人爽| 九九色这里只有精品国产| 丝袜a片| 大乳丰满人妻中文字幕日本电影| 国偷自产av一区二区三区| 亚洲综合伊人久久影院| 欧美午夜小视频| 精品人妻少妇一区二区三区| 欧美日韩手机在线视频| 内射中出高清晰|