![]()
4 月 29 日下午,DeepSeek 多模態(tài)團(tuán)隊(duì)負(fù)責(zé)陳小康(Xiaokang Chen)在 X 發(fā)布動(dòng)態(tài):“Now, we see you. ”,配圖為兩只 DeepSeek 鯨魚 logo,一只仍戴著海盜眼罩,一只已經(jīng)睜開眼睛。這是他在 24 小時(shí)內(nèi)第二次釋放類似信號(hào)。前一天,他曾發(fā)布措辭為“Soon, we see you”的同主題預(yù)告,隨后該推文被刪除。
![]()
圖丨相關(guān)推文(來(lái)源:X)
陳小康目前在 DeepSeek 負(fù)責(zé)多模態(tài)預(yù)訓(xùn)練與后訓(xùn)練,統(tǒng)領(lǐng) DeepSeek 大模型的多模態(tài)能力建設(shè)。其北大博士階段導(dǎo)師為曾剛教授,研究方向涵蓋視覺-語(yǔ)言模型、半監(jiān)督分割、masked image modeling 等。
與預(yù)告同步,部分用戶已在 DeepSeek 官方 App 中灰度到“識(shí)圖模式”(沒能被灰度測(cè)試到)截圖顯示,App 輸入欄上方除原有的“快速模式”“專家模式”外,新增“識(shí)圖模式”按鈕,并標(biāo)注“圖片理解功能內(nèi)測(cè)中”。社交平臺(tái)流出的內(nèi)測(cè)截圖顯示,用戶上傳一張圖片后,能夠輸出包括“分析用戶需求”“分析圖片”在內(nèi)的結(jié)構(gòu)化描述,識(shí)別圖片具體內(nèi)容。
![]()
圖丨新上的識(shí)圖模式(來(lái)源:小紅書@云澗夢(mèng))
這是 DeepSeek 主線產(chǎn)品中首次出現(xiàn)具備圖像理解能力的模式。此前 4 月 8 日,DeepSeek App 完成第一輪模式分層改版,上線“快速模式”和“專家模式”,根據(jù) V4 發(fā)布后的官方說(shuō)明,前者由 V4-Flash 驅(qū)動(dòng),后者對(duì)應(yīng) V4-Pro。當(dāng)時(shí)已有微博用戶(@蟻工廠)放出含"快速/專家/視覺"三檔選項(xiàng)的截圖,但視覺一檔遲遲未開放。從今天起,這一檔開始進(jìn)入小范圍灰度。
這次內(nèi)測(cè)距 V4 正式發(fā)布剛過(guò) 5 天。4 月 24 日 DeepSeek 發(fā)布的 V4 系列預(yù)覽版(V4-Pro 1.6T 參數(shù) / V4-Flash 284B 參數(shù),均支持 1M token 上下文)仍是純文本模型,這一點(diǎn)和此前外界關(guān)于“V4 將原生多模態(tài)”的密集傳聞不符。V4 技術(shù)報(bào)告第 6 節(jié)“Conclusion, Limitations, and Future Directions”中明確寫道,下一步工作之一是“將多模態(tài)能力融入模型體系”。
![]()
(來(lái)源:DeepTech)
值得注意的是,V4 發(fā)布前后曾有一系列圍繞 DeepSeek 多模態(tài)人才流失的報(bào)道。4 月 12 日,自動(dòng)駕駛公司元戎啟行確認(rèn) DeepSeek 多模態(tài)模型核心貢獻(xiàn)者阮翀已加盟出任首席科學(xué)家;DeepSeek-OCR 系列核心作者魏浩然在春節(jié)前后離職。此次陳小康的兩次預(yù)告與識(shí)圖模式灰度上線,是 DeepSeek 多模態(tài)團(tuán)隊(duì)近三個(gè)月來(lái)第一次以產(chǎn)品形式對(duì)外釋放進(jìn)展。
不過(guò),目前可觀察到的能力仍限于圖像理解(vision-language understanding),而非外界過(guò)去半年反復(fù)猜測(cè)的“原生多模態(tài)生成”。從 App 灰度截圖的輸出風(fēng)格判斷,識(shí)圖模式更接近一個(gè)掛載在 V4 主干上的視覺理解模塊。
DeepSeek 官方目前未對(duì)識(shí)圖模式的開放范圍、正式發(fā)布時(shí)間、底層模型來(lái)源做出說(shuō)明。但從陳小康從“Soon”到“Now”的兩次發(fā)帖節(jié)奏判斷,更大范圍的開放或許在數(shù)日之內(nèi)。
參考資料:
1.https://x.com/PKUCXK/status/2049381471669080209
運(yùn)營(yíng)/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.