DeepSeek:現在我們看見你了
4月29日,DeepSeek多模態技術負責人陳小康在X平臺發了一張圖:左側鯨魚戴著海盜眼罩,右側DeepSeek圖標,配文“Now we see you.(現在我們看見你了)”。同一條推文的前一天版本“Soon, we see you(馬上我們就能看到你)”已被刪除。
![]()
陳小康在回復中確認,部分網頁端和App端用戶已可使用多模態功能。未來圖靈小編發現,DeepSeek對話界面除了“快速模式”“專家模式”,新增了“識圖模式”按鈕,標注“圖片理解功能內測中”。
![]()
未來圖靈小編上傳PNG圖片實測,DeepSeek能精準識別圖中人物、背景、動作和顏色。
![]()
截至發稿,DeepSeek未在官網、Hugging Face或GitHub發布新的多模態模型權重、技術報告或正式公告。
缺了多模態,純文本模型能回答問題,但看不懂截圖、網頁、表格和文檔。沒有視覺能力,Agent就無法“看懂用戶的屏幕”。過去一年,DeepSeek在這一方向密集落子:DeepSeek-VL2專攻視覺問答和OCR,Janus系列嘗試圖文統一,DeepSeek-OCR探索用視覺編碼壓縮長文本。
值得注意的是,陳小康此前在X平臺的身份標注為“多模態預訓練與后訓練負責人”。北大博士期間,他的研究方向涵蓋視覺-語言模型、半監督分割和掩碼圖像建模。
業內推測,多模態功能將率先落地圖片理解、OCR、文檔解析、圖表分析和截圖問答,短期內不會上線圖像生成或視頻模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.