DeepSeek終于“睜開眼”了!
4月29日,DeepSeek多模態(tài)團隊研究員陳小康在X平臺發(fā)布了一條配圖推文,圖中DeepSeek標志性的“鯨魚”摘下眼罩,配文“Now,we see you”。
![]()
這意味著,討論了一整年的DeepSeek多模態(tài)能力,終于來了!
現(xiàn)在,在Web端和App的輸入欄上方,原有的“快速模式”“專家模式”旁邊赫然多了一個新標簽“識圖模式”,鼠標懸停在上面時彈出的提示語是"圖片理解功能內測中"。
![]()
這次上線的識圖模式絕非簡單的OCR文字識別。傳統(tǒng)OCR只能提取圖片里的文字,比如讓你識別截圖里寫了什么字。
但現(xiàn)在的DeepSeek具備了真正的“視覺語言模型”能力,它能讀懂圖片的語義、景物、人物關系,甚至能看懂表情包里的幽默梗。
例如,通過建筑風格和路燈上的字跡推斷出拍攝地點;通過食品包裝、手機圖等,識別出品牌、成分、設計特征,并給出實用建議。
為了搞清楚這只“開眼”的鯨魚到底有多厲害,小編也是對它進行了一些測試:
先來一些基礎的,給他上傳一張小編在博物館拍的一張文物,問它“這是什么?”
僅僅思考13秒后它就給出了答案:明孝端皇后九龍九鳳冠,同時還告訴小編它的歷史背景,以及可以通過哪些顯著特征來辨認。
![]()
在它的“思考”過程中也可以看到,它可以完整描述畫面中的特定細節(jié)。
不過,誰都有翻車的時候。
面對經(jīng)典“數(shù)手指”難題,DeepSeek無論如何都數(shù)不對,即使在告訴它答案的情況下依舊“嘴硬”。
![]()
到最后,它甚至直接擺爛了:“實際上圖片里只有5根,但強行數(shù)的話的確會‘看到’6根,所以按照這種趣味的腦筋急轉彎邏輯,它就是‘6根’!”
![]()
其實這張圖,在AI眼里是一個反事實圖像。
在AI眼里最“人有五根手指”是一個常識,一個頑固的刻板印象。
于是當它看到6根手指時,它的“常識”與他所看到的畫面起了強烈沖突。
但最終,AI還是輸出了它認為正確的東西,同時忽略它看到但認為不合理的存在。
除此之外,之前難倒了所有AI的“愛心”測試,DeepSeek 同樣沒能識別出來。
![]()
當然,這些測試對于現(xiàn)在的所有AI來說,難度都一樣高。
拋開這些梗圖,對于日常使用來說,DeepSeek的準確率還是夠用的。
如:識花、電影、商品圖等。
![]()
從實測反饋來看,不開思考模式時,它的響應速度極快,甚至半秒就能給出回答,用戶體驗十分絲滑。
此次識圖模式的上線,意味著DeepSeek的產(chǎn)品矩陣,正式從純文本對話,擴展到了圖文交互。
目前,識圖模式還未向所有人開放,這只是一個小規(guī)模的灰度測試。
快去刷新一下你的DeepSeek界面,看看你是不是那個“天選之子”。如果你恰好被灰度到了,趕緊丟張圖試試這只“鯨魚的眼力”吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.