![]()
就在4月30日,DeepSeek又發(fā)布了一篇關(guān)于多模態(tài)技術(shù)報告《Thinking with Visaul Primitives》(《用視覺原語思考》),闡釋了這次上新的多模態(tài)技術(shù)背后的細節(jié)。
![]()
關(guān)于刪除原因官方并沒有特別說明,不過有猜測不是內(nèi)容問題,而是信息透露太多。
DeepSeek的解法是給模型配上一只“手指”。通過引入“視覺原語”(Visual Primitives)框架,模型將點、邊界框等空間標記提升為最小思維單元。這意味著模型在推理時,能夠一邊“想”一邊“指”,將抽象的語言邏輯指向到具體空間坐標。
這一模型基于DeepSeek-V4-Flash(總參數(shù)2840億)構(gòu)建。DeepSeek的大量實驗表明,該方法在推理精度上實現(xiàn)顯著突破,在空間推理、視覺問答等挑戰(zhàn)性任務(wù)上,性能持平或超越 GPT、Claude、Gemini 最新版本。
DeepSeek的研究證明:多模態(tài)智能的未來,不只是 “看見更多像素”,而是構(gòu)建語言與視覺之間精準、無歧義的指代橋梁。
多模態(tài)已經(jīng)成為當前大模型更新的一個重要方向,而DeepSeek在這一方面卻遲遲未跟上,這也被認為是DeepSeek能力上的一大短板。也有傳言稱,DeepSeek暫緩多模態(tài)生成的訓(xùn)練策略,主要源于算力和現(xiàn)金的掣肘,在融資后,或許這一方向的訓(xùn)練會更加順利。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.