上海4月24日訊 人工智能領(lǐng)域迎來重大突破——Google DeepMind團(tuán)隊發(fā)布全新研究成果"Vision Banana",用"生成即理解"的理念,為計算機視覺領(lǐng)域帶來一場范式革命。
什么是"生成即理解"?
簡單來說,過去人們認(rèn)為圖像生成模型(比如能畫畫的AI)和視覺理解模型(比如能識別物體、測量距離的AI)是兩條平行線。但DeepMind這次證明,只要讓AI學(xué)會生成圖像,它自然就學(xué)會了"看懂"圖像。
![]()
這項研究論文《Image Generators are Generalist Vision Learners》于近期發(fā)表在學(xué)術(shù)平臺Arxiv上,項目地址已公開。核心思想是:圖像生成訓(xùn)練能讓模型學(xué)到強大且通用的視覺表征,圖像生成器就是強大的通用視覺學(xué)習(xí)器。
技術(shù)有何創(chuàng)新?
研究團(tuán)隊基于Nano Banana Pro圖像生成模型構(gòu)建了Vision Banana,未增加專門用于視覺理解的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),也未修改底層架構(gòu)。其核心方法是:將視覺感知任務(wù)的輸出全部參數(shù)化為RGB圖像格式。
![]()
舉例來說,深度估計任務(wù)中,團(tuán)隊設(shè)計了嚴(yán)格可逆的數(shù)學(xué)映射機制,將物理深度[0, ∞)映射到RGB色彩立方體邊緣,支持無損解碼;分割任務(wù)則通過提示詞規(guī)定顏色掩碼,模型直接生成帶顏色掩碼的圖片,隨后提取對應(yīng)顏色像素還原分割結(jié)果。
性能表現(xiàn)亮眼
多項測試數(shù)據(jù)顯示,Vision Banana在多種視覺任務(wù)中實現(xiàn)SOTA性能:
語義分割:Cityscapes數(shù)據(jù)集mIoU達(dá)0.699,超越SAM3的0.652
深度估計:六大公開基準(zhǔn)平均δ?精度0.882;與Depth Anything V3可比的四個數(shù)據(jù)集平均δ?達(dá)0.929,超過Depth Anything V3的0.918
![]()
實測案例:鹿苑寺照片深度估計13.71米,實際測量12.87米,絕對相對誤差僅約0.065
更重要的是,模型在驗證"生成即理解"的同時,未損傷原有生成能力——GenAI-Bench勝率達(dá)53.5%。
誰參與了這項研究?
研究由Google DeepMind主導(dǎo),何愷明、謝賽寧等多位知名學(xué)者參與。其中謝賽寧連續(xù)發(fā)文強調(diào)這一成果,認(rèn)為"這些生成先驗超越了視覺專家模型長期依賴的專有架構(gòu)與訓(xùn)練范式"。
數(shù)據(jù)來源值得注意
訓(xùn)練數(shù)據(jù)全部來自合成渲染引擎,未使用任何真實世界的深度數(shù)據(jù),評估基準(zhǔn)的真實訓(xùn)練數(shù)據(jù)均被排除——這意味著模型的泛化能力更強。
![]()
未來挑戰(zhàn)
研究團(tuán)隊也指出當(dāng)前局限:推理開銷仍然顯著偏高,加速與成本優(yōu)化是走向廣泛部署的必由之路;當(dāng)前評估專注于單目圖像輸入,多視圖和視頻輸入是自然的下一步;探索基礎(chǔ)視覺模型與LLM的協(xié)同融合,以增強跨模態(tài)推理也是未來方向。
行業(yè)意義
研究團(tuán)隊在論文中表示:"我們可能正見證計算機視覺領(lǐng)域的重大范式轉(zhuǎn)變,我們正在目睹計算機視覺的范式轉(zhuǎn)變,并為基于視覺的AGI鋪平道路。"
業(yè)界認(rèn)為,這一成果標(biāo)志著生成式視覺預(yù)訓(xùn)練在構(gòu)建同時支持生成和理解的基礎(chǔ)視覺模型中扮演核心角色,為AI視覺技術(shù)打開新的發(fā)展路徑。
記者手記:當(dāng)生成模型不僅能"畫"還能"懂",我們離真正的"視覺智能"還有多遠(yuǎn)?Vision Banana或許只是起點。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.