![]()
新智元報(bào)道
編輯:桃子 犀牛
【新智元導(dǎo)讀】GPT Image 2之后,最強(qiáng)開源生圖模型來了!SenseNova U1正式開源,原生統(tǒng)一理解和生成。它不僅能看懂圖,更能「邊想邊畫」,實(shí)現(xiàn)連續(xù)圖文創(chuàng)作輸出。這才是通往AGI的正確姿勢。
全球AI生圖大戰(zhàn)正酣!
上一周,OpenAI正式亮出的GPT Image 2,直接讓全網(wǎng)目瞪口呆。
不論是帶貨的直播間、90年代懷舊照片,還是復(fù)雜燒腦的知識圖,各種神仙級demo正在刷屏。
![]()
![]()
![]()
別問,問就是AI生圖已進(jìn)化到下一個Level了。
短短幾天,國內(nèi)大廠商湯快速反擊,亮出了一張全新的底牌:多模態(tài)理解生成模型SenseNova U1。
它把「看懂圖」和「生成圖」這兩件事,塞進(jìn)了同一個大腦。
其核心突破便在于,通過自研「單一模型架構(gòu)」NEO-Unify,實(shí)現(xiàn)了理解、推理、生成的統(tǒng)一。
更重磅的是,它沒有藏著掖著。
目前,SenseNova U1已在GitHub上全面開源,一大批網(wǎng)友已經(jīng)開始整花活了。
就連來自Hugging Face、MLS超級智能體實(shí)驗(yàn)室等AI大佬紛紛圍觀和點(diǎn)贊。
![]()
![]()
![]()
![]()
![]()
一手實(shí)測,信息量巨大
這一次,開源的是SenseNova U1 Lite輕量版系列,一共包含了兩個不同規(guī)格的模型:
SenseNova-U1-8B-MoT:基于稠密骨干網(wǎng)絡(luò)
SenseNova-U1-A3B-MoT:基于MoE骨干網(wǎng)絡(luò)
參數(shù)看著「精煉」,但成績表現(xiàn)遠(yuǎn)超預(yù)期。
多項(xiàng)基準(zhǔn)測試中,U1 Lite爆發(fā)出全維度的統(tǒng)治力,達(dá)到了同量級開源的SOTA水平。
更令人意外的是,它在多項(xiàng)指標(biāo)上直逼,甚至超越了部分大型商業(yè)閉源模型。
![]()
![]()
![]()
圖像理解、圖像生成、視覺推理基準(zhǔn)測試結(jié)果
如今,SenseNova U1上線后,各路大神直呼玩得停不下來。
在正式拆解技術(shù)之前,先上真實(shí)demo,讓你直觀感受U1的能力邊界。
首先,我們來試一下U1的拿手好戲——連續(xù)圖文創(chuàng)作輸出,它依托于商湯首創(chuàng)的圖文交錯思維鏈技術(shù)。
先來看第一個demo——手繪哥特式大教堂的步驟拆解圖。
令人驚艷的是,在思考的過程中,U1將繁復(fù)的建筑美學(xué)解構(gòu)得淋漓盡致,更像是一個擁有深度空間思維的「建筑師」。
![]()
過去,對于生圖AI而言,保持多張圖的一致性曾是最大的難題。
但在這個Demo中,從簡練輪廓到華麗成品,建筑的主體結(jié)構(gòu)、飛扶壁的數(shù)量、甚至玫瑰窗的格柵紋路,都保持了近乎完美的物理對齊。
這種高度的一致性,讓它看起來更像是一份真正具備教學(xué)意義的連貫教案。
再比如,一句簡單的提示:在海邊懸崖上設(shè)計(jì)一棟圖書館,并且實(shí)現(xiàn)多角度呈現(xiàn)。
五個視角,五段文字,五張圖,嚴(yán)格交替、邏輯遞進(jìn)——從外到內(nèi)、從結(jié)構(gòu)到氛圍、從白天到黃昏,每一步「想」的內(nèi)容都直接「畫」了出來。
![]()
思考和視覺表達(dá)同步展開,文字為圖像提供設(shè)計(jì)意圖,圖像為文字提供視覺驗(yàn)證,二者互為因果。
而且最驚艷的是五張圖之間的風(fēng)格自洽性——建筑形態(tài)、材質(zhì)語言、色彩體系高度統(tǒng)一,明顯是在同一個「設(shè)計(jì)概念」下生成的。
這就是「邊想邊畫」該有的樣子。
再來讓它生成一段漫畫故事,同樣是簡單幾句提示詞。
可以看出,四格分鏡的敘事節(jié)奏精準(zhǔn)到位——從賽博廢墟中的孤燈、到機(jī)器人圍觀老人讀書的荒誕溫情、再到淚落書頁的微觀特寫、最后拉到地平線長隊(duì)的宏大收束,情緒層層遞進(jìn)。
而且,從第一幅畫到最后一幅,人物、場景都保持了比較強(qiáng)的一致性。
![]()
這恰恰得益于,SenseNova U1具備的原生圖文理解生成的能力,天然把圖像和文本底層融合信號完整地保留上下文中。
更值得注意的是,U1連續(xù)圖文創(chuàng)作輸出的深度,在每格之間自發(fā)補(bǔ)充了大量敘事細(xì)節(jié):「靜默之塔」的命名、指尖劃過歲月痕跡的動作、晶瑩淚珠與泛黃書頁的對比——
這些文字本身就構(gòu)成了一部微型科幻小說,圖像則精準(zhǔn)地將文字中的情感峰值可視化。
再讓U1生成多種藝術(shù)風(fēng)格的繪畫,主體就一個狼。
看到結(jié)果瞬間被驚艷到了,浮世繪、裝飾藝術(shù)、表現(xiàn)主義全部呈現(xiàn)。
![]()
甚至,U1可以通過連續(xù)的圖文輸出,直出像PPT一樣的高維信息圖。
它的每一步創(chuàng)作,通過共享上下文實(shí)現(xiàn)了統(tǒng)一表征,從而確保了前后環(huán)節(jié)在結(jié)構(gòu)、細(xì)節(jié)上的高度一致。
![]()
![]()
甚至,UI還可以幫你用「圖文」方式,解釋生活中一些問題,直觀又有讓人想看下去的欲望。
![]()
最后,再來一個抽象、高難度的命題——幫我把「孤獨(dú)」畫出來。要求:畫面里絕對不能出現(xiàn)任何人物、表情、文字。
不知,看完之后,你是否感受到了「孤獨(dú)」?
![]()
接著,測一下U1的一鍵生成信息圖。
給它一個簡單的提示詞:制作一張手沖咖啡的步驟圖。
SenseNova U1會先思考,再搜索需要的信息,最后把這句簡單的提示詞擴(kuò)寫。
![]()
一頓操作之后,生成的信息圖內(nèi)容豐富、詳實(shí)多了。
這張?jiān)敿?xì)的手沖咖啡步驟圖堪稱典范,八個步驟環(huán)環(huán)相扣。
它精準(zhǔn)還原了從最初研磨咖啡,到最后完成萃取的全過程。
![]()
科學(xué)知識的科普,一張圖就能搞定。
下面這個demo中,簡單一句話:水循環(huán)的奇妙旅程。U1在思考的過程中,開始搜索、匯總相關(guān)信息。
![]()
由此,就得到了一張2K超清的一張水循環(huán)的奧秘圖。
它再次證明了U1在處理復(fù)雜、高密度信息的強(qiáng)大能力,復(fù)刻了地理學(xué)上的所有關(guān)鍵節(jié)點(diǎn)——太陽輻射、蒸發(fā)、凝結(jié)、輸送、降水、徑流。
而且,AI還極具匠心在每一步創(chuàng)作中,對前一步結(jié)構(gòu)和細(xì)節(jié)做了精準(zhǔn)延續(xù)。
![]()
6個字,生成西瓜信息圖。
從營養(yǎng)成分、健康益處到食用建議,三大板塊的信息密度拉滿,直接發(fā)到小紅書就是完整的推文素材。
六個字的prompt,換來一張可以直接交付的百科信息圖。
![]()
再比如,U1還能生成這種超復(fù)雜,又兼具趣味性的「通勤圖鑒」。
它設(shè)計(jì)的每一個板塊都充滿了巧思和創(chuàng)意,不僅視覺效果拉滿,內(nèi)涵更是豐富。
![]()
U1還可以駕馭不同的藝術(shù)風(fēng)格,比如「波普漫畫」。
它可以通過分鏡的形式,將信息用獨(dú)特的視覺語言傳遞出來,如下便是一個關(guān)于職業(yè)轉(zhuǎn)型的波普漫畫。
這張圖簡直就是視覺和邏輯的雙重炸彈,AI對高密度信息的處理能力在這里得到了極致體現(xiàn)。
![]()
估計(jì)養(yǎng)毛孩子的打工人,看到下面這張圖,都會產(chǎn)生心照不宣的共鳴。
![]()
U1還能瞬間拿捏樂高風(fēng)格的信息圖——
一個是樂高環(huán)球早餐圖,把每一個國家:日本、墨西哥、英國、土耳其、巴西、印度標(biāo)志性食物精準(zhǔn)還原,并將其重構(gòu)為樂高積木,有趣還有傳播價(jià)值。
另一個是咖啡百科信息圖,從歷史發(fā)展、沖煮科學(xué)、面臨挑戰(zhàn),將三大知識板塊全部融入了一張圖中。
![]()
![]()
再來一個,以「地球的呼吸碳循環(huán)」為主題的垂直分層信息圖。
![]()
一張羊皮紙,清晰詮釋了都市的變化。
![]()
還有經(jīng)典的結(jié)構(gòu)爆炸圖測試,U1也是把細(xì)節(jié)拆解得絲絲入扣。
![]()
原生NEO-Unify架構(gòu)
最強(qiáng)開源,理解生成一步到位
U1實(shí)測表現(xiàn)固然驚艷,但還需回答一個根本問題:為什么一個小參數(shù)尺寸的模型能做到這些?
答案藏在架構(gòu)層。
當(dāng)前多模態(tài)AI模型的主流做法是「拼積木」:用一個視覺編碼器(VE)負(fù)責(zé)「看」,用一個變分自編碼器(VAE)負(fù)責(zé)「畫」,中間再接一個大語言模型負(fù)責(zé)「想」。
三個模塊各自獨(dú)立訓(xùn)練,然后拼在一起協(xié)同工作。
這套范式行之有效,但有一個根本性問題——感知和創(chuàng)造是割裂的。
VE把圖像壓縮成語義特征時,不可避免地丟失了像素級細(xì)節(jié);VAE在生成圖像時,又得從語義空間重新「猜」回視覺細(xì)節(jié)。
理解和生成走的是兩條路,模型永遠(yuǎn)在做「翻譯」,而不是真正「理解了再畫」。
NEO-Unify做了一件看起來很瘋狂的事:把VE和VAE都扔了。
它從第一性原理出發(fā),基于一個核心假設(shè)——語言和視覺信息本質(zhì)上是內(nèi)在關(guān)聯(lián)的,應(yīng)該被作為統(tǒng)一復(fù)合體直接建模。
![]()
打個比方,傳統(tǒng)架構(gòu)像是一個團(tuán)隊(duì)里有翻譯——視覺信息先被翻譯成「語言能懂的格式」,處理完再翻譯回「圖像能用的格式」。每次翻譯都有信息損耗,還增加了溝通成本。
NEO-Unify則像是一個天生雙語的人,從一開始就同時用視覺和語言思考,不需要翻譯這個中間環(huán)節(jié)。
技術(shù)上,NEO-Unify的實(shí)現(xiàn)路徑是:
引入近似無損的視覺接口,統(tǒng)一圖像的輸入與輸出表示;
采用原生混合Transformer(MoT)架構(gòu),讓理解分支和生成分支在同一個骨干網(wǎng)絡(luò)內(nèi)協(xié)同工作;
文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化,二者在統(tǒng)一學(xué)習(xí)框架下聯(lián)合訓(xùn)練。
實(shí)驗(yàn)證實(shí)了一個關(guān)鍵發(fā)現(xiàn),即使凍結(jié)理解分支,獨(dú)立的生成分支依然能從統(tǒng)一表征中恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。
這意味著NEO-Unify的統(tǒng)一表征確實(shí)同時保留了語義豐富性和像素級保真度。這在以前,被認(rèn)為是魚和熊掌不可兼得的。
團(tuán)隊(duì)還公布了一組硬指標(biāo):NEO-unify(2B)在初步9萬步預(yù)訓(xùn)練后,在MS COCO 2017上取得31.56 PSNR和0.85 SSIM,接近Flux VAE的32.65和0.91。
考慮到它完全沒有依賴任何預(yù)訓(xùn)練的VE或VAE,這個數(shù)據(jù)相當(dāng)令人矚目。
經(jīng)過剛才的實(shí)測,我們已見識到了NEO-unify架構(gòu)加持下,SenseNova U1連續(xù)圖文創(chuàng)作輸出的殺手級能力。
在多個信息圖生成基準(zhǔn)上,SenseNova U1的生成質(zhì)量亂殺其他開源模型,甚至可以媲美Qwen-Image 2.0 Pro、Seedream 4.5等閉源模型,并在推理延遲上有明顯優(yōu)勢。
![]()
![]()
和GPT-Image-2比什么?范式差異才是重點(diǎn)
就在一周前,GPT-Image-2(ChatGPT Images 2.0)橫空出世,以近乎完美的文字渲染、多輪編輯和推理驅(qū)動的生成。
毫無疑問,GPT-Image-2在創(chuàng)意生圖領(lǐng)域樹立了新的標(biāo)桿。
但GPT-Image-2本質(zhì)上仍然是一個「生圖專用模型」,它的核心能力是根據(jù)文字指令生成高質(zhì)量圖像。
SenseNova U1走的是一條完全不同的路。
它不是「生圖模型」,而是一個「原生理解生成統(tǒng)一模型」。
生圖只是它能力譜的一部分;它同時具備圖像理解、視覺推理、圖文交錯思考、信息圖生成等全維度能力,而且這些能力來自同一個架構(gòu)、同一次訓(xùn)練、同一個模型。
更關(guān)鍵的,SenseNova U1它不但強(qiáng),還是開源的。
對于那些需要私有化部署、需要深度定制、需要把多模態(tài)能力嵌入自己產(chǎn)品的開發(fā)者來說,U1提供了一條GPT-Image-2無法提供的路。
原生統(tǒng)一:通往AGI必經(jīng)之路
站遠(yuǎn)一步看,GPT-Image-2引爆的「生圖大戰(zhàn)」,本質(zhì)上還是在模態(tài)割裂的范式里卷——比誰的文字渲染更準(zhǔn)、比誰的分辨率更高、比誰的風(fēng)格更多樣。
這些當(dāng)然重要,但它們都是「能力增量」,不是「范式變革」。
真正的AGI不會是一堆專用模塊的拼接——人類的大腦不是「語言區(qū)負(fù)責(zé)想、視覺區(qū)負(fù)責(zé)看、運(yùn)動區(qū)負(fù)責(zé)畫」三個獨(dú)立系統(tǒng)的機(jī)械組合,而是一個高度統(tǒng)一的認(rèn)知體。
多模態(tài)AI要走向AGI,遲早要走「原生統(tǒng)一」這條路。
NEO-Unify是第一個真正意義上「全扔掉」的原生統(tǒng)一架構(gòu),這讓它在學(xué)術(shù)和工程兩個維度上都具有獨(dú)特的坐標(biāo)價(jià)值。
從GitHub和Hugging Face上的早期活躍度來看,NEO-Unify架構(gòu)本身引發(fā)了大量技術(shù)討論,已經(jīng)有開發(fā)者在Apple Silicon上復(fù)現(xiàn)了NEO-Unify的toy-scale實(shí)驗(yàn),驗(yàn)證MoT架構(gòu)在小規(guī)模下的表現(xiàn)。
![]()
對于關(guān)注多模態(tài)統(tǒng)一范式前沿的研究者來說,U1的開源提供了第一個可以實(shí)際上手跑的原生統(tǒng)一模型。
8B只是開始
商湯在U1發(fā)布時明確表示:當(dāng)前開源的U1 Lite是輕量版,團(tuán)隊(duì)正在沿著NEO-Unify架構(gòu)繼續(xù)Scale,更大參數(shù)規(guī)模的模型將在后續(xù)推出。
他們的信念是,基于高效的原生架構(gòu),可以用低得多的計(jì)算成本達(dá)到國際頂尖模型的水平。
這句話的潛臺詞是:8B已經(jīng)打到了開源SOTA,當(dāng)參數(shù)量Scale到幾十B甚至更大時,NEO-Unify的架構(gòu)紅利會更加顯著。
多模態(tài)AI正在經(jīng)歷一場「從拼接到統(tǒng)一」的范式遷移。
U1的全球開源,是這條路上的第一步——但從今天的效果來看,這一步已經(jīng)走得足夠扎實(shí)。
至于這條路最終通向哪里,答案或許得由全球社區(qū)的開發(fā)者們一起來寫。
代碼和權(quán)重已經(jīng)上線了。剩下的,交給你們。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.