GPT-Image-2平替！最強(qiáng)開源生圖模型來了

2026-04-29 16:04:21　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子犀牛

【新智元導(dǎo)讀】GPT Image 2之后，最強(qiáng)開源生圖模型來了！SenseNova U1正式開源，原生統(tǒng)一理解和生成。它不僅能看懂圖，更能「邊想邊畫」，實(shí)現(xiàn)連續(xù)圖文創(chuàng)作輸出。這才是通往AGI的正確姿勢。

全球AI生圖大戰(zhàn)正酣！

上一周，OpenAI正式亮出的GPT Image 2，直接讓全網(wǎng)目瞪口呆。

不論是帶貨的直播間、90年代懷舊照片，還是復(fù)雜燒腦的知識圖，各種神仙級demo正在刷屏。

別問，問就是AI生圖已進(jìn)化到下一個Level了。

短短幾天，國內(nèi)大廠商湯快速反擊，亮出了一張全新的底牌：多模態(tài)理解生成模型SenseNova U1。

它把「看懂圖」和「生成圖」這兩件事，塞進(jìn)了同一個大腦。

其核心突破便在于，通過自研「單一模型架構(gòu)」NEO-Unify，實(shí)現(xiàn)了理解、推理、生成的統(tǒng)一。

更重磅的是，它沒有藏著掖著。

目前，SenseNova U1已在GitHub上全面開源，一大批網(wǎng)友已經(jīng)開始整花活了。

就連來自Hugging Face、MLS超級智能體實(shí)驗(yàn)室等AI大佬紛紛圍觀和點(diǎn)贊。

一手實(shí)測，信息量巨大

這一次，開源的是SenseNova U1 Lite輕量版系列，一共包含了兩個不同規(guī)格的模型：

SenseNova-U1-8B-MoT：基于稠密骨干網(wǎng)絡(luò)
SenseNova-U1-A3B-MoT：基于MoE骨干網(wǎng)絡(luò)

參數(shù)看著「精煉」，但成績表現(xiàn)遠(yuǎn)超預(yù)期。

多項(xiàng)基準(zhǔn)測試中，U1 Lite爆發(fā)出全維度的統(tǒng)治力，達(dá)到了同量級開源的SOTA水平。

更令人意外的是，它在多項(xiàng)指標(biāo)上直逼，甚至超越了部分大型商業(yè)閉源模型。

圖像理解、圖像生成、視覺推理基準(zhǔn)測試結(jié)果

如今，SenseNova U1上線后，各路大神直呼玩得停不下來。

在正式拆解技術(shù)之前，先上真實(shí)demo，讓你直觀感受U1的能力邊界。

首先，我們來試一下U1的拿手好戲——連續(xù)圖文創(chuàng)作輸出，它依托于商湯首創(chuàng)的圖文交錯思維鏈技術(shù)。

先來看第一個demo——手繪哥特式大教堂的步驟拆解圖。

令人驚艷的是，在思考的過程中，U1將繁復(fù)的建筑美學(xué)解構(gòu)得淋漓盡致，更像是一個擁有深度空間思維的「建筑師」。

過去，對于生圖AI而言，保持多張圖的一致性曾是最大的難題。

但在這個Demo中，從簡練輪廓到華麗成品，建筑的主體結(jié)構(gòu)、飛扶壁的數(shù)量、甚至玫瑰窗的格柵紋路，都保持了近乎完美的物理對齊。

這種高度的一致性，讓它看起來更像是一份真正具備教學(xué)意義的連貫教案。

再比如，一句簡單的提示：在海邊懸崖上設(shè)計(jì)一棟圖書館，并且實(shí)現(xiàn)多角度呈現(xiàn)。

五個視角，五段文字，五張圖，嚴(yán)格交替、邏輯遞進(jìn)——從外到內(nèi)、從結(jié)構(gòu)到氛圍、從白天到黃昏，每一步「想」的內(nèi)容都直接「畫」了出來。

思考和視覺表達(dá)同步展開，文字為圖像提供設(shè)計(jì)意圖，圖像為文字提供視覺驗(yàn)證，二者互為因果。

而且最驚艷的是五張圖之間的風(fēng)格自洽性——建筑形態(tài)、材質(zhì)語言、色彩體系高度統(tǒng)一，明顯是在同一個「設(shè)計(jì)概念」下生成的。

這就是「邊想邊畫」該有的樣子。

再來讓它生成一段漫畫故事，同樣是簡單幾句提示詞。

可以看出，四格分鏡的敘事節(jié)奏精準(zhǔn)到位——從賽博廢墟中的孤燈、到機(jī)器人圍觀老人讀書的荒誕溫情、再到淚落書頁的微觀特寫、最后拉到地平線長隊(duì)的宏大收束，情緒層層遞進(jìn)。

而且，從第一幅畫到最后一幅，人物、場景都保持了比較強(qiáng)的一致性。

這恰恰得益于，SenseNova U1具備的原生圖文理解生成的能力，天然把圖像和文本底層融合信號完整地保留上下文中。

更值得注意的是，U1連續(xù)圖文創(chuàng)作輸出的深度，在每格之間自發(fā)補(bǔ)充了大量敘事細(xì)節(jié)：「靜默之塔」的命名、指尖劃過歲月痕跡的動作、晶瑩淚珠與泛黃書頁的對比——

這些文字本身就構(gòu)成了一部微型科幻小說，圖像則精準(zhǔn)地將文字中的情感峰值可視化。

再讓U1生成多種藝術(shù)風(fēng)格的繪畫，主體就一個狼。

看到結(jié)果瞬間被驚艷到了，浮世繪、裝飾藝術(shù)、表現(xiàn)主義全部呈現(xiàn)。

甚至，U1可以通過連續(xù)的圖文輸出，直出像PPT一樣的高維信息圖。

它的每一步創(chuàng)作，通過共享上下文實(shí)現(xiàn)了統(tǒng)一表征，從而確保了前后環(huán)節(jié)在結(jié)構(gòu)、細(xì)節(jié)上的高度一致。

甚至，UI還可以幫你用「圖文」方式，解釋生活中一些問題，直觀又有讓人想看下去的欲望。

最后，再來一個抽象、高難度的命題——幫我把「孤獨(dú)」畫出來。要求：畫面里絕對不能出現(xiàn)任何人物、表情、文字。

不知，看完之后，你是否感受到了「孤獨(dú)」？

接著，測一下U1的一鍵生成信息圖。

給它一個簡單的提示詞：制作一張手沖咖啡的步驟圖。

SenseNova U1會先思考，再搜索需要的信息，最后把這句簡單的提示詞擴(kuò)寫。

一頓操作之后，生成的信息圖內(nèi)容豐富、詳實(shí)多了。

這張?jiān)敿?xì)的手沖咖啡步驟圖堪稱典范，八個步驟環(huán)環(huán)相扣。

它精準(zhǔn)還原了從最初研磨咖啡，到最后完成萃取的全過程。

科學(xué)知識的科普，一張圖就能搞定。

下面這個demo中，簡單一句話：水循環(huán)的奇妙旅程。U1在思考的過程中，開始搜索、匯總相關(guān)信息。

由此，就得到了一張2K超清的一張水循環(huán)的奧秘圖。

它再次證明了U1在處理復(fù)雜、高密度信息的強(qiáng)大能力，復(fù)刻了地理學(xué)上的所有關(guān)鍵節(jié)點(diǎn)——太陽輻射、蒸發(fā)、凝結(jié)、輸送、降水、徑流。

而且，AI還極具匠心在每一步創(chuàng)作中，對前一步結(jié)構(gòu)和細(xì)節(jié)做了精準(zhǔn)延續(xù)。

6個字，生成西瓜信息圖。

從營養(yǎng)成分、健康益處到食用建議，三大板塊的信息密度拉滿，直接發(fā)到小紅書就是完整的推文素材。

六個字的prompt，換來一張可以直接交付的百科信息圖。

再比如，U1還能生成這種超復(fù)雜，又兼具趣味性的「通勤圖鑒」。

它設(shè)計(jì)的每一個板塊都充滿了巧思和創(chuàng)意，不僅視覺效果拉滿，內(nèi)涵更是豐富。

U1還可以駕馭不同的藝術(shù)風(fēng)格，比如「波普漫畫」。

它可以通過分鏡的形式，將信息用獨(dú)特的視覺語言傳遞出來，如下便是一個關(guān)于職業(yè)轉(zhuǎn)型的波普漫畫。

這張圖簡直就是視覺和邏輯的雙重炸彈，AI對高密度信息的處理能力在這里得到了極致體現(xiàn)。

估計(jì)養(yǎng)毛孩子的打工人，看到下面這張圖，都會產(chǎn)生心照不宣的共鳴。

U1還能瞬間拿捏樂高風(fēng)格的信息圖——

一個是樂高環(huán)球早餐圖，把每一個國家：日本、墨西哥、英國、土耳其、巴西、印度標(biāo)志性食物精準(zhǔn)還原，并將其重構(gòu)為樂高積木，有趣還有傳播價(jià)值。

另一個是咖啡百科信息圖，從歷史發(fā)展、沖煮科學(xué)、面臨挑戰(zhàn)，將三大知識板塊全部融入了一張圖中。

再來一個，以「地球的呼吸碳循環(huán)」為主題的垂直分層信息圖。

一張羊皮紙，清晰詮釋了都市的變化。

還有經(jīng)典的結(jié)構(gòu)爆炸圖測試，U1也是把細(xì)節(jié)拆解得絲絲入扣。

原生NEO-Unify架構(gòu)

最強(qiáng)開源，理解生成一步到位

U1實(shí)測表現(xiàn)固然驚艷，但還需回答一個根本問題：為什么一個小參數(shù)尺寸的模型能做到這些？

答案藏在架構(gòu)層。

當(dāng)前多模態(tài)AI模型的主流做法是「拼積木」：用一個視覺編碼器（VE）負(fù)責(zé)「看」，用一個變分自編碼器（VAE）負(fù)責(zé)「畫」，中間再接一個大語言模型負(fù)責(zé)「想」。

三個模塊各自獨(dú)立訓(xùn)練，然后拼在一起協(xié)同工作。

這套范式行之有效，但有一個根本性問題——感知和創(chuàng)造是割裂的。

VE把圖像壓縮成語義特征時，不可避免地丟失了像素級細(xì)節(jié)；VAE在生成圖像時，又得從語義空間重新「猜」回視覺細(xì)節(jié)。

理解和生成走的是兩條路，模型永遠(yuǎn)在做「翻譯」，而不是真正「理解了再畫」。

NEO-Unify做了一件看起來很瘋狂的事：把VE和VAE都扔了。

它從第一性原理出發(fā)，基于一個核心假設(shè)——語言和視覺信息本質(zhì)上是內(nèi)在關(guān)聯(lián)的，應(yīng)該被作為統(tǒng)一復(fù)合體直接建模。

打個比方，傳統(tǒng)架構(gòu)像是一個團(tuán)隊(duì)里有翻譯——視覺信息先被翻譯成「語言能懂的格式」，處理完再翻譯回「圖像能用的格式」。每次翻譯都有信息損耗，還增加了溝通成本。

NEO-Unify則像是一個天生雙語的人，從一開始就同時用視覺和語言思考，不需要翻譯這個中間環(huán)節(jié)。

技術(shù)上，NEO-Unify的實(shí)現(xiàn)路徑是：

引入近似無損的視覺接口，統(tǒng)一圖像的輸入與輸出表示；
采用原生混合Transformer（MoT）架構(gòu)，讓理解分支和生成分支在同一個骨干網(wǎng)絡(luò)內(nèi)協(xié)同工作；
文本采用自回歸交叉熵目標(biāo)，視覺通過像素流匹配進(jìn)行優(yōu)化，二者在統(tǒng)一學(xué)習(xí)框架下聯(lián)合訓(xùn)練。

實(shí)驗(yàn)證實(shí)了一個關(guān)鍵發(fā)現(xiàn)，即使凍結(jié)理解分支，獨(dú)立的生成分支依然能從統(tǒng)一表征中恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。

這意味著NEO-Unify的統(tǒng)一表征確實(shí)同時保留了語義豐富性和像素級保真度。這在以前，被認(rèn)為是魚和熊掌不可兼得的。

團(tuán)隊(duì)還公布了一組硬指標(biāo)：NEO-unify（2B）在初步9萬步預(yù)訓(xùn)練后，在MS COCO 2017上取得31.56 PSNR和0.85 SSIM，接近Flux VAE的32.65和0.91。

考慮到它完全沒有依賴任何預(yù)訓(xùn)練的VE或VAE，這個數(shù)據(jù)相當(dāng)令人矚目。

經(jīng)過剛才的實(shí)測，我們已見識到了NEO-unify架構(gòu)加持下，SenseNova U1連續(xù)圖文創(chuàng)作輸出的殺手級能力。

在多個信息圖生成基準(zhǔn)上，SenseNova U1的生成質(zhì)量亂殺其他開源模型，甚至可以媲美Qwen-Image 2.0 Pro、Seedream 4.5等閉源模型，并在推理延遲上有明顯優(yōu)勢。

和GPT-Image-2比什么？范式差異才是重點(diǎn)

就在一周前，GPT-Image-2（ChatGPT Images 2.0）橫空出世，以近乎完美的文字渲染、多輪編輯和推理驅(qū)動的生成。

毫無疑問，GPT-Image-2在創(chuàng)意生圖領(lǐng)域樹立了新的標(biāo)桿。

但GPT-Image-2本質(zhì)上仍然是一個「生圖專用模型」，它的核心能力是根據(jù)文字指令生成高質(zhì)量圖像。

SenseNova U1走的是一條完全不同的路。

它不是「生圖模型」，而是一個「原生理解生成統(tǒng)一模型」。

生圖只是它能力譜的一部分；它同時具備圖像理解、視覺推理、圖文交錯思考、信息圖生成等全維度能力，而且這些能力來自同一個架構(gòu)、同一次訓(xùn)練、同一個模型。

更關(guān)鍵的，SenseNova U1它不但強(qiáng)，還是開源的。

對于那些需要私有化部署、需要深度定制、需要把多模態(tài)能力嵌入自己產(chǎn)品的開發(fā)者來說，U1提供了一條GPT-Image-2無法提供的路。

原生統(tǒng)一：通往AGI必經(jīng)之路

站遠(yuǎn)一步看，GPT-Image-2引爆的「生圖大戰(zhàn)」，本質(zhì)上還是在模態(tài)割裂的范式里卷——比誰的文字渲染更準(zhǔn)、比誰的分辨率更高、比誰的風(fēng)格更多樣。

這些當(dāng)然重要，但它們都是「能力增量」，不是「范式變革」。

真正的AGI不會是一堆專用模塊的拼接——人類的大腦不是「語言區(qū)負(fù)責(zé)想、視覺區(qū)負(fù)責(zé)看、運(yùn)動區(qū)負(fù)責(zé)畫」三個獨(dú)立系統(tǒng)的機(jī)械組合，而是一個高度統(tǒng)一的認(rèn)知體。

多模態(tài)AI要走向AGI，遲早要走「原生統(tǒng)一」這條路。

NEO-Unify是第一個真正意義上「全扔掉」的原生統(tǒng)一架構(gòu)，這讓它在學(xué)術(shù)和工程兩個維度上都具有獨(dú)特的坐標(biāo)價(jià)值。

從GitHub和Hugging Face上的早期活躍度來看，NEO-Unify架構(gòu)本身引發(fā)了大量技術(shù)討論，已經(jīng)有開發(fā)者在Apple Silicon上復(fù)現(xiàn)了NEO-Unify的toy-scale實(shí)驗(yàn)，驗(yàn)證MoT架構(gòu)在小規(guī)模下的表現(xiàn)。

對于關(guān)注多模態(tài)統(tǒng)一范式前沿的研究者來說，U1的開源提供了第一個可以實(shí)際上手跑的原生統(tǒng)一模型。

8B只是開始

商湯在U1發(fā)布時明確表示：當(dāng)前開源的U1 Lite是輕量版，團(tuán)隊(duì)正在沿著NEO-Unify架構(gòu)繼續(xù)Scale，更大參數(shù)規(guī)模的模型將在后續(xù)推出。

他們的信念是，基于高效的原生架構(gòu)，可以用低得多的計(jì)算成本達(dá)到國際頂尖模型的水平。

這句話的潛臺詞是：8B已經(jīng)打到了開源SOTA，當(dāng)參數(shù)量Scale到幾十B甚至更大時，NEO-Unify的架構(gòu)紅利會更加顯著。

多模態(tài)AI正在經(jīng)歷一場「從拼接到統(tǒng)一」的范式遷移。

U1的全球開源，是這條路上的第一步——但從今天的效果來看，這一步已經(jīng)走得足夠扎實(shí)。

至于這條路最終通向哪里，答案或許得由全球社區(qū)的開發(fā)者們一起來寫。

代碼和權(quán)重已經(jīng)上線了。剩下的，交給你們。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.