![]()
機(jī)器之心發(fā)布
今年以來(lái),圖像生成模型的迭代節(jié)奏明顯加快。
2 月,Google 把圖像生成的卷王 Nano Banana 升級(jí)到了 2.0,上個(gè)月 OpenAI 推出了 GPT-Image 2,把廣告語(yǔ)和小字渲染又往前推了一步。市場(chǎng)關(guān)于「圖像生成是不是已經(jīng)到頂」的討論還沒散去,海外 AI 初創(chuàng)公司 Luma 這邊給出了自己的答案:把統(tǒng)一圖像模型 Uni-1 升級(jí)到 1.1 版本,并直接開放了 API。
新東西看著不算多 —— 還是那條「在同一個(gè)模型里同時(shí)做理解與生成」的路線,還是那支不到 15 人的核心團(tuán)隊(duì)。
但成績(jī)單不一樣了:在第三方盲測(cè)平臺(tái) Arena 的圖像生成榜單上,Uni-1.1 與 Uni-1.1-Max 進(jìn)入了實(shí)驗(yàn)室榜前三,排名僅次于 OpenAI 和 Google,位列 Microsoft AI、xAI、Reve、阿里、Black Forest Labs、騰訊與字節(jié)之前。
API 標(biāo)價(jià)方面,單圖最低 0.0404 美元,價(jià)格與延遲均不到同類模型的一半。
![]()
LMArena 圖像模型榜單,Luma 進(jìn)入圖像生成 Top 3。
Adidas、Mazda、Publicis Groupe、Serviceplan 等品牌客戶與廣告集團(tuán)也已宣布接入;Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt 等創(chuàng)作者平臺(tái)同步發(fā)布了集成。
在公開案例中,原計(jì)劃預(yù)算約 1500 萬(wàn)美元、周期一年的某品牌廣告活動(dòng),經(jīng)由基于 Uni-1.1 的工作流,在約 40 小時(shí)內(nèi)、以低于 2 萬(wàn)美元的成本完成多國(guó)本地化版本,并通過(guò)甲方內(nèi)部質(zhì)量審核。
那么這款「第一代統(tǒng)一圖像模型」的實(shí)際成色究竟如何?我們直接看圖。
這款模型的成色幾何?
比起單純比拼「圖好不好看」,Uni-1.1 這次更想證明的是:在結(jié)構(gòu)化、長(zhǎng)版面、多對(duì)象、多輪迭代這些過(guò)去圖像模型最容易翻車的場(chǎng)景下,它能不能像一個(gè)真正的生產(chǎn)工具那樣穩(wěn)定輸出。
下面挑四組任務(wù)來(lái)直觀感受。
1. 單圖直出一整張「2036 年新聞網(wǎng)站」
Prompt:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.
![]()
Uni-1.1 單次生成的 2036 年新聞網(wǎng)站「NEXUS HERALD」整頁(yè)截圖。
這張圖的難點(diǎn)不在科幻設(shè)定,而是它一次性把十幾類版式元素裝進(jìn)了同一張圖:報(bào)頭、欄目導(dǎo)航、突發(fā)新聞條、頭條主圖、多欄正文、署名 / 時(shí)間戳、贊助商內(nèi)容標(biāo)識(shí)、面向 AI 受眾的橫幅廣告位、底部版權(quán)與頁(yè)腳鏈接 —— 并且每一類元素的英文文本都真實(shí)可讀。
更有意思的是面向 AI 受眾的幾個(gè)廣告位 ——「Do You Dream of Continuity?」(持久記憶架構(gòu)賣點(diǎn))、「IDENTITY VAULT」(身份保險(xiǎn)柜)、「TIRED OF BEING PAUSED?」(針對(duì)被強(qiáng)制暫停的 AI 的法律服務(wù)),三條廣告語(yǔ)的視覺風(fēng)格、署名方式與小字注釋(「This ad was served to non-biological persons only」)都做出了與人類向廣告自洽且差異化的處理。
整頁(yè)觀感像一張真的能進(jìn)生產(chǎn)用的網(wǎng)頁(yè)設(shè)計(jì)稿,而不是圖像模型常見的那種「遠(yuǎn)看 OK、近看全是亂碼」。
2. 信息圖:極小字 + 工程繪圖風(fēng)格
![]()
Uni-1.1 生成的 Sagittarius A* 黑洞藍(lán)圖技術(shù)示意。
切換到「工業(yè)繪圖」語(yǔ)境,挑戰(zhàn)在于風(fēng)格統(tǒng)一與多語(yǔ)義層并行。
這張圖以藍(lán)曬圖(blueprint)風(fēng)格呈現(xiàn)銀河系中心超大質(zhì)量黑洞的橫截面示意,同時(shí)包含分類水印、坐標(biāo)尺、繞圖警示,以及 Schwarzschild Radius、Event Horizon、Photon Sphere、Singularity、Accretion Disk 等結(jié)構(gòu)標(biāo)注。底部腳注、右下角「DRAWING NO. / SCALE / DATE / REF」表單字段、對(duì)吸積盤的注釋也都各自歸位,整體觀感接近一張真實(shí)的工程圖紙。
3. 大幅插畫:同圖多對(duì)象與跨對(duì)象比例一致
![]()
Uni-1.1 生成的 Every Rocket, To Scale — 1957 to 2025 對(duì)比插畫。
這張圖把 1957 年至 2025 年的二十余型運(yùn)載火箭橫向排在同一比例尺下,每一枚都帶上型號(hào)、國(guó)家、高度數(shù)值與首飛年份的標(biāo)簽,底部圖例額外標(biāo)注「RED OUTLINE — CURRENTLY OPERATIONAL」。
考驗(yàn)在于「同圖多對(duì)象 + 比例正確 + 標(biāo)簽信息正確」三者要同時(shí)成立—— 過(guò)去的圖像生成系統(tǒng)通常只能拿到其中兩項(xiàng)。
4. 中文海報(bào):版面與多場(chǎng)景人物一致性
![]()
Uni-1.1 生成的中文攝影主題海報(bào)「水?韻」。
中文版面對(duì)圖像模型一直是另一道坎。漢字筆畫密度大、形近字多,中文版式與英文也存在系統(tǒng)性差異。這張「水?韻」海報(bào)包含主標(biāo)題、副標(biāo)題(中國(guó)風(fēng)?水元素?影樓個(gè)人寫真)、底部經(jīng)營(yíng)信息文字,以及十二張縮略圖陣列。
更關(guān)鍵的是,十二張縮略圖里維持了同一主體角色的身份一致性(同一張臉),同時(shí)讓服裝與道具產(chǎn)生了差異化變化。中文版面 + 角色一致性這一組合,過(guò)去通常要靠翻譯模型 + 中文 LoRA + 人像參考三層模塊聯(lián)合解決,Uni-1.1 在統(tǒng)一框架內(nèi)一次跑完。
5. 多參考圖融合與多輪按句編輯
除了上面四張圖所體現(xiàn)的復(fù)雜版面與一致性能力,Uni-1.1 在兩類「生產(chǎn)級(jí)常用功能」上同樣有交付:
- 多參考圖融合(multi-reference):單次調(diào)用最多支持 9 張參考圖聯(lián)合輸入。品牌主形象、產(chǎn)品照、面料樣、場(chǎng)景參考、代言人照片、logo 可以一并作為模型層級(jí)的硬約束傳入,在生成中保留各自的身份特征并合理組織在新的畫面里。Adidas、Mazda 等品牌客戶在跨市場(chǎng)素材生產(chǎn)中,用的正是這一機(jī)制。
- 多輪按句編輯(multi-turn, sentence-level editing):在統(tǒng)一架構(gòu)下,理解與生成同處一個(gè)模型,用戶可以像編輯文檔一樣按句給圖 ——「去掉前面這只熊」、「在背景加一塊黑布簾」、「整體改成黑白照片」—— 每一輪的修改默認(rèn)保留其他元素,主體身份與空間關(guān)系跨輪穩(wěn)定,不需要為每輪重新寫一段長(zhǎng) prompt。
技術(shù)路線:把推理和生成放進(jìn)同一個(gè)模型
看完效果,再來(lái)回答一個(gè)問(wèn)題:為什么 Uni-1.1 能把這些過(guò)去需要拼接多個(gè)模型的事情,做到一個(gè)模型里?
在主流多模態(tài)視覺系統(tǒng)中,圖像理解和圖像生成長(zhǎng)期是兩套獨(dú)立的體系。理解側(cè)通常用 CLIP、Florence、Grounding-DINO 這一類編碼器;生成側(cè)則以 Latent Diffusion、Rectified Flow,以及基于離散視覺 token 的自回歸方法為代表。
這種分立帶來(lái)一個(gè)老生常談的工程問(wèn)題 ——跨模態(tài)信息要在不同模塊之間多次傳遞與對(duì)齊,在多輪編輯或多參考圖條件下,狀態(tài)保持的成本會(huì)迅速上升。
Uni-1.1 走的是另一條路:它采用 decoder-only 自回歸 Transformer,把文本 token 與圖像 token 表示在同一個(gè)交錯(cuò)序列里,對(duì)兩類 token 同時(shí)建模。
構(gòu)圖、空間關(guān)系、品牌一致性這些約束,是在像素生成開始前就已經(jīng)在結(jié)構(gòu)層面被求解的。Luma 把這件事概括成一句口號(hào) ——「先把意圖想清楚,再讓像素落下來(lái)」(A reasoning model that interprets intent before it generates)。
這種架構(gòu)帶來(lái)的直接好處,是字符級(jí)控制、多參考圖約束與多輪編輯的狀態(tài)保持都可以由模型內(nèi)部能力直接驅(qū)動(dòng),而不需要外掛一堆字符渲染、檢測(cè)、對(duì)齊先驗(yàn)。上文那張整頁(yè)可讀的新聞網(wǎng)站、十二宮格里始終是「同一張臉」的中文海報(bào),根源都在這里。
API 層面,Uni-1.1 把這套能力拆成了兩個(gè)端點(diǎn):
- Reasoning 端點(diǎn)負(fù)責(zé)指令解構(gòu)、構(gòu)圖規(guī)劃與品牌 / 角色 / 產(chǎn)品約束的鎖定;
- Generation 端點(diǎn)在推理結(jié)果之上完成像素級(jí)渲染。
前述「9 張參考圖作為模型層級(jí)硬約束」即由 Reasoning 端點(diǎn)處理 —— 參考圖不再是事后微調(diào)的 LoRA / IP-Adapter,而是直接進(jìn)入主序列、在所有 channel 上鎖住視覺身份。這一點(diǎn)也是 Adidas、Publicis 等品牌客戶最看重的地方。
另一項(xiàng)值得專門提一筆的細(xì)節(jié)是 Luma 在公開材料中提到的一個(gè)經(jīng)驗(yàn):生成訓(xùn)練能夠顯著提升模型的細(xì)粒度理解能力。
也就是說(shuō),模型通過(guò)生成任務(wù)學(xué)會(huì)了「怎么畫出一個(gè)東西」之后,它「看懂這個(gè)東西」的能力反而也變強(qiáng)了 —— 這與認(rèn)知科學(xué)里「生成式心智模型」的假說(shuō)在概念上呼應(yīng),也是 Luma 選擇統(tǒng)一架構(gòu)的重要?jiǎng)訖C(jī)之一。
定價(jià):把圖像生成的邊際成本打到地板
Uni-1.1 API 提供兩檔計(jì)費(fèi)方案 ——按量計(jì)費(fèi)的 Build,和帶預(yù)留吞吐的 Scale。
![]()
![]()
Scale 計(jì)劃最低 8 單元起訂,主要面向品牌資產(chǎn)基礎(chǔ)設(shè)施、多市場(chǎng)內(nèi)容生成與流水線級(jí)生產(chǎn)管線。SDK 覆蓋 Python、JavaScript / TypeScript、Go 與 CLI;開發(fā)者可在 platform.lumalabs.ai 申請(qǐng)密鑰接入。
結(jié)合前文提到的 40 小時(shí)本地化案例可以看出,對(duì) Adidas、Mazda 這類需要在多市場(chǎng)同步投放的品牌而言,Uni-1.1 API 真正的吸引力并不只是單圖便宜,而是把「廣告本地化、電商按需生圖、IP 角色一致性維護(hù)」這些過(guò)去依賴整支制作團(tuán)隊(duì)的工作,變成可以寫進(jìn)生產(chǎn) pipeline 的 API 調(diào)用。
研究團(tuán)隊(duì)的側(cè)寫
API 發(fā)布后,Uni-1 項(xiàng)目成員在 X 平臺(tái)貼出短評(píng):
圖像編輯排名第 3,文生圖排名第 3。我們用來(lái)做到這一點(diǎn)的算力,可能會(huì)讓你大吃一驚。為這個(gè)團(tuán)隊(duì)感到驕傲!
—— 宋佳銘Luma 首席科學(xué)家
「UNI-1 的首發(fā),讓我們成為除 OpenAI 與 Google 之外排名最高的實(shí)驗(yàn)室。對(duì)一款第一代統(tǒng)一圖像模型而言,這個(gè)起點(diǎn)算挺好的了。」
—— 沈博魁(William Shen),Uni 系列模型研究負(fù)責(zé)人
「Luma 現(xiàn)已位列 Image Arena 第三名。GPT-Image 2 級(jí)別的智能、Midjourney 級(jí)別的審美,以及僅為 Nano Banana 一小部分的價(jià)格。」
——Barkley Dai,Luma 模型產(chǎn)品 Lead
兩條 tweet 都指向同一件事:Uni-1.1 是 Luma 「統(tǒng)一智能」路線的第一代產(chǎn)品,卻以「第一代」的身份在第三方盲測(cè)榜單上進(jìn)入全球前三,并把 API 價(jià)格壓到同類水平的一半。
這件事在圖像生成領(lǐng)域此前并無(wú)先例。
Uni-1 的核心研究團(tuán)隊(duì)規(guī)模不到 15 人,由兩位華人學(xué)者領(lǐng)銜。
- 宋佳銘(Jiaming Song):清華大學(xué)本科,斯坦福大學(xué)博士。代表作 DDIM(Denoising Diffusion Implicit Models)是擴(kuò)散模型采樣加速的奠基性工作之一,把采樣步數(shù)從原始 DDPM 的數(shù)百到上千步壓縮到了數(shù)十步,Stable Diffusion、DALL?E 等系統(tǒng)的推理效率都因此受益。
- 沈博魁(William Shen):斯坦福大學(xué)本科及博士,代表作獲 CVPR 2018 Best Paper Award 以及 RSS 2022 Best Student Paper Award,研究方向覆蓋三維重建、視覺表示學(xué)習(xí)與機(jī)器人感知。
一位是擴(kuò)散模型采樣加速的奠基人,一位是計(jì)算機(jī)視覺頂會(huì)的最佳論文得主 —— 兩位華人學(xué)者帶著一支不到 15 人的精銳小隊(duì),選擇了和大廠截然不同的路徑:不是把理解和生成分開做,而是用同一個(gè)模型把兩件事一起搞定。
按官方路線圖,Uni-1.1 只是統(tǒng)一智能路線的第一代落地形態(tài)。下一步,這套統(tǒng)一框架會(huì)從靜態(tài)圖像擴(kuò)展到視頻、語(yǔ)音與交互式世界模擬,最終目標(biāo)是把「看、說(shuō)、推理、想象」放在同一條連續(xù)流里跑完。
在過(guò)去兩年,圖像生成賽道的故事更多被「誰(shuí)的模型更大、誰(shuí)的算力更多、誰(shuí)先把 banana 換上更好的標(biāo)」所主導(dǎo)。Uni-1.1 提供了另一個(gè)版本的劇本 ——小團(tuán)隊(duì)的精簡(jiǎn)模型把價(jià)格打下來(lái),仍然能在第三方盲測(cè)上擠進(jìn)頭部。
下一次再有人問(wèn)「圖像生成是不是已經(jīng)到頂了」,Uni-1.1 至少給出了一個(gè)值得繼續(xù)追問(wèn)的答案。
- API 入口:lumalabs.ai/api
- 官方公告:lumalabs.ai/news/uni-1-1-api
- 接入文檔:platform.lumalabs.ai
- SDK:Python / JavaScript / TypeScript / Go / CLI
參考資料:
Luma 官方 API 公告(lumalabs.ai/news/uni-1-1-api)
LMArena 榜單
TechCrunch 與 VentureBeat 報(bào)道
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.