![]()
速途網(wǎng)消息,北京時(shí)間4月22日凌晨,OpenAI 在毫無征兆的情況下,甩出了一張王炸——ChatGPT Images 2.0。
![]()
上線不到24小時(shí),它就在大模型競(jìng)技場(chǎng)(LMArena)的文本生圖任務(wù)中,以斷層式的評(píng)分差距登頂全球第一,領(lǐng)先第二名Nano Banana 2高達(dá)241分(1512分 vs 1271分)。
![]()
在以前,AI生圖最大的痛點(diǎn)是——不可控。但I(xiàn)mages 2的邏輯不是直接“畫”,而是先“思考”,分析任務(wù)本身。當(dāng)你在ChatGPT中啟用Thinking模型時(shí),Images 2.0會(huì)做以下幾步:聯(lián)網(wǎng)檢索信息 → 規(guī)劃圖像結(jié)構(gòu) → 推理布局 → 最后下筆。
OpenAI創(chuàng)始人山姆·奧爾曼在直播中直言:“從gpt-image-1到gpt-image-2的飛躍,相當(dāng)于從GPT-3跳到GPT-5。”
![]()
目前,GPT Images 2 在所有 7 個(gè)文本轉(zhuǎn)圖像類別中均排名第一,全面超越了排名第二、帶有網(wǎng)絡(luò)搜索功能的 Nano banana 2。
即使是同樣的提示詞,在GPT Images 2和Nano Banana 2上的表現(xiàn)也完全不同,比如我們給出“多米諾骨牌活動(dòng),練習(xí)乘法”。下圖中左側(cè)為Nano Banana 2的輸出,右側(cè)為GPT Images 2的輸出。
![]()
可以看出,GPT Images 2精準(zhǔn)理解了“練習(xí)”這個(gè)詞指向的教育場(chǎng)景,需要的是教學(xué)材料。而Nano Banana 2給出的畫面是一堆小孩圍坐在桌子旁,手里拿著帶點(diǎn)數(shù)的骨牌,整體氛圍像在玩桌游。它捕捉到了“骨牌”和“活動(dòng)”這兩個(gè)表層元素。
然而,GPT Images 2的可怕之處遠(yuǎn)不止文字渲染,它對(duì)數(shù)字世界視覺規(guī)律的掌握才真正夸張。速途網(wǎng)將Images 2與Gemini Nano Banana 2 進(jìn)行了一些場(chǎng)景的對(duì)比。具體如下:
對(duì)比案例一:老相片風(fēng)格
提示詞:幫我生成一張,爺爺奶奶在看報(bào)紙的樣子,2000年前后的畫風(fēng)。
對(duì)比:左圖為Nano Banana 2生成,雖然清晰但AI創(chuàng)作、潤色的比重極高,不像是長(zhǎng)輩們?cè)谶^去會(huì)拍出來的真實(shí)照片;右圖為Images 2生成,照片整體風(fēng)更有年代感,人物狀態(tài)、環(huán)境都高度還原。
![]()
對(duì)比案例二:物理試卷生成
提示詞:生成一張中國的物理試題圖片,要有作答、批改痕跡,有對(duì)有錯(cuò),試卷也可以有一些折疊痕跡。有鉛筆寫的試卷主人的碎碎念。
對(duì)比:左圖為Nano Banana 2生成,但試卷的折疊痕跡不明顯、碎碎念筆記跳脫出圖,擺在課桌上的協(xié)調(diào)性欠佳;右圖為Images 2生成,試卷的痕跡、碎碎念的鉛筆筆跡、給大家一種秒回“學(xué)生時(shí)代”的感覺。
![]()
對(duì)比案例三:名作古詩板書
提示詞:生成一張李白的《行路難》在教室黑板上的粉筆書寫圖片。字體為普通人的工整風(fēng)格。
對(duì)比:左圖為Nano Banana 2生成,文字更偏向打印體、周邊微露的教室和課桌反而降低了真實(shí)性,與實(shí)際擺置完全相反;右圖為Images 2生成,粉筆痕跡、黑板光影等,更像是實(shí)拍的感覺。
![]()
可以看出,Images 2的效果整體上遠(yuǎn)超于Nano Banana 2,當(dāng)用戶輸入的提示詞文本有限時(shí),更貼近用戶的真實(shí)意圖,場(chǎng)景更逼近真實(shí)、更像是取自一張手機(jī)拍照/截屏。
過去幾個(gè)月,外界吐槽OpenAI擠牙膏、Sora關(guān)閉、被Gemini壓制……仿佛那個(gè)不可一世的AI霸主真的變菜了。
但今天 GPT Images 2.0 的出現(xiàn),是一次響亮的回?fù)簟K袾ano Banana最引以為傲的文字渲染能力直接碾壓,把“思考能力”首次引入圖像生成,把多圖一致性這個(gè)行業(yè)難題徹底解決。
目前,GPT Images 2.0 基礎(chǔ)功能對(duì)所有ChatGPT免費(fèi)用戶開放,這意味著每個(gè)人現(xiàn)在都可以去體驗(yàn)這款“登頂?shù)谝弧钡纳鷪D模型。
可以說,“全民藝術(shù)家”的時(shí)代正式來臨,而當(dāng)一個(gè)AI能隨手生成一張以假亂真的數(shù)學(xué)試卷、能完整復(fù)刻抖音直播間的每一個(gè)UI按鈕時(shí),我們也不得不承認(rèn):那個(gè)“有圖有真相”的年代,是真的回不去了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.