上交大、北航證明：讓AI"看圖解題"的空間智慧連6歲小孩都不如？

2026-05-07 21:05:09　來源: 科技行者

北京舉報

分享至

這項由上海交通大學(xué)、中國人民大學(xué)與北京通用人工智能研究院（BIGAI）聯(lián)合開展的研究，發(fā)表于2026年ICLR（國際學(xué)習(xí)表征會議）效率化空間推理研討會，論文編號為arXiv:2604.22868，感興趣的讀者可通過該編號檢索完整論文。

一、人類眼中的小問題，AI眼中的大難題

走迷宮這件事，對大多數(shù)人來說簡直不值一提。一個六七歲的孩子，拿到一張印有迷宮的紙，往往只需要掃幾眼，手里的鉛筆就能順著路徑一氣呵成畫到終點。這種"看了就會"的能力，我們稱之為視覺空間推理——不需要把路線寫成文字，不需要列方程，只需要眼睛看、大腦判斷、手直接畫。

然而，對于當(dāng)今最先進(jìn)的人工智能來說，這件事卻難倒了它們。當(dāng)研究團(tuán)隊把一張迷宮圖片丟給市面上最強(qiáng)的AI圖像編輯模型，要求它"在圖上畫出從起點到終點的路徑，保持迷宮結(jié)構(gòu)不變"時，結(jié)果往往讓人啼笑皆非——AI要么把墻壁直接穿過去，要么畫出一條完全不連通的斷頭路，要么干脆什么都沒畫。

這背后藏著一個被長期忽視的深層問題：現(xiàn)有的AI視覺智能，究竟真的"看懂"了圖像，還是只是在模仿人類的表面行為？為了給這個問題找到一個嚴(yán)謹(jǐn)?shù)拇鸢?，這支來自中國幾所頂尖機(jī)構(gòu)的研究團(tuán)隊做了一件很有意思的事情：他們設(shè)計了一套測試系統(tǒng)，把"視覺空間推理能力"像考試一樣量化出來，然后邀請各路AI選手和不同年齡段的人類一起參賽，看看究竟誰更勝一籌。

二、用"畫圖"代替"說話"——一個全新的測試框架

以往，當(dāng)研究者想讓AI解決迷宮問題時，最常見的做法是讓AI把問題"翻譯"成文字，再用語言模型去推理。比如"從坐標(biāo)(1,1)出發(fā)，向右走兩格，再向下走三格……"——這本質(zhì)上是把一個視覺問題轉(zhuǎn)化成了一道文字題。這種方法就好比你想測試一個人的游泳能力，卻讓他寫一篇作文來描述游泳動作。寫作文和游泳，完全是兩碼事。

這支研究團(tuán)隊提出了一個全新的思路，他們稱之為EAR，即"編輯即推理"（Editing as Reasoning）。核心思想非常直接：既然問題本身是視覺的，那答案也應(yīng)該是視覺的。具體操作上，他們把一張帶問題的圖片喂給AI，讓AI直接在圖片上"畫出答案"，就像人類拿著鉛筆在紙上解題一樣。AI輸出的不是一段文字，而是一張修改過的圖片——圖片上的答案路徑就是AI對這道題的"理解"。

這個框架有一個特別聰明的地方：整個解題過程被壓縮成了"一步"。AI不像某些系統(tǒng)那樣需要一步一步生成中間圖像、逐漸逼近答案，它必須在一次"編輯"操作中直接給出完整的解。這就像老師出了一道題，不允許打草稿，要求學(xué)生直接在答題紙上寫出最終答案。這種約束使得測試結(jié)果能更真實地反映AI是否真正"理解"了問題，而不是靠逐步試探蒙出來的。

三、測試題設(shè)計有講究——迷宮和皇后，互補(bǔ)的兩種考驗

為了讓測試公平、可量化，團(tuán)隊專門設(shè)計了一套叫做AMAZE的標(biāo)準(zhǔn)化題庫。題目來自兩種經(jīng)典的智力謎題，分別對應(yīng)兩種截然不同的空間推理能力。

第一種是迷宮問題。題目給出一張迷宮圖，上面有一個紅色實心圓點標(biāo)示起點，一個紅色"×"標(biāo)示終點，AI的任務(wù)是在圖上畫出一條藍(lán)色路徑把兩者連通，且路徑必須沿著通道走，不能穿越墻壁。迷宮的解題過程是**順序性**的——你必須從起點出發(fā)，一步一步往前探索，每走一步都受到當(dāng)前位置周邊墻壁的限制，走錯了還得回頭。這考察的是在"局部約束"下進(jìn)行"連續(xù)規(guī)劃"的能力。

為了增加測試的多樣性，迷宮還被設(shè)計成四種不同的幾何形式：方格迷宮（最常見的那種）、六邊形迷宮（像蜂巢一樣，每個格子有六個方向可以走）、三角形迷宮（每個格子有多種斜向路徑）以及圓形迷宮（同心圓加放射線形成的螺旋結(jié)構(gòu)）。不同幾何形式意味著不同的行走規(guī)則和視覺外觀，難度也各有差異。迷宮的規(guī)模從3×3到16×16不等，越大越難。

第二種是皇后問題。這是一道源自國際象棋的組合謎題：在一個被不同顏色區(qū)域劃分的棋盤上，每個顏色區(qū)域放一枚棋子（用實心黑色圓點表示"皇后"），要求每行、每列、每個顏色區(qū)域都恰好有一枚棋子，且任意兩枚棋子不能在8個方向的鄰格上相互攻擊。皇后問題是**并行性**的——所有棋子的擺放必須同時滿足全局約束，你調(diào)整一個棋子的位置，可能同時影響其他所有棋子。棋盤規(guī)模從4×4到10×10不等。

兩種題目形成了很好的互補(bǔ)：迷宮考驗"局部約束下的路徑規(guī)劃"，皇后考驗"全局約束下的組合推理"。前者的推理過程是"邊走邊想"，后者必須"全盤統(tǒng)籌"。研究團(tuán)隊一共生成了2800道迷宮題（每種幾何類型各700道）和350道皇后題，全部由程序自動生成，每道題都有唯一正確答案。

四、打分標(biāo)準(zhǔn)：不只看"好不好看"，更看"對不對"

評判AI畫出來的答案，是這套測試系統(tǒng)的另一個核心設(shè)計。在大多數(shù)圖像生成任務(wù)中，人們習(xí)慣用圖像質(zhì)量來評分——生成的圖片清不清晰、色彩對不對、風(fēng)格像不像。但這在邏輯推理任務(wù)中完全不夠用：一條畫得很漂亮的路徑，如果穿墻了，那就是錯的，不管它多好看。

團(tuán)隊為此設(shè)計了兩套相互獨立的評價指標(biāo)。第一套叫**邏輯有效性**，直接衡量答案對不對：覆蓋率（Coverage）衡量AI畫出的路徑覆蓋了多少"正確路徑"，違規(guī)率（Violation）衡量AI畫出的內(nèi)容有多少落在"錯誤區(qū)域"。最終的綜合得分叫做PASS，計算方式是用覆蓋率減去違規(guī)率，取零到一之間的值。PASS等于1意味著AI畫的路徑和標(biāo)準(zhǔn)答案完全吻合。第二套叫**像素級保真度**，用均方誤差（MSE）來衡量AI修改了哪些不該修改的地方，比如把迷宮的墻壁顏色改了，或者在不該有顏色的地方添加了內(nèi)容。

為了驗證這套自動評分系統(tǒng)的可靠性，研究團(tuán)隊還請了三名人類評判員，對隨機(jī)抽取的題目進(jìn)行人工打分，再對比機(jī)器評分和人工評分的一致程度。結(jié)果顯示兩者的吻合率高達(dá)98%。剩余2%的差異主要來自兩種特殊情況：一是題目本身太復(fù)雜，人眼也容易看花；二是AI畫的路徑顏色太淺，人眼看不清，但機(jī)器能檢測到。這說明這套自動評分系統(tǒng)相當(dāng)可靠。

五、主角登場：參加測試的AI選手們

研究團(tuán)隊邀請了市面上多款主流的圖像編輯AI參加測試，分為商業(yè)閉源模型和開源模型兩大陣營。

商業(yè)閉源模型包括三位：OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro，以及國內(nèi)的Seedream-4.5。這三款模型都是所在公司拿出來的最強(qiáng)圖像生成產(chǎn)品，正常情況下圖片生成質(zhì)量非常高。

開源模型則有四款：Qwen-Image-Edit（阿里的千問圖像編輯版本）、Flux-Kontext-Dev（來自Black Forest Labs的擴(kuò)散模型）、Bagel（來自BIGAI自身的多模態(tài)統(tǒng)一模型）、Janus-Pro-7B（來自深勢科技的自回歸模型）。前三款是擴(kuò)散模型，最后一款是自回歸模型。

擴(kuò)散模型和自回歸模型，是當(dāng)前AI圖像生成的兩大主流技術(shù)路線。可以用一個類比來理解它們的區(qū)別：自回歸模型就像一個人寫書法，一筆一劃按順序?qū)?，每一筆都基于之前寫的內(nèi)容來決定；擴(kuò)散模型則更像一個畫家在一張白紙上反復(fù)涂抹修改，先是大致輪廓，再逐漸填充細(xì)節(jié)，整體和局部同時演化。這兩種方式對于空間推理來說，有著本質(zhì)上的差異，研究團(tuán)隊對此非常感興趣。

六、零分慘案——未經(jīng)訓(xùn)練的AI表現(xiàn)有多差？

在未經(jīng)專門訓(xùn)練的零樣本測試中，幾乎所有模型都表現(xiàn)很差。PASS@1這個指標(biāo)代表AI第一次嘗試就答對的概率，類似于人類一次性通過考試。

在迷宮測試中，三款商業(yè)閉源模型中最好的是GPT-Image-1，但其PASS@1只有5.4%，意味著大約每20次嘗試才能成功一次。NanoBanana-Pro的圖像質(zhì)量最好，但它有一個明顯的壞習(xí)慣：喜歡把整張迷宮的所有通道都畫滿路徑，不管那些通道走不走得通，它的違規(guī)率高達(dá)47.76%，可以理解為它"把所有可能的路都畫上了，但不知道哪條才是真正的解"。Seedream-4.5走了另一個極端，它違規(guī)率低，但覆蓋率也低，因為它根本不怎么畫，只畫了一小段就停了。

開源模型的情況更糟。Bagel的PASS@1是0，Janus-Pro的PASS@1也是0。這兩款模型在零樣本條件下完全無法完成任務(wù)。不過，由于它們是開源的，研究團(tuán)隊可以對其進(jìn)行針對性的訓(xùn)練。

皇后問題上，有一個例外讓研究團(tuán)隊頗為意外：NanoBanana-Pro的PASS@1達(dá)到了30.35%，遠(yuǎn)超其他所有模型。這個成績實在太亮眼，研究者懷疑這款模型在訓(xùn)練階段可能已經(jīng)見過類似的皇后謎題，否則很難解釋這種突出表現(xiàn)。其余模型在皇后問題上的PASS@1基本接近零。

七、專門訓(xùn)練后的逆襲——擴(kuò)散模型為什么更擅長"畫出邏輯"？

研究團(tuán)隊對開源模型進(jìn)行了有針對性的微調(diào)訓(xùn)練。訓(xùn)練數(shù)據(jù)選用的是最簡單規(guī)模的題目：3×3大小的迷宮（四種幾何類型各800道，共3200道）和4×4大小的皇后題（800道）。訓(xùn)練過程最多進(jìn)行8輪，當(dāng)驗證集上的誤差不再下降時提前停止。

訓(xùn)練結(jié)果非常明顯。擴(kuò)散模型Bagel在迷宮任務(wù)上的PASS@1從0跳升到了11.54%，并且PASS@5（五次嘗試至少一次正確）達(dá)到了23.64%，比之前最強(qiáng)的商業(yè)模型GPT-Image-1高出了整整6個百分點。在皇后任務(wù)上，Bagel的PASS@1也達(dá)到了14.57%。

相比之下，自回歸模型Janus-Pro訓(xùn)練后的進(jìn)步要小得多：迷宮任務(wù)的PASS@1只有1.43%，皇后任務(wù)為12.57%。兩者之間的差距揭示了一個有趣的規(guī)律：擴(kuò)散模型似乎天然更擅長發(fā)展出"視覺推理邏輯"。

研究團(tuán)隊給出了一個合理的解釋。擴(kuò)散模型的工作方式是從模糊到清晰地逐步細(xì)化整張圖片，在這個過程中，它必須同時考慮全局結(jié)構(gòu)和局部細(xì)節(jié)，這種"先全局后細(xì)節(jié)"的天性與視覺規(guī)劃任務(wù)非常契合。而自回歸模型是按照固定順序（通常是從左到右、從上到下）逐個生成像素或圖塊，這種線性的、局部的生成方式缺乏對全局結(jié)構(gòu)的整體把握。就好比，一個人畫迷宮路徑時是先在腦海中規(guī)劃整條路線再一筆畫完，而不是從起點開始一格一格往前試探。

從Bagel的生成過程來看，這種"全局先行"的特性在可視化中非常明顯。在去噪的早期步驟（相當(dāng)于圖像還很模糊的時候），整條路徑的大致走向已經(jīng)出現(xiàn)了，只是顏色很淺、線條不清晰；隨著去噪步驟推進(jìn)，錯誤的支路被逐漸糾正，最終收斂到一條有效路徑?；屎髥栴}的解題過程也類似：早期步驟中已經(jīng)出現(xiàn)了棋子擺放的大致格局，后續(xù)再進(jìn)行精細(xì)調(diào)整。

八、"思維鏈"提示——有時有用，有時白費

在人類解題時，我們經(jīng)常先在草稿紙上寫寫畫畫，理清思路再下筆。受此啟發(fā)，研究團(tuán)隊還測試了一種叫做"思維鏈"（Chain-of-Thought，CoT）的提示方式：在讓AI作答之前，先要求它在文字中描述自己的推理過程，然后再據(jù)此生成圖像答案。

結(jié)果顯示，這種方法對沒經(jīng)過專門訓(xùn)練的模型幾乎沒有幫助。對于Bagel和Janus-Pro這兩款開源模型，在零樣本測試中加入思維鏈提示，PASS@1依然是0。這說明，如果模型本身還沒有掌握這類任務(wù)的內(nèi)在邏輯，光靠"先說說自己怎么想的"并不能讓它突然開竅。

經(jīng)過訓(xùn)練之后，思維鏈提示帶來了一點微小的改善。Bagel加上CoT后，迷宮任務(wù)的PASS@1從11.54%微升至17.90%（PASS@5則從23.64%微降至18.42%，變化復(fù)雜）。這說明模型必須先從訓(xùn)練中內(nèi)化任務(wù)的基本規(guī)律，然后才能有效利用顯式的推理步驟。就像一個沒學(xué)過游泳的人，光給他講再多游泳理論，他依然不會游，必須先下水練過才行。

九、泛化能力測試——在小題上練出來的本領(lǐng)，能用在大題上嗎？

僅僅在3×3迷宮上表現(xiàn)好，算不上真正的空間推理能力。研究團(tuán)隊對泛化能力進(jìn)行了更嚴(yán)格的考察，主要從兩個維度展開。

第一個維度是跨幾何類型的泛化。在一種形狀的迷宮上訓(xùn)練的模型，能不能解另一種形狀的迷宮？結(jié)果顯示，在六邊形迷宮上訓(xùn)練的模型泛化效果最好：它在三角形迷宮上的PASS@5達(dá)到40.14%，在方形迷宮上達(dá)到30%，甚至超過了在這些類型上單獨訓(xùn)練的模型。研究團(tuán)隊的解釋是：六邊形迷宮里有六個方向可以行走，行動空間最大，因此學(xué)到的"尋路邏輯"涵蓋了方形（四方向）和三角形（三方向）的子集，遷移能力自然最強(qiáng)。

更進(jìn)一步，在8×8大小的六邊形迷宮上訓(xùn)練之后，模型的跨幾何泛化能力得到了大幅提升，所有幾何類型的PASS@5成績都遠(yuǎn)高于在3×3上訓(xùn)練的結(jié)果。這說明，接觸更復(fù)雜的問題能逼迫模型真正學(xué)會"規(guī)劃"的本質(zhì)，而不僅僅是記住簡單圖案。

第二個維度是跨規(guī)模的泛化。在小規(guī)模題目上訓(xùn)練，能解大規(guī)模題目嗎？答案出乎意料地樂觀：僅僅在3×3迷宮上訓(xùn)練的模型，已經(jīng)能對16×16的大迷宮產(chǎn)生一定的效果。當(dāng)訓(xùn)練規(guī)模擴(kuò)大到8×8時，泛化到更大規(guī)模的能力進(jìn)一步提升，模型能保持較低的違規(guī)率（說明它記住了不能穿墻）。不過，當(dāng)迷宮規(guī)模很大時，模型經(jīng)常出現(xiàn)"首尾難以為繼"的問題——能從起點出發(fā)畫出一段正確路徑，也能在終點附近畫出一段正確路徑，但中間這兩段就是連不起來。路徑越長，這種"長程依賴"問題就越嚴(yán)重。

皇后問題在規(guī)模泛化上比迷宮更挑剔。在4×4棋盤上訓(xùn)練的模型，對4×4的題目表現(xiàn)完美，但對5×5、6×6的題目完全沒有泛化能力——它只是把4×4的解法完整記住了，換個規(guī)模就不會了。只有在7×7棋盤上訓(xùn)練之后，才能對其他規(guī)模產(chǎn)生有意義的泛化效果。這說明，組合推理問題需要更復(fù)雜的訓(xùn)練經(jīng)歷才能建立起"規(guī)模無關(guān)"的推理能力。

十、多練多學(xué)有沒有用？數(shù)據(jù)和算力的擴(kuò)展效應(yīng)

數(shù)據(jù)更多、訓(xùn)練更久，AI的空間推理能力會不會持續(xù)提升？研究團(tuán)隊對此進(jìn)行了系統(tǒng)性測量。

在固定訓(xùn)練步數(shù)（1000步）的情況下，把訓(xùn)練數(shù)據(jù)量從800道題依次翻倍到6400道題。整體趨勢是：從800增加到1600時，各任務(wù)的成績有明顯提升；但超過1600道之后，增加更多數(shù)據(jù)帶來的收益越來越小，最終接近飽和?；屎髥栴}比迷宮問題從數(shù)據(jù)量增加中受益更多，因為皇后的答案模式更多樣，更多樣本確實帶來了更豐富的經(jīng)驗。不過，即便數(shù)據(jù)達(dá)到6400道，模型的成績提升也已經(jīng)趨于平緩。

在固定訓(xùn)練數(shù)據(jù)量（6400道）的情況下，把訓(xùn)練步數(shù)從500逐漸增加到1000。訓(xùn)練步數(shù)增加帶來了持續(xù)的成績提升，而且在700步之后提升更加明顯：以六邊形迷宮為例，從500到700步只提升了6.1%，而從700到1000步提升了15.8%。這種"越到后期越快"的增長趨勢讓研究團(tuán)隊樂觀地推測，繼續(xù)延長訓(xùn)練可能還會有進(jìn)一步的收益。

更有意思的是，數(shù)據(jù)和算力之間存在相互依賴的關(guān)系：僅僅增加數(shù)據(jù)而不增加訓(xùn)練步數(shù)，效果有限；僅僅增加訓(xùn)練步數(shù)而不增加數(shù)據(jù)，也會遇到瓶頸。只有數(shù)據(jù)和算力同步放大，才能獲得最好的效果。

十一、和真人比一比——AI的空間推理相當(dāng)于幾歲的孩子？

這個問題大概是整篇研究中最引人好奇的部分。研究團(tuán)隊邀請了三個年齡段各4名真實志愿者——6歲兒童、12歲少年和18歲成人——分別完成8×8、16×16、24×24三種規(guī)模的迷宮，以及4×4、7×7、10×10三種規(guī)模的皇后題。參與者可以用任意時間在腦子里想好了再動筆，但落筆之后不準(zhǔn)擦除或修改，只能一筆畫完（這與AI一次生成的規(guī)則對應(yīng)）。研究團(tuán)隊為AI分配了與人類參與者相同的時間預(yù)算，AI在規(guī)定時間內(nèi)可以盡量多地嘗試生成，最終按成功次數(shù)統(tǒng)計成績。

結(jié)論令人深思。隨著允許時間增加，人類的成功率持續(xù)上升，尤其是成年人在有足夠時間思考的情況下，成績大幅提高。18歲組在225秒內(nèi)就能對7×7皇后題達(dá)到100%成功率。而AI的成績則幾乎不隨時間變化——不管給它7.5秒還是225秒，它每次嘗試成功的概率是固定的，多給時間只是讓它多試了幾次，并不能提高單次嘗試的質(zhì)量。

更細(xì)致的分析顯示，AI在迷宮任務(wù)上的表現(xiàn)與18歲成人最相關(guān)，但在皇后任務(wù)上與6歲兒童最相關(guān)。這個對比反映了兩類任務(wù)的根本差異：迷宮的局部路徑規(guī)劃相對直覺性強(qiáng)，AI經(jīng)過訓(xùn)練后在這方面已經(jīng)接近成人水平的相關(guān)模式；但皇后問題需要同時滿足全局約束，這種"同時考慮所有規(guī)則"的能力對AI來說依然非常困難，比它擅長的迷宮差了整整十幾年的認(rèn)知發(fā)育差距。

十二、AI犯錯的兩種方式

研究團(tuán)隊對AI的失敗案例進(jìn)行了歸類，發(fā)現(xiàn)錯誤主要分為兩大類型。

第一類叫"規(guī)則違反"：AI畫的路徑穿越了迷宮的墻壁，或者直接從起點連到終點沒有走任何通道；皇后題中則表現(xiàn)為棋子擺放違反了行、列或顏色區(qū)域的唯一性要求。這種錯誤說明AI在"遵守規(guī)則"上存在缺陷，對圖像結(jié)構(gòu)的理解還不夠精確，尤其在復(fù)雜幾何形狀（如圓形、六邊形迷宮）中更為突出，因為這些形狀的視覺規(guī)則與AI訓(xùn)練時見過的常見形狀差別較大。

第二類叫"不完整解答"：AI畫出了路徑的一部分就停了，或者只放了一部分棋子。迷宮問題中最典型的表現(xiàn)是：從起點出發(fā)畫了一段合法路徑，但走到中途就停下了，沒能到達(dá)終點。這在大規(guī)模迷宮中特別常見，因為路徑越長，AI需要"記住"的中間狀態(tài)就越多，超出了它的處理能力上限?；屎髥栴}中則是只放了部分棋子就放棄了全局配置。

這兩類錯誤本質(zhì)上對應(yīng)了同一個深層問題：AI目前還沒有可靠的能力同時維持"局部正確性"和"全局完整性"。局部看起來沒問題，但把所有部分拼在一起就不行了。

歸根結(jié)底，這項研究揭示了一個有點扎心的現(xiàn)實：我們現(xiàn)在最強(qiáng)大的AI圖像系統(tǒng)，在"看圖解題"這件事上，連一個6歲孩子的直覺都比不上。當(dāng)然，經(jīng)過專門訓(xùn)練之后，AI在某些任務(wù)上確實取得了令人鼓舞的進(jìn)步，甚至在簡單迷宮上超越了最強(qiáng)的商業(yè)閉源模型。但面對稍微復(fù)雜一點的皇后問題，或者更大規(guī)模的迷宮，AI依然在掙扎。

這并不是說AI一無是處，而是說明了一件重要的事：現(xiàn)有的AI圖像編輯模型，學(xué)習(xí)的是如何"模仿"視覺效果，而不是如何"理解"空間邏輯。人類大腦中有某種專門處理空間關(guān)系的神經(jīng)機(jī)制，這讓我們在看圖時能自然而然地感知連通性、邊界、方向感——這種直覺是幾十年進(jìn)化和成長積累下來的，不是靠刷更多圖片數(shù)據(jù)就能輕松復(fù)制的。

當(dāng)然，研究也帶來了一些真正值得期待的發(fā)現(xiàn)。擴(kuò)散模型在訓(xùn)練后展現(xiàn)出的"全局先行"解題模式——先模糊地規(guī)劃整體路徑，再逐步細(xì)化——與人類的直覺解題方式有幾分相似。這暗示著也許未來通過更好的訓(xùn)練方式和模型架構(gòu)，AI真的有可能培育出更接近人類的空間推理能力。至于那個EAR框架本身，"讓AI直接在圖上畫出答案"這個思路，也為未來的視覺推理研究提供了一條新路線。

對這項研究感興趣的讀者，可以通過arXiv編號2604.22868檢索完整論文，或訪問項目主頁spatigen.github.io/amaze.io/ 了解更多細(xì)節(jié)和演示案例，代碼也已在github.com/spatigen/amaze開源。

Q&A

Q1：EAR框架和普通的AI圖像生成有什么區(qū)別？

A：普通AI圖像生成是從文字描述直接生成一張新圖片，而EAR（編輯即推理）框架是給AI一張已有的問題圖片（比如迷宮），讓AI直接在上面"改圖"畫出答案，整個解題過程只有一步完成。這種方式更接近人類拿鉛筆在紙上解題的方式，能更直接地測試AI是否真正理解了視覺空間關(guān)系，而不是靠文字轉(zhuǎn)換來"繞彎子"解決視覺問題。

Q2：AMAZE基準(zhǔn)測試具體包含哪些內(nèi)容？

A：AMAZE基準(zhǔn)測試包含兩類謎題：迷宮問題（需要畫出從起點到終點的路徑）和皇后問題（需要在棋盤上滿足行列顏色區(qū)域唯一性地擺放棋子）。迷宮有方形、六邊形、三角形、圓形四種幾何類型，規(guī)模從3×3到16×16；皇后題規(guī)模從4×4到10×10?？傆嬘忻詫m題2800道、皇后題350道，全部自動生成并帶有唯一正確答案，評分也完全自動化，準(zhǔn)確率高達(dá)98%。

Q3：為什么擴(kuò)散模型比自回歸模型更擅長視覺規(guī)劃任務(wù)？

A：擴(kuò)散模型的工作方式是從模糊到清晰地整體細(xì)化圖像，這使它天然具有"先考慮全局再填充細(xì)節(jié)"的傾向，與需要統(tǒng)籌全局的空間規(guī)劃任務(wù)非常匹配。相比之下，自回歸模型按照固定順序（比如從左到右）逐步生成圖像內(nèi)容，缺乏對整體結(jié)構(gòu)的同步把握。實驗結(jié)果也印證了這一點：經(jīng)過相同訓(xùn)練后，擴(kuò)散模型Bagel的迷宮成功率比自回歸模型Janus-Pro高出整整8個百分點以上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.