<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      上交大、北航證明:讓AI"看圖解題"的空間智慧連6歲小孩都不如?

      0
      分享至


      這項由上海交通大學(xué)、中國人民大學(xué)與北京通用人工智能研究院(BIGAI)聯(lián)合開展的研究,發(fā)表于2026年ICLR(國際學(xué)習(xí)表征會議)效率化空間推理研討會,論文編號為arXiv:2604.22868,感興趣的讀者可通過該編號檢索完整論文。

      一、人類眼中的小問題,AI眼中的大難題

      走迷宮這件事,對大多數(shù)人來說簡直不值一提。一個六七歲的孩子,拿到一張印有迷宮的紙,往往只需要掃幾眼,手里的鉛筆就能順著路徑一氣呵成畫到終點。這種"看了就會"的能力,我們稱之為視覺空間推理——不需要把路線寫成文字,不需要列方程,只需要眼睛看、大腦判斷、手直接畫。

      然而,對于當(dāng)今最先進(jìn)的人工智能來說,這件事卻難倒了它們。當(dāng)研究團(tuán)隊把一張迷宮圖片丟給市面上最強(qiáng)的AI圖像編輯模型,要求它"在圖上畫出從起點到終點的路徑,保持迷宮結(jié)構(gòu)不變"時,結(jié)果往往讓人啼笑皆非——AI要么把墻壁直接穿過去,要么畫出一條完全不連通的斷頭路,要么干脆什么都沒畫。

      這背后藏著一個被長期忽視的深層問題:現(xiàn)有的AI視覺智能,究竟真的"看懂"了圖像,還是只是在模仿人類的表面行為?為了給這個問題找到一個嚴(yán)謹(jǐn)?shù)拇鸢?,這支來自中國幾所頂尖機(jī)構(gòu)的研究團(tuán)隊做了一件很有意思的事情:他們設(shè)計了一套測試系統(tǒng),把"視覺空間推理能力"像考試一樣量化出來,然后邀請各路AI選手和不同年齡段的人類一起參賽,看看究竟誰更勝一籌。

      二、用"畫圖"代替"說話"——一個全新的測試框架

      以往,當(dāng)研究者想讓AI解決迷宮問題時,最常見的做法是讓AI把問題"翻譯"成文字,再用語言模型去推理。比如"從坐標(biāo)(1,1)出發(fā),向右走兩格,再向下走三格……"——這本質(zhì)上是把一個視覺問題轉(zhuǎn)化成了一道文字題。這種方法就好比你想測試一個人的游泳能力,卻讓他寫一篇作文來描述游泳動作。寫作文和游泳,完全是兩碼事。

      這支研究團(tuán)隊提出了一個全新的思路,他們稱之為EAR,即"編輯即推理"(Editing as Reasoning)。核心思想非常直接:既然問題本身是視覺的,那答案也應(yīng)該是視覺的。具體操作上,他們把一張帶問題的圖片喂給AI,讓AI直接在圖片上"畫出答案",就像人類拿著鉛筆在紙上解題一樣。AI輸出的不是一段文字,而是一張修改過的圖片——圖片上的答案路徑就是AI對這道題的"理解"。

      這個框架有一個特別聰明的地方:整個解題過程被壓縮成了"一步"。AI不像某些系統(tǒng)那樣需要一步一步生成中間圖像、逐漸逼近答案,它必須在一次"編輯"操作中直接給出完整的解。這就像老師出了一道題,不允許打草稿,要求學(xué)生直接在答題紙上寫出最終答案。這種約束使得測試結(jié)果能更真實地反映AI是否真正"理解"了問題,而不是靠逐步試探蒙出來的。

      三、測試題設(shè)計有講究——迷宮和皇后,互補(bǔ)的兩種考驗

      為了讓測試公平、可量化,團(tuán)隊專門設(shè)計了一套叫做AMAZE的標(biāo)準(zhǔn)化題庫。題目來自兩種經(jīng)典的智力謎題,分別對應(yīng)兩種截然不同的空間推理能力。

      第一種是迷宮問題。題目給出一張迷宮圖,上面有一個紅色實心圓點標(biāo)示起點,一個紅色"×"標(biāo)示終點,AI的任務(wù)是在圖上畫出一條藍(lán)色路徑把兩者連通,且路徑必須沿著通道走,不能穿越墻壁。迷宮的解題過程是**順序性**的——你必須從起點出發(fā),一步一步往前探索,每走一步都受到當(dāng)前位置周邊墻壁的限制,走錯了還得回頭。這考察的是在"局部約束"下進(jìn)行"連續(xù)規(guī)劃"的能力。

      為了增加測試的多樣性,迷宮還被設(shè)計成四種不同的幾何形式:方格迷宮(最常見的那種)、六邊形迷宮(像蜂巢一樣,每個格子有六個方向可以走)、三角形迷宮(每個格子有多種斜向路徑)以及圓形迷宮(同心圓加放射線形成的螺旋結(jié)構(gòu))。不同幾何形式意味著不同的行走規(guī)則和視覺外觀,難度也各有差異。迷宮的規(guī)模從3×3到16×16不等,越大越難。

      第二種是皇后問題。這是一道源自國際象棋的組合謎題:在一個被不同顏色區(qū)域劃分的棋盤上,每個顏色區(qū)域放一枚棋子(用實心黑色圓點表示"皇后"),要求每行、每列、每個顏色區(qū)域都恰好有一枚棋子,且任意兩枚棋子不能在8個方向的鄰格上相互攻擊。皇后問題是**并行性**的——所有棋子的擺放必須同時滿足全局約束,你調(diào)整一個棋子的位置,可能同時影響其他所有棋子。棋盤規(guī)模從4×4到10×10不等。

      兩種題目形成了很好的互補(bǔ):迷宮考驗"局部約束下的路徑規(guī)劃",皇后考驗"全局約束下的組合推理"。前者的推理過程是"邊走邊想",后者必須"全盤統(tǒng)籌"。研究團(tuán)隊一共生成了2800道迷宮題(每種幾何類型各700道)和350道皇后題,全部由程序自動生成,每道題都有唯一正確答案。

      四、打分標(biāo)準(zhǔn):不只看"好不好看",更看"對不對"

      評判AI畫出來的答案,是這套測試系統(tǒng)的另一個核心設(shè)計。在大多數(shù)圖像生成任務(wù)中,人們習(xí)慣用圖像質(zhì)量來評分——生成的圖片清不清晰、色彩對不對、風(fēng)格像不像。但這在邏輯推理任務(wù)中完全不夠用:一條畫得很漂亮的路徑,如果穿墻了,那就是錯的,不管它多好看。

      團(tuán)隊為此設(shè)計了兩套相互獨立的評價指標(biāo)。第一套叫**邏輯有效性**,直接衡量答案對不對:覆蓋率(Coverage)衡量AI畫出的路徑覆蓋了多少"正確路徑",違規(guī)率(Violation)衡量AI畫出的內(nèi)容有多少落在"錯誤區(qū)域"。最終的綜合得分叫做PASS,計算方式是用覆蓋率減去違規(guī)率,取零到一之間的值。PASS等于1意味著AI畫的路徑和標(biāo)準(zhǔn)答案完全吻合。第二套叫**像素級保真度**,用均方誤差(MSE)來衡量AI修改了哪些不該修改的地方,比如把迷宮的墻壁顏色改了,或者在不該有顏色的地方添加了內(nèi)容。

      為了驗證這套自動評分系統(tǒng)的可靠性,研究團(tuán)隊還請了三名人類評判員,對隨機(jī)抽取的題目進(jìn)行人工打分,再對比機(jī)器評分和人工評分的一致程度。結(jié)果顯示兩者的吻合率高達(dá)98%。剩余2%的差異主要來自兩種特殊情況:一是題目本身太復(fù)雜,人眼也容易看花;二是AI畫的路徑顏色太淺,人眼看不清,但機(jī)器能檢測到。這說明這套自動評分系統(tǒng)相當(dāng)可靠。

      五、主角登場:參加測試的AI選手們

      研究團(tuán)隊邀請了市面上多款主流的圖像編輯AI參加測試,分為商業(yè)閉源模型和開源模型兩大陣營。

      商業(yè)閉源模型包括三位:OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro,以及國內(nèi)的Seedream-4.5。這三款模型都是所在公司拿出來的最強(qiáng)圖像生成產(chǎn)品,正常情況下圖片生成質(zhì)量非常高。

      開源模型則有四款:Qwen-Image-Edit(阿里的千問圖像編輯版本)、Flux-Kontext-Dev(來自Black Forest Labs的擴(kuò)散模型)、Bagel(來自BIGAI自身的多模態(tài)統(tǒng)一模型)、Janus-Pro-7B(來自深勢科技的自回歸模型)。前三款是擴(kuò)散模型,最后一款是自回歸模型。

      擴(kuò)散模型和自回歸模型,是當(dāng)前AI圖像生成的兩大主流技術(shù)路線。可以用一個類比來理解它們的區(qū)別:自回歸模型就像一個人寫書法,一筆一劃按順序?qū)?,每一筆都基于之前寫的內(nèi)容來決定;擴(kuò)散模型則更像一個畫家在一張白紙上反復(fù)涂抹修改,先是大致輪廓,再逐漸填充細(xì)節(jié),整體和局部同時演化。這兩種方式對于空間推理來說,有著本質(zhì)上的差異,研究團(tuán)隊對此非常感興趣。

      六、零分慘案——未經(jīng)訓(xùn)練的AI表現(xiàn)有多差?

      在未經(jīng)專門訓(xùn)練的零樣本測試中,幾乎所有模型都表現(xiàn)很差。PASS@1這個指標(biāo)代表AI第一次嘗試就答對的概率,類似于人類一次性通過考試。

      在迷宮測試中,三款商業(yè)閉源模型中最好的是GPT-Image-1,但其PASS@1只有5.4%,意味著大約每20次嘗試才能成功一次。NanoBanana-Pro的圖像質(zhì)量最好,但它有一個明顯的壞習(xí)慣:喜歡把整張迷宮的所有通道都畫滿路徑,不管那些通道走不走得通,它的違規(guī)率高達(dá)47.76%,可以理解為它"把所有可能的路都畫上了,但不知道哪條才是真正的解"。Seedream-4.5走了另一個極端,它違規(guī)率低,但覆蓋率也低,因為它根本不怎么畫,只畫了一小段就停了。

      開源模型的情況更糟。Bagel的PASS@1是0,Janus-Pro的PASS@1也是0。這兩款模型在零樣本條件下完全無法完成任務(wù)。不過,由于它們是開源的,研究團(tuán)隊可以對其進(jìn)行針對性的訓(xùn)練。

      皇后問題上,有一個例外讓研究團(tuán)隊頗為意外:NanoBanana-Pro的PASS@1達(dá)到了30.35%,遠(yuǎn)超其他所有模型。這個成績實在太亮眼,研究者懷疑這款模型在訓(xùn)練階段可能已經(jīng)見過類似的皇后謎題,否則很難解釋這種突出表現(xiàn)。其余模型在皇后問題上的PASS@1基本接近零。

      七、專門訓(xùn)練后的逆襲——擴(kuò)散模型為什么更擅長"畫出邏輯"?

      研究團(tuán)隊對開源模型進(jìn)行了有針對性的微調(diào)訓(xùn)練。訓(xùn)練數(shù)據(jù)選用的是最簡單規(guī)模的題目:3×3大小的迷宮(四種幾何類型各800道,共3200道)和4×4大小的皇后題(800道)。訓(xùn)練過程最多進(jìn)行8輪,當(dāng)驗證集上的誤差不再下降時提前停止。

      訓(xùn)練結(jié)果非常明顯。擴(kuò)散模型Bagel在迷宮任務(wù)上的PASS@1從0跳升到了11.54%,并且PASS@5(五次嘗試至少一次正確)達(dá)到了23.64%,比之前最強(qiáng)的商業(yè)模型GPT-Image-1高出了整整6個百分點。在皇后任務(wù)上,Bagel的PASS@1也達(dá)到了14.57%。

      相比之下,自回歸模型Janus-Pro訓(xùn)練后的進(jìn)步要小得多:迷宮任務(wù)的PASS@1只有1.43%,皇后任務(wù)為12.57%。兩者之間的差距揭示了一個有趣的規(guī)律:擴(kuò)散模型似乎天然更擅長發(fā)展出"視覺推理邏輯"。

      研究團(tuán)隊給出了一個合理的解釋。擴(kuò)散模型的工作方式是從模糊到清晰地逐步細(xì)化整張圖片,在這個過程中,它必須同時考慮全局結(jié)構(gòu)和局部細(xì)節(jié),這種"先全局后細(xì)節(jié)"的天性與視覺規(guī)劃任務(wù)非常契合。而自回歸模型是按照固定順序(通常是從左到右、從上到下)逐個生成像素或圖塊,這種線性的、局部的生成方式缺乏對全局結(jié)構(gòu)的整體把握。就好比,一個人畫迷宮路徑時是先在腦海中規(guī)劃整條路線再一筆畫完,而不是從起點開始一格一格往前試探。

      從Bagel的生成過程來看,這種"全局先行"的特性在可視化中非常明顯。在去噪的早期步驟(相當(dāng)于圖像還很模糊的時候),整條路徑的大致走向已經(jīng)出現(xiàn)了,只是顏色很淺、線條不清晰;隨著去噪步驟推進(jìn),錯誤的支路被逐漸糾正,最終收斂到一條有效路徑?;屎髥栴}的解題過程也類似:早期步驟中已經(jīng)出現(xiàn)了棋子擺放的大致格局,后續(xù)再進(jìn)行精細(xì)調(diào)整。

      八、"思維鏈"提示——有時有用,有時白費

      在人類解題時,我們經(jīng)常先在草稿紙上寫寫畫畫,理清思路再下筆。受此啟發(fā),研究團(tuán)隊還測試了一種叫做"思維鏈"(Chain-of-Thought,CoT)的提示方式:在讓AI作答之前,先要求它在文字中描述自己的推理過程,然后再據(jù)此生成圖像答案。

      結(jié)果顯示,這種方法對沒經(jīng)過專門訓(xùn)練的模型幾乎沒有幫助。對于Bagel和Janus-Pro這兩款開源模型,在零樣本測試中加入思維鏈提示,PASS@1依然是0。這說明,如果模型本身還沒有掌握這類任務(wù)的內(nèi)在邏輯,光靠"先說說自己怎么想的"并不能讓它突然開竅。

      經(jīng)過訓(xùn)練之后,思維鏈提示帶來了一點微小的改善。Bagel加上CoT后,迷宮任務(wù)的PASS@1從11.54%微升至17.90%(PASS@5則從23.64%微降至18.42%,變化復(fù)雜)。這說明模型必須先從訓(xùn)練中內(nèi)化任務(wù)的基本規(guī)律,然后才能有效利用顯式的推理步驟。就像一個沒學(xué)過游泳的人,光給他講再多游泳理論,他依然不會游,必須先下水練過才行。

      九、泛化能力測試——在小題上練出來的本領(lǐng),能用在大題上嗎?

      僅僅在3×3迷宮上表現(xiàn)好,算不上真正的空間推理能力。研究團(tuán)隊對泛化能力進(jìn)行了更嚴(yán)格的考察,主要從兩個維度展開。

      第一個維度是跨幾何類型的泛化。在一種形狀的迷宮上訓(xùn)練的模型,能不能解另一種形狀的迷宮?結(jié)果顯示,在六邊形迷宮上訓(xùn)練的模型泛化效果最好:它在三角形迷宮上的PASS@5達(dá)到40.14%,在方形迷宮上達(dá)到30%,甚至超過了在這些類型上單獨訓(xùn)練的模型。研究團(tuán)隊的解釋是:六邊形迷宮里有六個方向可以行走,行動空間最大,因此學(xué)到的"尋路邏輯"涵蓋了方形(四方向)和三角形(三方向)的子集,遷移能力自然最強(qiáng)。

      更進(jìn)一步,在8×8大小的六邊形迷宮上訓(xùn)練之后,模型的跨幾何泛化能力得到了大幅提升,所有幾何類型的PASS@5成績都遠(yuǎn)高于在3×3上訓(xùn)練的結(jié)果。這說明,接觸更復(fù)雜的問題能逼迫模型真正學(xué)會"規(guī)劃"的本質(zhì),而不僅僅是記住簡單圖案。

      第二個維度是跨規(guī)模的泛化。在小規(guī)模題目上訓(xùn)練,能解大規(guī)模題目嗎?答案出乎意料地樂觀:僅僅在3×3迷宮上訓(xùn)練的模型,已經(jīng)能對16×16的大迷宮產(chǎn)生一定的效果。當(dāng)訓(xùn)練規(guī)模擴(kuò)大到8×8時,泛化到更大規(guī)模的能力進(jìn)一步提升,模型能保持較低的違規(guī)率(說明它記住了不能穿墻)。不過,當(dāng)迷宮規(guī)模很大時,模型經(jīng)常出現(xiàn)"首尾難以為繼"的問題——能從起點出發(fā)畫出一段正確路徑,也能在終點附近畫出一段正確路徑,但中間這兩段就是連不起來。路徑越長,這種"長程依賴"問題就越嚴(yán)重。

      皇后問題在規(guī)模泛化上比迷宮更挑剔。在4×4棋盤上訓(xùn)練的模型,對4×4的題目表現(xiàn)完美,但對5×5、6×6的題目完全沒有泛化能力——它只是把4×4的解法完整記住了,換個規(guī)模就不會了。只有在7×7棋盤上訓(xùn)練之后,才能對其他規(guī)模產(chǎn)生有意義的泛化效果。這說明,組合推理問題需要更復(fù)雜的訓(xùn)練經(jīng)歷才能建立起"規(guī)模無關(guān)"的推理能力。

      十、多練多學(xué)有沒有用?數(shù)據(jù)和算力的擴(kuò)展效應(yīng)

      數(shù)據(jù)更多、訓(xùn)練更久,AI的空間推理能力會不會持續(xù)提升?研究團(tuán)隊對此進(jìn)行了系統(tǒng)性測量。

      在固定訓(xùn)練步數(shù)(1000步)的情況下,把訓(xùn)練數(shù)據(jù)量從800道題依次翻倍到6400道題。整體趨勢是:從800增加到1600時,各任務(wù)的成績有明顯提升;但超過1600道之后,增加更多數(shù)據(jù)帶來的收益越來越小,最終接近飽和?;屎髥栴}比迷宮問題從數(shù)據(jù)量增加中受益更多,因為皇后的答案模式更多樣,更多樣本確實帶來了更豐富的經(jīng)驗。不過,即便數(shù)據(jù)達(dá)到6400道,模型的成績提升也已經(jīng)趨于平緩。

      在固定訓(xùn)練數(shù)據(jù)量(6400道)的情況下,把訓(xùn)練步數(shù)從500逐漸增加到1000。訓(xùn)練步數(shù)增加帶來了持續(xù)的成績提升,而且在700步之后提升更加明顯:以六邊形迷宮為例,從500到700步只提升了6.1%,而從700到1000步提升了15.8%。這種"越到后期越快"的增長趨勢讓研究團(tuán)隊樂觀地推測,繼續(xù)延長訓(xùn)練可能還會有進(jìn)一步的收益。

      更有意思的是,數(shù)據(jù)和算力之間存在相互依賴的關(guān)系:僅僅增加數(shù)據(jù)而不增加訓(xùn)練步數(shù),效果有限;僅僅增加訓(xùn)練步數(shù)而不增加數(shù)據(jù),也會遇到瓶頸。只有數(shù)據(jù)和算力同步放大,才能獲得最好的效果。

      十一、和真人比一比——AI的空間推理相當(dāng)于幾歲的孩子?

      這個問題大概是整篇研究中最引人好奇的部分。研究團(tuán)隊邀請了三個年齡段各4名真實志愿者——6歲兒童、12歲少年和18歲成人——分別完成8×8、16×16、24×24三種規(guī)模的迷宮,以及4×4、7×7、10×10三種規(guī)模的皇后題。參與者可以用任意時間在腦子里想好了再動筆,但落筆之后不準(zhǔn)擦除或修改,只能一筆畫完(這與AI一次生成的規(guī)則對應(yīng))。研究團(tuán)隊為AI分配了與人類參與者相同的時間預(yù)算,AI在規(guī)定時間內(nèi)可以盡量多地嘗試生成,最終按成功次數(shù)統(tǒng)計成績。

      結(jié)論令人深思。隨著允許時間增加,人類的成功率持續(xù)上升,尤其是成年人在有足夠時間思考的情況下,成績大幅提高。18歲組在225秒內(nèi)就能對7×7皇后題達(dá)到100%成功率。而AI的成績則幾乎不隨時間變化——不管給它7.5秒還是225秒,它每次嘗試成功的概率是固定的,多給時間只是讓它多試了幾次,并不能提高單次嘗試的質(zhì)量。

      更細(xì)致的分析顯示,AI在迷宮任務(wù)上的表現(xiàn)與18歲成人最相關(guān),但在皇后任務(wù)上與6歲兒童最相關(guān)。這個對比反映了兩類任務(wù)的根本差異:迷宮的局部路徑規(guī)劃相對直覺性強(qiáng),AI經(jīng)過訓(xùn)練后在這方面已經(jīng)接近成人水平的相關(guān)模式;但皇后問題需要同時滿足全局約束,這種"同時考慮所有規(guī)則"的能力對AI來說依然非常困難,比它擅長的迷宮差了整整十幾年的認(rèn)知發(fā)育差距。

      十二、AI犯錯的兩種方式

      研究團(tuán)隊對AI的失敗案例進(jìn)行了歸類,發(fā)現(xiàn)錯誤主要分為兩大類型。

      第一類叫"規(guī)則違反":AI畫的路徑穿越了迷宮的墻壁,或者直接從起點連到終點沒有走任何通道;皇后題中則表現(xiàn)為棋子擺放違反了行、列或顏色區(qū)域的唯一性要求。這種錯誤說明AI在"遵守規(guī)則"上存在缺陷,對圖像結(jié)構(gòu)的理解還不夠精確,尤其在復(fù)雜幾何形狀(如圓形、六邊形迷宮)中更為突出,因為這些形狀的視覺規(guī)則與AI訓(xùn)練時見過的常見形狀差別較大。

      第二類叫"不完整解答":AI畫出了路徑的一部分就停了,或者只放了一部分棋子。迷宮問題中最典型的表現(xiàn)是:從起點出發(fā)畫了一段合法路徑,但走到中途就停下了,沒能到達(dá)終點。這在大規(guī)模迷宮中特別常見,因為路徑越長,AI需要"記住"的中間狀態(tài)就越多,超出了它的處理能力上限?;屎髥栴}中則是只放了部分棋子就放棄了全局配置。

      這兩類錯誤本質(zhì)上對應(yīng)了同一個深層問題:AI目前還沒有可靠的能力同時維持"局部正確性"和"全局完整性"。局部看起來沒問題,但把所有部分拼在一起就不行了。

      歸根結(jié)底,這項研究揭示了一個有點扎心的現(xiàn)實:我們現(xiàn)在最強(qiáng)大的AI圖像系統(tǒng),在"看圖解題"這件事上,連一個6歲孩子的直覺都比不上。當(dāng)然,經(jīng)過專門訓(xùn)練之后,AI在某些任務(wù)上確實取得了令人鼓舞的進(jìn)步,甚至在簡單迷宮上超越了最強(qiáng)的商業(yè)閉源模型。但面對稍微復(fù)雜一點的皇后問題,或者更大規(guī)模的迷宮,AI依然在掙扎。

      這并不是說AI一無是處,而是說明了一件重要的事:現(xiàn)有的AI圖像編輯模型,學(xué)習(xí)的是如何"模仿"視覺效果,而不是如何"理解"空間邏輯。人類大腦中有某種專門處理空間關(guān)系的神經(jīng)機(jī)制,這讓我們在看圖時能自然而然地感知連通性、邊界、方向感——這種直覺是幾十年進(jìn)化和成長積累下來的,不是靠刷更多圖片數(shù)據(jù)就能輕松復(fù)制的。

      當(dāng)然,研究也帶來了一些真正值得期待的發(fā)現(xiàn)。擴(kuò)散模型在訓(xùn)練后展現(xiàn)出的"全局先行"解題模式——先模糊地規(guī)劃整體路徑,再逐步細(xì)化——與人類的直覺解題方式有幾分相似。這暗示著也許未來通過更好的訓(xùn)練方式和模型架構(gòu),AI真的有可能培育出更接近人類的空間推理能力。至于那個EAR框架本身,"讓AI直接在圖上畫出答案"這個思路,也為未來的視覺推理研究提供了一條新路線。

      對這項研究感興趣的讀者,可以通過arXiv編號2604.22868檢索完整論文,或訪問項目主頁spatigen.github.io/amaze.io/ 了解更多細(xì)節(jié)和演示案例,代碼也已在github.com/spatigen/amaze開源。

      Q&A

      Q1:EAR框架和普通的AI圖像生成有什么區(qū)別?

      A:普通AI圖像生成是從文字描述直接生成一張新圖片,而EAR(編輯即推理)框架是給AI一張已有的問題圖片(比如迷宮),讓AI直接在上面"改圖"畫出答案,整個解題過程只有一步完成。這種方式更接近人類拿鉛筆在紙上解題的方式,能更直接地測試AI是否真正理解了視覺空間關(guān)系,而不是靠文字轉(zhuǎn)換來"繞彎子"解決視覺問題。

      Q2:AMAZE基準(zhǔn)測試具體包含哪些內(nèi)容?

      A:AMAZE基準(zhǔn)測試包含兩類謎題:迷宮問題(需要畫出從起點到終點的路徑)和皇后問題(需要在棋盤上滿足行列顏色區(qū)域唯一性地擺放棋子)。迷宮有方形、六邊形、三角形、圓形四種幾何類型,規(guī)模從3×3到16×16;皇后題規(guī)模從4×4到10×10??傆嬘忻詫m題2800道、皇后題350道,全部自動生成并帶有唯一正確答案,評分也完全自動化,準(zhǔn)確率高達(dá)98%。

      Q3:為什么擴(kuò)散模型比自回歸模型更擅長視覺規(guī)劃任務(wù)?

      A:擴(kuò)散模型的工作方式是從模糊到清晰地整體細(xì)化圖像,這使它天然具有"先考慮全局再填充細(xì)節(jié)"的傾向,與需要統(tǒng)籌全局的空間規(guī)劃任務(wù)非常匹配。相比之下,自回歸模型按照固定順序(比如從左到右)逐步生成圖像內(nèi)容,缺乏對整體結(jié)構(gòu)的同步把握。實驗結(jié)果也印證了這一點:經(jīng)過相同訓(xùn)練后,擴(kuò)散模型Bagel的迷宮成功率比自回歸模型Janus-Pro高出整整8個百分點以上。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      曾敲詐中國10億美元、拒飛機(jī)借道,如今又找上中國

      曾敲詐中國10億美元、拒飛機(jī)借道,如今又找上中國

      光輝與陰暗
      2026-05-12 15:52:19
      他接受紀(jì)律審查和監(jiān)察調(diào)查

      他接受紀(jì)律審查和監(jiān)察調(diào)查

      錫望
      2026-05-11 21:56:44
      特朗普威脅讓伊朗“再也笑不出來”

      特朗普威脅讓伊朗“再也笑不出來”

      參考消息
      2026-05-11 14:37:08
      又一個郭晶晶?退役后嫁頂級豪門,7年連生4娃,如今已是頂級闊太

      又一個郭晶晶?退役后嫁頂級豪門,7年連生4娃,如今已是頂級闊太

      珺瑤婉史
      2026-05-03 19:20:12
      “問界坐館,四界散仔”,華為汽車的江湖暗流

      “問界坐館,四界散仔”,華為汽車的江湖暗流

      速度計
      2026-05-11 10:26:50
      內(nèi)娛嘴親爛了也沒他倆眼神動人!道哥實錘:這才是真CP感

      內(nèi)娛嘴親爛了也沒他倆眼神動人!道哥實錘:這才是真CP感

      可樂談情感
      2026-05-11 20:53:09
      西班牙女主持人自曝:為了給兒子簽名手套和皇馬現(xiàn)役門將發(fā)生關(guān)系

      西班牙女主持人自曝:為了給兒子簽名手套和皇馬現(xiàn)役門將發(fā)生關(guān)系

      鄉(xiāng)野小珥
      2026-05-11 20:37:06
      乒聯(lián)公布第20周世界排名:張本美和第3創(chuàng)新高!林詩棟梁靖崑回升

      乒聯(lián)公布第20周世界排名:張本美和第3創(chuàng)新高!林詩棟梁靖崑回升

      全言作品
      2026-05-11 16:18:28
      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個問題

      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明這兩個問題

      心理觀察局
      2026-05-04 09:23:46
      第1現(xiàn)場|俄烏對峙下的紅場閱兵:36年來首次未見坦克

      第1現(xiàn)場|俄烏對峙下的紅場閱兵:36年來首次未見坦克

      澎湃新聞
      2026-05-09 21:40:28
      南方電網(wǎng)員工年終獎、工資待遇曝光!

      南方電網(wǎng)員工年終獎、工資待遇曝光!

      老楊說光伏
      2026-05-11 17:12:16
      頂著一路罵聲,巴黎市區(qū)第三高樓驚艷封頂,官方:以后不準(zhǔn)再建!

      頂著一路罵聲,巴黎市區(qū)第三高樓驚艷封頂,官方:以后不準(zhǔn)再建!

      GA環(huán)球建筑
      2026-05-11 22:55:32
      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準(zhǔn)備了200席

      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準(zhǔn)備了200席

      阿器談史
      2026-05-11 15:43:13
      北京備戰(zhàn)G3!許利民記錄計劃,杰曼周琦加練,曾凡博強(qiáng)化三分!

      北京備戰(zhàn)G3!許利民記錄計劃,杰曼周琦加練,曾凡博強(qiáng)化三分!

      籃球資訊達(dá)人
      2026-05-12 14:34:44
      瀏陽煙花驚天瞞報:3副市長免職,問責(zé)不止

      瀏陽煙花驚天瞞報:3副市長免職,問責(zé)不止

      天天都是好日子
      2026-05-11 16:53:00
      烏軍指揮官:前線士兵月薪不到1400美元,誰還守1500公里戰(zhàn)線

      烏軍指揮官:前線士兵月薪不到1400美元,誰還守1500公里戰(zhàn)線

      桂系007
      2026-05-12 05:26:17
      成都男子被“天降鋼管”砸傷縫8針,傷者:肇事者已找到,警方帶走調(diào)查

      成都男子被“天降鋼管”砸傷縫8針,傷者:肇事者已找到,警方帶走調(diào)查

      封面新聞
      2026-05-12 10:20:04
      估價8萬!帶有麒麟號的100元紙幣,誰有就發(fā)了!

      估價8萬!帶有麒麟號的100元紙幣,誰有就發(fā)了!

      富哥愛收藏
      2026-05-10 14:09:59
      現(xiàn)實版“高達(dá)”!宇樹發(fā)布載人變形機(jī)甲,定價390萬元起

      現(xiàn)實版“高達(dá)”!宇樹發(fā)布載人變形機(jī)甲,定價390萬元起

      界面新聞
      2026-05-12 13:56:02
      “活該全村人都瞧不起我家!”農(nóng)村女孩的自述火了,看清父母為人

      “活該全村人都瞧不起我家!”農(nóng)村女孩的自述火了,看清父母為人

      妍妍教育日記
      2026-05-11 18:22:42
      2026-05-12 16:28:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價390萬元起

      頭條要聞

      女子立遺囑遺產(chǎn)歸弟弟 其女起訴兩人返還857萬及房產(chǎn)

      頭條要聞

      女子立遺囑遺產(chǎn)歸弟弟 其女起訴兩人返還857萬及房產(chǎn)

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區(qū)變許愿池

      財經(jīng)要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      教育
      家居
      旅游
      親子
      軍事航空

      教育要聞

      正確率5%的解方程

      家居要聞

      極簡主義下的居住場域與空間

      旅游要聞

      出游的黃金窗口期來了!機(jī)票均價跌超40%,人流少、體驗好

      親子要聞

      三歲分床,五歲分房,真的有必要嗎?

      軍事要聞

      知情人士披露:美國或考慮恢復(fù)對伊朗軍事行動

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丝瓜视频成人| 不卡无码人妻一区二区三区| 国产在线观看播放av| 日韩av激情| 色伦综合网| 富川| 啦啦啦视频在线日韩精品| 2025亚洲无码视频| 亚洲无码一| 昌图县| 无码乱人伦一区二区亚洲| 日韩a在线播放| 日韩欧美的偷拍?一区二区| 欧美成人精品高清在线观看| 亚洲综合天堂网| 亚洲欧美日韩三区| 最新亚洲人成网站在线观看| 日韩成人一区二区三区在线观看| 国产精品丰满人妻G奶| 极品少妇被黑人白浆直流| 欧美性69式xxxx护士| 毛片网站在线看| 亚洲乱码av一区二区三区中文在线:| 97伦伦午夜电影理伦片| 久久久一本精品久久精品六六| 亚洲国产精品久久电影欧美| 丝袜美腿亚洲综合第一页| 3P免费视频在线观看| 成人黄色在线| 亚洲精品区二区三区蜜桃| 99在线观看视频免费| 性一交一无一伦一精一品| 国产互换人妻XXXXXX6| 亚洲日本国产一区二区精品成人 | 国产在线精品一品二区| 国产精品白嫩初高生免费视频| 日韩?欧美?国产| 成人在线亚洲| 国产亚洲欧美另类一区二区三区| 亚洲黄色性视频| 婷婷综合久久|