![]()
EAR 范式與 AMAZE 基準(zhǔn)將視覺(jué)規(guī)劃重構(gòu)為單步圖像編輯任務(wù),揭示當(dāng)前圖像編輯模型可通過(guò)微調(diào)獲得一定的視覺(jué)規(guī)劃能力。
在人類智能中,視覺(jué)規(guī)劃是一項(xiàng)核心能力——從走迷宮到棋盤布局,我們往往依賴空間直覺(jué)快速完成決策。然而,當(dāng)前機(jī)器學(xué)習(xí)模型大多仍依賴“語(yǔ)言推理”,將視覺(jué)問(wèn)題轉(zhuǎn)化為文本進(jìn)行處理。
這也帶來(lái)一個(gè)關(guān)鍵問(wèn)題:如果不把視覺(jué)問(wèn)題先轉(zhuǎn)換成文本,而是直接交給模型,它們是否具備原生的視覺(jué)規(guī)劃能力?
圍繞這個(gè)問(wèn)題,上海交通大學(xué)聯(lián)合北京通用人工智能研究院提出了一種全新的范式——Editing as Reasoning(EAR),以主流圖像編輯模型為研究對(duì)象,將復(fù)雜的視覺(jué)規(guī)劃任務(wù)轉(zhuǎn)化為單步的圖像編輯。在《Probing Visual Planning in Image Editing Models》工作中構(gòu)建了一個(gè)全新的評(píng)測(cè)基準(zhǔn) AMAZE,系統(tǒng)性地分析當(dāng)前圖像編輯模型的視覺(jué)推理能力。該論文已被 ICLR Efficient Spatial Reasoning Workshop 2026接收。
![]()
論文:https://arxiv.org/abs/2604.22868
項(xiàng)目主頁(yè):https://spatigen.github.io/amaze.io/
代碼:https://github.com/spatigen/amaze
Benchmark:https://huggingface.co/spaces/piekenius123/Amaze-Visualization
01
核心思想
傳統(tǒng)做法往往要求模型借助文本模態(tài)的輔助,例如先將本質(zhì)上屬于視覺(jué)規(guī)劃的問(wèn)題轉(zhuǎn)寫為文本,交給大語(yǔ)言模型處理,或依賴視覺(jué)語(yǔ)言模型進(jìn)行基于文本思維鏈的多模態(tài)推理;或者讓模型一步一步生成中間狀態(tài),再逐步逼近最終解;而 EAR 直接要求模型把輸入謎題圖像直接輸出為最終求解完成的結(jié)果圖像,把整個(gè)規(guī)劃過(guò)程壓縮為單步視覺(jué)編輯。模型不能只看懂圖,還要在視覺(jué)空間中完成路徑選擇、沖突消解與全局協(xié)調(diào)。
![]()
為了讓評(píng)測(cè)真正可落地,項(xiàng)目還設(shè)計(jì)了兩類自動(dòng)指標(biāo):
Coverage / Violation:模型生成結(jié)果中,與正確解重合/違反正確解約束的比例。
MSE-In / MSE-Out:分別度量解區(qū)域內(nèi)外的像素級(jí)誤差。
Pass:綜合 Coverage 與 Violation 后得到的邏輯有效的通過(guò)性指標(biāo)。基于單次或多次采樣統(tǒng)計(jì),研究人員統(tǒng)計(jì)模型的通過(guò)率Pass@1 / Pass@5。
02
任務(wù)設(shè)計(jì)
為了符合EAR 單步視覺(jué)規(guī)劃的范式核心,AMAZE基準(zhǔn)用兩類任務(wù)覆蓋了兩種互補(bǔ)的視覺(jué)規(guī)劃模式:Maze任務(wù)和Queen任務(wù)。
![]()
其中,
Maze 任務(wù)覆蓋 3×3到 16×16 尺度,并包含圓形、六邊形、方形、三角形四種幾何拓?fù)洹?/p>
Queen 任務(wù)覆蓋 4×4 到 10×10尺度。
Maze 測(cè)試集共 2800個(gè)樣本,Queen 測(cè)試集共 350 個(gè)樣本。
03
核心實(shí)驗(yàn)發(fā)現(xiàn):模型會(huì)“畫”,但離真正會(huì)“規(guī)劃”還有距離
![]()
1. 零樣本表現(xiàn)整體偏弱
整體來(lái)看,即便是前沿閉源圖像編輯模型,在抽象視覺(jué)規(guī)劃上的零樣本能力也依然比較有限。
在 Maze 任務(wù)上,閉源模型的最佳 Pass@1 僅為 5.40%,說(shuō)明它們幾乎不具備穩(wěn)定的零樣本求解能力。這些模型的典型問(wèn)題是難以嚴(yán)格遵守迷宮邊界,常常生成“穿墻”路徑。其中,GPT-Image-1 的指令遵循能力最弱,Violation 高達(dá) 62.88%。NanoBanana-Pro 雖然在像素級(jí)保真度上表現(xiàn)最好,但往往會(huì)過(guò)度生成,畫出貫穿整個(gè)迷宮的路徑,因此 Violation 仍然較高,達(dá)到 47.76%。Seedream-4.5 看起來(lái)更能遵守約束,Violation 低于 20%,但這主要是因?yàn)樗鼉A向于少生成,往往無(wú)法畫出完整路徑,本質(zhì)上屬于欠生成。
在 Queen 任務(wù)上,只有 NanoBanana-Pro 的零樣本表現(xiàn)相對(duì)突出,Pass@1 達(dá)到 30.35%,其余閉源模型幾乎都接近于零。NanoBanana-Pro 在 Queen 上異常突出的表現(xiàn),也說(shuō)明它很可能在訓(xùn)練階段見(jiàn)過(guò)相似任務(wù)。
2. 擴(kuò)散式模型可能比自回歸模型更適合視覺(jué)規(guī)劃
論文首先指出,Bagel 和 Janus-Pro 在零樣本設(shè)置下都難以遵循指令并生成有效解,說(shuō)明這類抽象視覺(jué)規(guī)劃任務(wù)對(duì)它們而言仍屬于明顯的 out-of-domain 場(chǎng)景。為進(jìn)一步考察模型能否通過(guò)后訓(xùn)練獲得視覺(jué)規(guī)劃能力,作者基于最基礎(chǔ)尺度的數(shù)據(jù)對(duì)模型進(jìn)行了監(jiān)督微調(diào),訓(xùn)練集包括四種幾何類型的 3×3 Maze以及4-Queens 任務(wù)。
在此基礎(chǔ)上,論文比較了擴(kuò)散式模型與自回歸模型在視覺(jué)規(guī)劃上的潛力。結(jié)果顯示,二者在微調(diào)前的 Pass@1 都為 0,但微調(diào)后,作為擴(kuò)散式模型代表的 Bagel 在 Maze 上將 Pass@1 提升到 11.54%,而作為自回歸模型代表的 Janus-Pro 僅達(dá)到 1.43%;在 Queen 任務(wù)上,Bagel 的 Pass@1 也達(dá)到 14.57%,高于 Janus-Pro 的 12.57%。
這一結(jié)果說(shuō)明,監(jiān)督微調(diào)確實(shí)能夠激發(fā)模型的視覺(jué)規(guī)劃能力,但不同生成范式的受益程度并不相同。擴(kuò)散式圖像編輯模型在形成視覺(jué)規(guī)劃邏輯方面,可能比自回歸模型更具優(yōu)勢(shì)。一個(gè)可能的原因是,擴(kuò)散模型通過(guò)逐步去噪來(lái)構(gòu)建全局結(jié)構(gòu),更容易在圖像空間中維持整體一致性;而自回歸模型依賴逐 token、局部順序式生成,天然更容易受限于局部視角,因而在需要全局協(xié)調(diào)的視覺(jué)規(guī)劃任務(wù)中處于劣勢(shì)。
3. Chain-of-Thought(CoT,思維鏈) 并不總是有效
研究人員進(jìn)一步測(cè)試了思維鏈提示(Chain-of-Thought, CoT)對(duì)視覺(jué)規(guī)劃任務(wù)的影響,但整體結(jié)果并不穩(wěn)定。對(duì)于 Bagel、Janus-Pro這類統(tǒng)一多模態(tài)架構(gòu)而言,CoT在零樣本設(shè)置下幾乎沒(méi)有帶來(lái)明顯收益,說(shuō)明當(dāng)模型尚未真正掌握任務(wù)本身的結(jié)構(gòu)邏輯時(shí),僅僅加入“分步思考”的提示,并不能有效提升其求解能力。
不過(guò),在經(jīng)過(guò)監(jiān)督微調(diào)之后,CoT又能帶來(lái)一定程度的邊際改善。例如,在 Maze 任務(wù)上,微調(diào)后的 Bagel 的 Pass@1 從 11.54% 提升到 17.90%。但這種收益并不穩(wěn)定:同樣是 Bagel,在 Queen 任務(wù)上加入 CoT 后,Pass@1 反而從 14.57% 微降到 14.08%;這表明,模型需要先通過(guò)訓(xùn)練內(nèi)化任務(wù)背后的規(guī)劃邏輯,之后才可能真正利用中間推理步驟。換句話說(shuō),CoT更像是一種放大已有能力的機(jī)制。
4. 擴(kuò)散圖像編輯模型到底是怎么做視覺(jué)規(guī)劃的?
為了探究擴(kuò)散式圖像編輯模型在求解 Maze 和 Queen 時(shí),究竟是在“直接畫答案”,還是確實(shí)呈現(xiàn)出某種逐步形成解的視覺(jué)規(guī)劃行為,研究人員展示了微調(diào)后的 Bagel 在不同去噪步上的中間結(jié)果。
![]()
從 Maze 的可視化可以看出,正確路徑并不是在最后一步突然生成,而是在較早階段就以較低置信度的形式出現(xiàn),例如 t=1、2、4 時(shí)已經(jīng)能看到模糊的候選軌跡。隨著去噪推進(jìn),路徑逐漸變清晰,錯(cuò)誤分支也被不斷修正,最終收斂為有效解。這說(shuō)明模型更像是先形成一個(gè)粗略的全局結(jié)構(gòu),再逐步細(xì)化到正確答案,這種“由粗到細(xì)”的過(guò)程也與擴(kuò)散模型的去噪機(jī)制高度一致。
相比之下,Queen 呈現(xiàn)出不同的規(guī)劃模式:模型往往先生成一個(gè)粗糙的全局落子布局,再進(jìn)行細(xì)粒度調(diào)整。這種差異反映了兩類任務(wù)本身的結(jié)構(gòu)區(qū)別:Maze 更適合通過(guò)局部修補(bǔ)不斷逼近正確路徑,而 Queen 由于涉及全局約束下的組合規(guī)劃,更依賴整體結(jié)構(gòu)的同步更新。整體來(lái)看,這一分析說(shuō)明擴(kuò)散式模型確實(shí)表現(xiàn)出某種視覺(jué)規(guī)劃的生成特征,但這種能力在不同任務(wù)上的成熟度并不一致,尤其在需要強(qiáng)全局協(xié)調(diào)的 Queen 任務(wù)上仍然明顯不足。真正困難的并不只是“把答案畫出來(lái)”,而是在視覺(jué)空間中維持跨區(qū)域、跨對(duì)象的一致性關(guān)系,而這正是當(dāng)前圖像編輯模型仍然薄弱的環(huán)節(jié)。
04
泛化實(shí)驗(yàn):模型能否學(xué)會(huì)跨幾何、跨尺度的遷移
真正有價(jià)值的視覺(jué)規(guī)劃能力,不應(yīng)該只在訓(xùn)練時(shí)見(jiàn)過(guò)的圖上有效,還應(yīng)該具備跨幾何、跨尺度的遷移能力。
1. 六邊形訓(xùn)練最有利于跨幾何泛化
![]()
實(shí)驗(yàn)發(fā)現(xiàn),在 Maze 任務(wù)中,用六邊形迷宮訓(xùn)練出來(lái)的模型,對(duì)其他幾何類型的遷移效果最好。研究人員猜測(cè),六邊形具有更豐富的方向空間,相當(dāng)于給模型提供了一個(gè)更廣義的動(dòng)作集合,因此更容易學(xué)到超越單一拓?fù)涞穆窂揭?guī)劃邏輯。
2. 僅用簡(jiǎn)單尺度訓(xùn)練,模型已具備跨尺度泛化能力
![]()
在 Maze 上,只用 3×3的簡(jiǎn)單樣本微調(diào),模型就能在更大尺度上表現(xiàn)出一定泛化能力,最高可以外推到 16×16。這說(shuō)明模型并不只是死記硬背訓(xùn)練樣本,而是學(xué)到了一部分可復(fù)用的路徑構(gòu)造規(guī)律。
但 Queen 的情況要更難。僅在4×4上訓(xùn)練,模型雖然能把同尺度任務(wù)做得很好,卻幾乎無(wú)法遷移到更大棋盤;只有在更大訓(xùn)練尺度上學(xué)習(xí)后,才會(huì)出現(xiàn)真正有意義的跨尺度泛化。
05
Scaling Effect:數(shù)據(jù)與算力如何影響性能增長(zhǎng)
當(dāng)訓(xùn)練數(shù)據(jù)和訓(xùn)練算力持續(xù)增加時(shí),視覺(jué)規(guī)劃能力是否會(huì)像其他大模型能力一樣穩(wěn)定增長(zhǎng),又是在哪些條件下增長(zhǎng)最快?
為此,研究人員以 Bagel 為對(duì)象,分別在 8×8 六邊形迷宮、8×8 圓形迷宮和 7-Queens 上進(jìn)行微調(diào),系統(tǒng)考察數(shù)據(jù)規(guī)模與訓(xùn)練計(jì)算對(duì)性能的影響。結(jié)果表明,視覺(jué)規(guī)劃確實(shí)存在明顯的 scaling effect,但這種增長(zhǎng)并不是平滑單調(diào)的統(tǒng)一規(guī)律,而是受到任務(wù)結(jié)構(gòu)的制約。
1. 數(shù)據(jù)擴(kuò)展的收益在約1600樣本后趨于飽和
![]()
研究人員在固定 1000 個(gè)訓(xùn)練 step 的條件下,將訓(xùn)練樣本數(shù)從 800 逐步增加到 1600、3200 和 6400。整體上,性能會(huì)在早期隨數(shù)據(jù)增長(zhǎng)而上升,但當(dāng)樣本數(shù)超過(guò) 1600 之后,收益便明顯趨于飽和。以六邊形 Maze 為例,性能從 65.2% 提升到 68.1%,主要發(fā)生在 800 → 1600 這一步,之后基本進(jìn)入平臺(tái)期。
相比之下,Queen 任務(wù)在數(shù)據(jù)擴(kuò)展初期的收益更明顯。同樣是從 800 增加到 1600,其性能提升可達(dá)到 +10.3%,顯著高于 Maze。這說(shuō)明組合型視覺(jué)規(guī)劃更依賴豐富、多樣的解空間樣本,因而對(duì)數(shù)據(jù)規(guī)模更敏感。這意味著不同任務(wù)并不共享同一種數(shù)據(jù)擴(kuò)展曲線,任務(wù)本身的結(jié)構(gòu)會(huì)直接決定模型從數(shù)據(jù)中“吃到”多少增益。
2. 算力擴(kuò)展呈現(xiàn)非線性收益,后期訓(xùn)練貢獻(xiàn)更大
![]()
研究人員在固定 6400 個(gè)訓(xùn)練樣本的前提下,將訓(xùn)練步數(shù)從 500 增加到 1000。總體而言,增加訓(xùn)練算力帶來(lái)了更穩(wěn)定的性能改。更值得注意的是,這種增長(zhǎng)并不是均勻發(fā)生的:在 500–700 step 區(qū)間內(nèi),提升相對(duì)有限;而在 700–1000 step 區(qū)間內(nèi),增益明顯放大。例如,六邊形 Maze 在 500–700 step 間提升 6.1%,而在 700–1000 step 間進(jìn)一步提升了 15.8%。
06
模型與人類的視覺(jué)規(guī)劃能力差距
當(dāng)前圖像編輯模型的視覺(jué)規(guī)劃能力,究竟距離人類還有多遠(yuǎn)?
在這部分實(shí)驗(yàn)中,研究人員選取了經(jīng)過(guò)微調(diào)的 Bagel 作為模型代表,分別在 8×8 六邊形 Maze 和 7-Queens 任務(wù)上與人類進(jìn)行對(duì)比。人類參與者分為 6 歲、12 歲 和 18 歲 三個(gè)年齡組,每組 4 人,分別代表視覺(jué)規(guī)劃與抽象推理能力發(fā)展的不同階段。每位參與者都需要完成不同難度層級(jí)的 Maze 和 Queen 任務(wù),其中 Maze 包括 8×8、16×16、24×24 三個(gè)尺度,Queen 包括 4、7、10 三個(gè)尺度,從而覆蓋由易到難的多種場(chǎng)景。為了保證比較盡可能公平,作者允許參與者在正式落筆前進(jìn)行不限時(shí)的心理推理,但一旦開(kāi)始作答,就必須像模型生成圖像那樣一次畫完,不能擦除、回退或重來(lái)。與此同時(shí),模型也被賦予與人類相同的時(shí)間預(yù)算,在這段時(shí)間內(nèi)可以盡可能多地生成候選答案。
![]()
1. 人類表現(xiàn)隨時(shí)間提升,而模型收益有限
從結(jié)果來(lái)看,人類的成功率與可用時(shí)間呈現(xiàn)出更明顯的正相關(guān)關(guān)系。也就是說(shuō),隨著允許時(shí)間增加,人類通常能在更難任務(wù)上持續(xù)提高成功率;相比之下,模型的表現(xiàn)則相對(duì)平緩,即便獲得更多時(shí)間,提升也十分有限。這說(shuō)明模型并不會(huì)像人類那樣通過(guò)更長(zhǎng)時(shí)間的思考逐步完善解法,而更接近于在固定能力邊界內(nèi)重復(fù)嘗試。
2. 模型能力呈任務(wù)依賴:Maze接近12歲,Queen接近6歲
除了直接比較成功率,論文還進(jìn)一步計(jì)算了模型與不同年齡組人類之間的 Pearson 相關(guān)性,以分析它們?cè)诓煌蝿?wù)和難度下的表現(xiàn)趨勢(shì)是否相似。
![]()
結(jié)果很有意思:在 Maze 任務(wù)上,模型的表現(xiàn)模式與 12 歲 組最接近;而在 Queen 任務(wù)上,模型卻與 6 歲 組更相似。研究人員猜測(cè),這很可能是因?yàn)?Queen 所代表的全局約束下的組合規(guī)劃,本身比 Maze 所代表的局部約束下的順序規(guī)劃更難,因此模型雖然已經(jīng)在路徑型任務(wù)上展現(xiàn)出一定能力,但在需要全局協(xié)調(diào)的組合式視覺(jué)規(guī)劃中,依然停留在較初級(jí)的水平。
視覺(jué)規(guī)劃并不是單一能力,而是包含局部約束處理、全局協(xié)調(diào)和長(zhǎng)程結(jié)構(gòu)推理等多個(gè)層次,現(xiàn)有圖像編輯模型距離全面接近人類還有相當(dāng)長(zhǎng)的路要走。
07
錯(cuò)誤分析:模型主要錯(cuò)在違規(guī)與不完整
研究人員將模型的失敗案例概括為兩類:違反任務(wù)約束 和 不完全解。
![]()
前者指模型沒(méi)有真正遵守任務(wù)約束,反映出其指令遵循能力不足;在 Maze 中,這通常表現(xiàn)為路徑穿墻、越界,甚至直接把起點(diǎn)和終點(diǎn)硬連起來(lái),在圓形、六邊形等復(fù)雜幾何中尤為明顯;在 Queen 中,則體現(xiàn)為落子位置違反全局約束。
后者則是“不完全解”,即模型雖然開(kāi)始朝正確方向生成,但只完成了部分答案,體現(xiàn)出一種偏保守的生成策略;例如在 Maze 中,模型往往只能從起點(diǎn)畫出一段局部正確的前綴路徑,卻無(wú)法最終連到終點(diǎn),這在更大尺度或跨域幾何中尤其常見(jiàn);在 Queen 中,則對(duì)應(yīng)只放對(duì)了一部分皇后。當(dāng)前模型的主要問(wèn)題并不只是完全不會(huì)做,而是常常停留在局部看起來(lái)合理、全局卻并不成立的階段。
08
從多模態(tài)理解到原生視覺(jué)規(guī)劃
從研究意義的角度,研究團(tuán)隊(duì)并不只是在現(xiàn)有 benchmark 體系中再增加一組新任務(wù),而在于它推動(dòng)了視覺(jué)推理評(píng)測(cè)對(duì)象的轉(zhuǎn)變。過(guò)去的多模態(tài)研究,更多關(guān)注模型是否能夠“看懂圖像、對(duì)齊文本、給出解釋”;但這類能力并不等同于真正的視覺(jué)規(guī)劃。對(duì)于迷宮求解、約束滿足、空間決策這類問(wèn)題,關(guān)鍵不在于模型能否把圖像內(nèi)容描述出來(lái),而在于它能否直接在圖像空間中形成解法。EAR正是將這一問(wèn)題明確地提出,并將評(píng)測(cè)重點(diǎn)從多模態(tài)理解推進(jìn)到原生視覺(jué)規(guī)劃。它用抽象任務(wù)剝離了復(fù)雜感知因素的干擾,使視覺(jué)規(guī)劃第一次能夠作為一種相對(duì)獨(dú)立的能力被系統(tǒng)檢驗(yàn)。Maze 和 Queen 分別對(duì)應(yīng)局部約束下的連續(xù)規(guī)劃與全局約束下的組合規(guī)劃,而 Coverage、Violation、Pass 以及 MSE 等自動(dòng)指標(biāo),則進(jìn)一步把視覺(jué)規(guī)劃中原本模糊、主觀的部分轉(zhuǎn)化為可量化、可比較、可擴(kuò)展的實(shí)驗(yàn)對(duì)象。
更重要的是,當(dāng)前圖像編輯模型已經(jīng)展現(xiàn)出一定的視覺(jué)規(guī)劃潛力,尤其是在監(jiān)督微調(diào)后,能夠表現(xiàn)出非平凡的跨尺度、跨幾何泛化;但與此同時(shí),這種能力依然高度脆弱,在零樣本設(shè)置、強(qiáng)全局約束任務(wù)以及與人類效率對(duì)比中,都暴露出明顯差距。這說(shuō)明,視覺(jué)規(guī)劃并不是現(xiàn)有生成能力的自然延伸,而是需要專門建模、專門訓(xùn)練、專門評(píng)測(cè)的一類核心能力。
因此,未來(lái)我們不僅要關(guān)注模型是否能生成更逼真的圖像、說(shuō)出更流暢的解釋,還要進(jìn)一步追問(wèn),它是否能夠在圖像空間中完成規(guī)劃、維持約束、形成推理。
09
作者
![]()
周芷穆,作為論文第一作者,就讀于北京郵電大學(xué)物聯(lián)網(wǎng)工程專業(yè)本科。其主要研究方向?yàn)榭臻g智能、多模態(tài)模型和強(qiáng)化學(xué)習(xí),圍繞空間智能、VLA 決策優(yōu)化與復(fù)雜長(zhǎng)程規(guī)劃等方向在ICLR/AAAI等CCF會(huì)議發(fā)表多篇論文。現(xiàn)與趙波老師合作,將于2026年9月攻讀上海交通大學(xué)博士學(xué)位。
——本篇文章論文作者擁有所有權(quán),轉(zhuǎn)載請(qǐng)聯(lián)系論文作者
未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.