網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

圖像編輯模型不止生成：BIGAI&上交大提出EAR范式，系統(tǒng)測(cè)試其視覺(jué)規(guī)劃能力

2026-04-30 18:16:34　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

EAR 范式與 AMAZE 基準(zhǔn)將視覺(jué)規(guī)劃重構(gòu)為單步圖像編輯任務(wù)，揭示當(dāng)前圖像編輯模型可通過(guò)微調(diào)獲得一定的視覺(jué)規(guī)劃能力。

在人類智能中，視覺(jué)規(guī)劃是一項(xiàng)核心能力——從走迷宮到棋盤布局，我們往往依賴空間直覺(jué)快速完成決策。然而，當(dāng)前機(jī)器學(xué)習(xí)模型大多仍依賴“語(yǔ)言推理”，將視覺(jué)問(wèn)題轉(zhuǎn)化為文本進(jìn)行處理。

這也帶來(lái)一個(gè)關(guān)鍵問(wèn)題：如果不把視覺(jué)問(wèn)題先轉(zhuǎn)換成文本，而是直接交給模型，它們是否具備原生的視覺(jué)規(guī)劃能力？

圍繞這個(gè)問(wèn)題，上海交通大學(xué)聯(lián)合北京通用人工智能研究院提出了一種全新的范式——Editing as Reasoning（EAR），以主流圖像編輯模型為研究對(duì)象，將復(fù)雜的視覺(jué)規(guī)劃任務(wù)轉(zhuǎn)化為單步的圖像編輯。在《Probing Visual Planning in Image Editing Models》工作中構(gòu)建了一個(gè)全新的評(píng)測(cè)基準(zhǔn) AMAZE，系統(tǒng)性地分析當(dāng)前圖像編輯模型的視覺(jué)推理能力。該論文已被 ICLR Efficient Spatial Reasoning Workshop 2026接收。

論文：https://arxiv.org/abs/2604.22868

項(xiàng)目主頁(yè)：https://spatigen.github.io/amaze.io/

代碼：https://github.com/spatigen/amaze

Benchmark：https://huggingface.co/spaces/piekenius123/Amaze-Visualization

核心思想

傳統(tǒng)做法往往要求模型借助文本模態(tài)的輔助，例如先將本質(zhì)上屬于視覺(jué)規(guī)劃的問(wèn)題轉(zhuǎn)寫為文本，交給大語(yǔ)言模型處理，或依賴視覺(jué)語(yǔ)言模型進(jìn)行基于文本思維鏈的多模態(tài)推理；或者讓模型一步一步生成中間狀態(tài)，再逐步逼近最終解；而 EAR 直接要求模型把輸入謎題圖像直接輸出為最終求解完成的結(jié)果圖像，把整個(gè)規(guī)劃過(guò)程壓縮為單步視覺(jué)編輯。模型不能只看懂圖，還要在視覺(jué)空間中完成路徑選擇、沖突消解與全局協(xié)調(diào)。

為了讓評(píng)測(cè)真正可落地，項(xiàng)目還設(shè)計(jì)了兩類自動(dòng)指標(biāo)：

Coverage / Violation：模型生成結(jié)果中，與正確解重合/違反正確解約束的比例。

MSE-In / MSE-Out：分別度量解區(qū)域內(nèi)外的像素級(jí)誤差。

Pass：綜合 Coverage 與 Violation 后得到的邏輯有效的通過(guò)性指標(biāo)。基于單次或多次采樣統(tǒng)計(jì)，研究人員統(tǒng)計(jì)模型的通過(guò)率Pass@1 / Pass@5。

任務(wù)設(shè)計(jì)

為了符合EAR 單步視覺(jué)規(guī)劃的范式核心，AMAZE基準(zhǔn)用兩類任務(wù)覆蓋了兩種互補(bǔ)的視覺(jué)規(guī)劃模式：Maze任務(wù)和Queen任務(wù)。

其中，

Maze 任務(wù)覆蓋 3×3到 16×16 尺度，并包含圓形、六邊形、方形、三角形四種幾何拓?fù)洹?/p>

Queen 任務(wù)覆蓋 4×4 到 10×10尺度。

Maze 測(cè)試集共 2800個(gè)樣本，Queen 測(cè)試集共 350 個(gè)樣本。

核心實(shí)驗(yàn)發(fā)現(xiàn)：模型會(huì)“畫”，但離真正會(huì)“規(guī)劃”還有距離

1. 零樣本表現(xiàn)整體偏弱

整體來(lái)看，即便是前沿閉源圖像編輯模型，在抽象視覺(jué)規(guī)劃上的零樣本能力也依然比較有限。

在 Maze 任務(wù)上，閉源模型的最佳 Pass@1 僅為 5.40%，說(shuō)明它們幾乎不具備穩(wěn)定的零樣本求解能力。這些模型的典型問(wèn)題是難以嚴(yán)格遵守迷宮邊界，常常生成“穿墻”路徑。其中，GPT-Image-1 的指令遵循能力最弱，Violation 高達(dá) 62.88%。NanoBanana-Pro 雖然在像素級(jí)保真度上表現(xiàn)最好，但往往會(huì)過(guò)度生成，畫出貫穿整個(gè)迷宮的路徑，因此 Violation 仍然較高，達(dá)到 47.76%。Seedream-4.5 看起來(lái)更能遵守約束，Violation 低于 20%，但這主要是因?yàn)樗鼉A向于少生成，往往無(wú)法畫出完整路徑，本質(zhì)上屬于欠生成。

在 Queen 任務(wù)上，只有 NanoBanana-Pro 的零樣本表現(xiàn)相對(duì)突出，Pass@1 達(dá)到 30.35%，其余閉源模型幾乎都接近于零。NanoBanana-Pro 在 Queen 上異常突出的表現(xiàn)，也說(shuō)明它很可能在訓(xùn)練階段見(jiàn)過(guò)相似任務(wù)。

2. 擴(kuò)散式模型可能比自回歸模型更適合視覺(jué)規(guī)劃

論文首先指出，Bagel 和 Janus-Pro 在零樣本設(shè)置下都難以遵循指令并生成有效解，說(shuō)明這類抽象視覺(jué)規(guī)劃任務(wù)對(duì)它們而言仍屬于明顯的 out-of-domain 場(chǎng)景。為進(jìn)一步考察模型能否通過(guò)后訓(xùn)練獲得視覺(jué)規(guī)劃能力，作者基于最基礎(chǔ)尺度的數(shù)據(jù)對(duì)模型進(jìn)行了監(jiān)督微調(diào)，訓(xùn)練集包括四種幾何類型的 3×3 Maze以及4-Queens 任務(wù)。

在此基礎(chǔ)上，論文比較了擴(kuò)散式模型與自回歸模型在視覺(jué)規(guī)劃上的潛力。結(jié)果顯示，二者在微調(diào)前的 Pass@1 都為 0，但微調(diào)后，作為擴(kuò)散式模型代表的 Bagel 在 Maze 上將 Pass@1 提升到 11.54%，而作為自回歸模型代表的 Janus-Pro 僅達(dá)到 1.43%；在 Queen 任務(wù)上，Bagel 的 Pass@1 也達(dá)到 14.57%，高于 Janus-Pro 的 12.57%。

這一結(jié)果說(shuō)明，監(jiān)督微調(diào)確實(shí)能夠激發(fā)模型的視覺(jué)規(guī)劃能力，但不同生成范式的受益程度并不相同。擴(kuò)散式圖像編輯模型在形成視覺(jué)規(guī)劃邏輯方面，可能比自回歸模型更具優(yōu)勢(shì)。一個(gè)可能的原因是，擴(kuò)散模型通過(guò)逐步去噪來(lái)構(gòu)建全局結(jié)構(gòu)，更容易在圖像空間中維持整體一致性；而自回歸模型依賴逐 token、局部順序式生成，天然更容易受限于局部視角，因而在需要全局協(xié)調(diào)的視覺(jué)規(guī)劃任務(wù)中處于劣勢(shì)。

3. Chain-of-Thought（CoT，思維鏈）并不總是有效

研究人員進(jìn)一步測(cè)試了思維鏈提示（Chain-of-Thought, CoT）對(duì)視覺(jué)規(guī)劃任務(wù)的影響，但整體結(jié)果并不穩(wěn)定。對(duì)于 Bagel、Janus-Pro這類統(tǒng)一多模態(tài)架構(gòu)而言，CoT在零樣本設(shè)置下幾乎沒(méi)有帶來(lái)明顯收益，說(shuō)明當(dāng)模型尚未真正掌握任務(wù)本身的結(jié)構(gòu)邏輯時(shí)，僅僅加入“分步思考”的提示，并不能有效提升其求解能力。

不過(guò)，在經(jīng)過(guò)監(jiān)督微調(diào)之后，CoT又能帶來(lái)一定程度的邊際改善。例如，在 Maze 任務(wù)上，微調(diào)后的 Bagel 的 Pass@1 從 11.54% 提升到 17.90%。但這種收益并不穩(wěn)定：同樣是 Bagel，在 Queen 任務(wù)上加入 CoT 后，Pass@1 反而從 14.57% 微降到 14.08%；這表明，模型需要先通過(guò)訓(xùn)練內(nèi)化任務(wù)背后的規(guī)劃邏輯，之后才可能真正利用中間推理步驟。換句話說(shuō)，CoT更像是一種放大已有能力的機(jī)制。

4. 擴(kuò)散圖像編輯模型到底是怎么做視覺(jué)規(guī)劃的？

為了探究擴(kuò)散式圖像編輯模型在求解 Maze 和 Queen 時(shí)，究竟是在“直接畫答案”，還是確實(shí)呈現(xiàn)出某種逐步形成解的視覺(jué)規(guī)劃行為，研究人員展示了微調(diào)后的 Bagel 在不同去噪步上的中間結(jié)果。

從 Maze 的可視化可以看出，正確路徑并不是在最后一步突然生成，而是在較早階段就以較低置信度的形式出現(xiàn)，例如 t=1、2、4 時(shí)已經(jīng)能看到模糊的候選軌跡。隨著去噪推進(jìn)，路徑逐漸變清晰，錯(cuò)誤分支也被不斷修正，最終收斂為有效解。這說(shuō)明模型更像是先形成一個(gè)粗略的全局結(jié)構(gòu)，再逐步細(xì)化到正確答案，這種“由粗到細(xì)”的過(guò)程也與擴(kuò)散模型的去噪機(jī)制高度一致。

相比之下，Queen 呈現(xiàn)出不同的規(guī)劃模式：模型往往先生成一個(gè)粗糙的全局落子布局，再進(jìn)行細(xì)粒度調(diào)整。這種差異反映了兩類任務(wù)本身的結(jié)構(gòu)區(qū)別：Maze 更適合通過(guò)局部修補(bǔ)不斷逼近正確路徑，而 Queen 由于涉及全局約束下的組合規(guī)劃，更依賴整體結(jié)構(gòu)的同步更新。整體來(lái)看，這一分析說(shuō)明擴(kuò)散式模型確實(shí)表現(xiàn)出某種視覺(jué)規(guī)劃的生成特征，但這種能力在不同任務(wù)上的成熟度并不一致，尤其在需要強(qiáng)全局協(xié)調(diào)的 Queen 任務(wù)上仍然明顯不足。真正困難的并不只是“把答案畫出來(lái)”，而是在視覺(jué)空間中維持跨區(qū)域、跨對(duì)象的一致性關(guān)系，而這正是當(dāng)前圖像編輯模型仍然薄弱的環(huán)節(jié)。

泛化實(shí)驗(yàn)：模型能否學(xué)會(huì)跨幾何、跨尺度的遷移

真正有價(jià)值的視覺(jué)規(guī)劃能力，不應(yīng)該只在訓(xùn)練時(shí)見(jiàn)過(guò)的圖上有效，還應(yīng)該具備跨幾何、跨尺度的遷移能力。

1. 六邊形訓(xùn)練最有利于跨幾何泛化

實(shí)驗(yàn)發(fā)現(xiàn)，在 Maze 任務(wù)中，用六邊形迷宮訓(xùn)練出來(lái)的模型，對(duì)其他幾何類型的遷移效果最好。研究人員猜測(cè)，六邊形具有更豐富的方向空間，相當(dāng)于給模型提供了一個(gè)更廣義的動(dòng)作集合，因此更容易學(xué)到超越單一拓?fù)涞穆窂揭?guī)劃邏輯。

2. 僅用簡(jiǎn)單尺度訓(xùn)練，模型已具備跨尺度泛化能力

在 Maze 上，只用 3×3的簡(jiǎn)單樣本微調(diào)，模型就能在更大尺度上表現(xiàn)出一定泛化能力，最高可以外推到 16×16。這說(shuō)明模型并不只是死記硬背訓(xùn)練樣本，而是學(xué)到了一部分可復(fù)用的路徑構(gòu)造規(guī)律。

但 Queen 的情況要更難。僅在4×4上訓(xùn)練，模型雖然能把同尺度任務(wù)做得很好，卻幾乎無(wú)法遷移到更大棋盤；只有在更大訓(xùn)練尺度上學(xué)習(xí)后，才會(huì)出現(xiàn)真正有意義的跨尺度泛化。

Scaling Effect：數(shù)據(jù)與算力如何影響性能增長(zhǎng)

當(dāng)訓(xùn)練數(shù)據(jù)和訓(xùn)練算力持續(xù)增加時(shí)，視覺(jué)規(guī)劃能力是否會(huì)像其他大模型能力一樣穩(wěn)定增長(zhǎng)，又是在哪些條件下增長(zhǎng)最快?

為此，研究人員以 Bagel 為對(duì)象，分別在 8×8 六邊形迷宮、8×8 圓形迷宮和 7-Queens 上進(jìn)行微調(diào)，系統(tǒng)考察數(shù)據(jù)規(guī)模與訓(xùn)練計(jì)算對(duì)性能的影響。結(jié)果表明，視覺(jué)規(guī)劃確實(shí)存在明顯的 scaling effect，但這種增長(zhǎng)并不是平滑單調(diào)的統(tǒng)一規(guī)律，而是受到任務(wù)結(jié)構(gòu)的制約。

1. 數(shù)據(jù)擴(kuò)展的收益在約1600樣本后趨于飽和

研究人員在固定 1000 個(gè)訓(xùn)練 step 的條件下，將訓(xùn)練樣本數(shù)從 800 逐步增加到 1600、3200 和 6400。整體上，性能會(huì)在早期隨數(shù)據(jù)增長(zhǎng)而上升，但當(dāng)樣本數(shù)超過(guò) 1600 之后，收益便明顯趨于飽和。以六邊形 Maze 為例，性能從 65.2% 提升到 68.1%，主要發(fā)生在 800 → 1600 這一步，之后基本進(jìn)入平臺(tái)期。

相比之下，Queen 任務(wù)在數(shù)據(jù)擴(kuò)展初期的收益更明顯。同樣是從 800 增加到 1600，其性能提升可達(dá)到 +10.3%，顯著高于 Maze。這說(shuō)明組合型視覺(jué)規(guī)劃更依賴豐富、多樣的解空間樣本，因而對(duì)數(shù)據(jù)規(guī)模更敏感。這意味著不同任務(wù)并不共享同一種數(shù)據(jù)擴(kuò)展曲線，任務(wù)本身的結(jié)構(gòu)會(huì)直接決定模型從數(shù)據(jù)中“吃到”多少增益。

2. 算力擴(kuò)展呈現(xiàn)非線性收益，后期訓(xùn)練貢獻(xiàn)更大

研究人員在固定 6400 個(gè)訓(xùn)練樣本的前提下，將訓(xùn)練步數(shù)從 500 增加到 1000。總體而言，增加訓(xùn)練算力帶來(lái)了更穩(wěn)定的性能改。更值得注意的是，這種增長(zhǎng)并不是均勻發(fā)生的：在 500–700 step 區(qū)間內(nèi)，提升相對(duì)有限；而在 700–1000 step 區(qū)間內(nèi)，增益明顯放大。例如，六邊形 Maze 在 500–700 step 間提升 6.1%，而在 700–1000 step 間進(jìn)一步提升了 15.8%。

模型與人類的視覺(jué)規(guī)劃能力差距

當(dāng)前圖像編輯模型的視覺(jué)規(guī)劃能力，究竟距離人類還有多遠(yuǎn)？

在這部分實(shí)驗(yàn)中，研究人員選取了經(jīng)過(guò)微調(diào)的 Bagel 作為模型代表，分別在 8×8 六邊形 Maze 和 7-Queens 任務(wù)上與人類進(jìn)行對(duì)比。人類參與者分為 6 歲、12 歲和 18 歲三個(gè)年齡組，每組 4 人，分別代表視覺(jué)規(guī)劃與抽象推理能力發(fā)展的不同階段。每位參與者都需要完成不同難度層級(jí)的 Maze 和 Queen 任務(wù)，其中 Maze 包括 8×8、16×16、24×24 三個(gè)尺度，Queen 包括 4、7、10 三個(gè)尺度，從而覆蓋由易到難的多種場(chǎng)景。為了保證比較盡可能公平，作者允許參與者在正式落筆前進(jìn)行不限時(shí)的心理推理，但一旦開(kāi)始作答，就必須像模型生成圖像那樣一次畫完，不能擦除、回退或重來(lái)。與此同時(shí)，模型也被賦予與人類相同的時(shí)間預(yù)算，在這段時(shí)間內(nèi)可以盡可能多地生成候選答案。

1. 人類表現(xiàn)隨時(shí)間提升，而模型收益有限

從結(jié)果來(lái)看，人類的成功率與可用時(shí)間呈現(xiàn)出更明顯的正相關(guān)關(guān)系。也就是說(shuō)，隨著允許時(shí)間增加，人類通常能在更難任務(wù)上持續(xù)提高成功率；相比之下，模型的表現(xiàn)則相對(duì)平緩，即便獲得更多時(shí)間，提升也十分有限。這說(shuō)明模型并不會(huì)像人類那樣通過(guò)更長(zhǎng)時(shí)間的思考逐步完善解法，而更接近于在固定能力邊界內(nèi)重復(fù)嘗試。

2. 模型能力呈任務(wù)依賴：Maze接近12歲，Queen接近6歲

除了直接比較成功率，論文還進(jìn)一步計(jì)算了模型與不同年齡組人類之間的 Pearson 相關(guān)性，以分析它們?cè)诓煌蝿?wù)和難度下的表現(xiàn)趨勢(shì)是否相似。

結(jié)果很有意思：在 Maze 任務(wù)上，模型的表現(xiàn)模式與 12 歲組最接近；而在 Queen 任務(wù)上，模型卻與 6 歲組更相似。研究人員猜測(cè)，這很可能是因?yàn)?Queen 所代表的全局約束下的組合規(guī)劃，本身比 Maze 所代表的局部約束下的順序規(guī)劃更難，因此模型雖然已經(jīng)在路徑型任務(wù)上展現(xiàn)出一定能力，但在需要全局協(xié)調(diào)的組合式視覺(jué)規(guī)劃中，依然停留在較初級(jí)的水平。

視覺(jué)規(guī)劃并不是單一能力，而是包含局部約束處理、全局協(xié)調(diào)和長(zhǎng)程結(jié)構(gòu)推理等多個(gè)層次，現(xiàn)有圖像編輯模型距離全面接近人類還有相當(dāng)長(zhǎng)的路要走。

錯(cuò)誤分析：模型主要錯(cuò)在違規(guī)與不完整

研究人員將模型的失敗案例概括為兩類：違反任務(wù)約束和不完全解。

前者指模型沒(méi)有真正遵守任務(wù)約束，反映出其指令遵循能力不足；在 Maze 中，這通常表現(xiàn)為路徑穿墻、越界，甚至直接把起點(diǎn)和終點(diǎn)硬連起來(lái)，在圓形、六邊形等復(fù)雜幾何中尤為明顯；在 Queen 中，則體現(xiàn)為落子位置違反全局約束。

后者則是“不完全解”，即模型雖然開(kāi)始朝正確方向生成，但只完成了部分答案，體現(xiàn)出一種偏保守的生成策略；例如在 Maze 中，模型往往只能從起點(diǎn)畫出一段局部正確的前綴路徑，卻無(wú)法最終連到終點(diǎn)，這在更大尺度或跨域幾何中尤其常見(jiàn)；在 Queen 中，則對(duì)應(yīng)只放對(duì)了一部分皇后。當(dāng)前模型的主要問(wèn)題并不只是完全不會(huì)做，而是常常停留在局部看起來(lái)合理、全局卻并不成立的階段。

從多模態(tài)理解到原生視覺(jué)規(guī)劃

從研究意義的角度，研究團(tuán)隊(duì)并不只是在現(xiàn)有 benchmark 體系中再增加一組新任務(wù)，而在于它推動(dòng)了視覺(jué)推理評(píng)測(cè)對(duì)象的轉(zhuǎn)變。過(guò)去的多模態(tài)研究，更多關(guān)注模型是否能夠“看懂圖像、對(duì)齊文本、給出解釋”；但這類能力并不等同于真正的視覺(jué)規(guī)劃。對(duì)于迷宮求解、約束滿足、空間決策這類問(wèn)題，關(guān)鍵不在于模型能否把圖像內(nèi)容描述出來(lái)，而在于它能否直接在圖像空間中形成解法。EAR正是將這一問(wèn)題明確地提出，并將評(píng)測(cè)重點(diǎn)從多模態(tài)理解推進(jìn)到原生視覺(jué)規(guī)劃。它用抽象任務(wù)剝離了復(fù)雜感知因素的干擾，使視覺(jué)規(guī)劃第一次能夠作為一種相對(duì)獨(dú)立的能力被系統(tǒng)檢驗(yàn)。Maze 和 Queen 分別對(duì)應(yīng)局部約束下的連續(xù)規(guī)劃與全局約束下的組合規(guī)劃，而 Coverage、Violation、Pass 以及 MSE 等自動(dòng)指標(biāo)，則進(jìn)一步把視覺(jué)規(guī)劃中原本模糊、主觀的部分轉(zhuǎn)化為可量化、可比較、可擴(kuò)展的實(shí)驗(yàn)對(duì)象。

更重要的是，當(dāng)前圖像編輯模型已經(jīng)展現(xiàn)出一定的視覺(jué)規(guī)劃潛力，尤其是在監(jiān)督微調(diào)后，能夠表現(xiàn)出非平凡的跨尺度、跨幾何泛化；但與此同時(shí)，這種能力依然高度脆弱，在零樣本設(shè)置、強(qiáng)全局約束任務(wù)以及與人類效率對(duì)比中，都暴露出明顯差距。這說(shuō)明，視覺(jué)規(guī)劃并不是現(xiàn)有生成能力的自然延伸，而是需要專門建模、專門訓(xùn)練、專門評(píng)測(cè)的一類核心能力。

因此，未來(lái)我們不僅要關(guān)注模型是否能生成更逼真的圖像、說(shuō)出更流暢的解釋，還要進(jìn)一步追問(wèn)，它是否能夠在圖像空間中完成規(guī)劃、維持約束、形成推理。

作者

周芷穆，作為論文第一作者，就讀于北京郵電大學(xué)物聯(lián)網(wǎng)工程專業(yè)本科。其主要研究方向?yàn)榭臻g智能、多模態(tài)模型和強(qiáng)化學(xué)習(xí)，圍繞空間智能、VLA 決策優(yōu)化與復(fù)雜長(zhǎng)程規(guī)劃等方向在ICLR/AAAI等CCF會(huì)議發(fā)表多篇論文。現(xiàn)與趙波老師合作，將于2026年9月攻讀上海交通大學(xué)博士學(xué)位。

——本篇文章論文作者擁有所有權(quán)，轉(zhuǎn)載請(qǐng)聯(lián)系論文作者

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.