網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Snapchat提出Canvas-to-Image：一張畫布集成 ID、姿態(tài)與布局

2025-12-09 14:14:17　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

Canvas-to-Image 是一個(gè)面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程，將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個(gè)畫布中。用戶在畫布上放置或繪制的內(nèi)容，會(huì)被模型直接解釋為生成指令，簡(jiǎn)化了圖像生成過(guò)程中的控制流程。

作者：Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
通訊作者：Guocheng Gordon Qian
機(jī)構(gòu)：1Snap Inc. 2UC Merced 3Virginia Tech
論文標(biāo)題：Canvas-to-Image: Compositional Image Generation with Multimodal Controls
項(xiàng)目主頁(yè)：https://snap-research.github.io/canvas-to-image/
arXiv：arxiv.org/abs/2511.21691

為什么要把控制方式合并到一張畫布上？

在以往的生成流程中，身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計(jì)成互不相干的獨(dú)立輸入路徑

例如：

身份控制需要貼一張獨(dú)立的參考圖；
姿態(tài)控制依賴單獨(dú)的骨架圖；
空間布局要再通過(guò)另一個(gè)模塊或附加輸入傳給模型。

這些控制信號(hào)分別從不同通道進(jìn)入模型，各自擁有獨(dú)立的編碼方式與預(yù)處理邏輯。結(jié)果就是：用戶無(wú)法在畫面的同一位置疊加多種控制信息，也無(wú)法用「一個(gè)局部區(qū)域里的組合提示」來(lái)告訴模型該怎么生成。

換句話說(shuō)，傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的，缺乏統(tǒng)一的表達(dá)空間。這使得復(fù)雜場(chǎng)景的構(gòu)建流程變得冗長(zhǎng)且割裂，用戶只能一次提供一種控制，無(wú)法在同一個(gè)圖像區(qū)域上同時(shí)表達(dá)身份 + 姿態(tài) + 位置等組合指令。

Canvas-to-Image 正是針對(duì)這一結(jié)構(gòu)性限制提出新的方案：所有控制信號(hào)都匯聚到同一張畫布中，由模型在同一個(gè)像素空間內(nèi)理解、組合并執(zhí)行。

核心方法論

(a) 多任務(wù)畫布（Multi-Task Canvas）

Canvas-to-Image 設(shè)計(jì)的關(guān)鍵在于——畫布本身既是 UI，也是模型的輸入。畫布中可以出現(xiàn)：

一小塊真實(shí)人物的圖像，用于指定人物；
一組簡(jiǎn)單的骨架線條，用來(lái)調(diào)節(jié)肢體姿勢(shì)；
框選區(qū)域，用來(lái)定義人物或物體應(yīng)處的位置。

這些異構(gòu)視覺(jué)符號(hào)中包含的空間關(guān)系、語(yǔ)義信息，都由 VLM-Diffusion（基于 Qwen-Image-Edit）直接解析。

在訓(xùn)練過(guò)程中，Canvas-to-Image 的多任務(wù)畫布從跨幀圖像集（cross-frame image sets）中自動(dòng)生成。具體流程如下：

隨機(jī)選取一幀作為目標(biāo)圖像。
從其他幀中抽取目標(biāo)幀所需要不同的視覺(jué)元素（人物片段，背景，姿態(tài)結(jié)構(gòu)，框選區(qū)域等）。
將抽取的視覺(jué)元素，按照目標(biāo)幀中的相應(yīng)位置，擺放在輸入畫布中。

這樣的跨幀采樣策略會(huì)在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異，使得輸入提示與目標(biāo)圖像之間不存在可直接復(fù)用的像素對(duì)應(yīng)關(guān)系。由此，模型無(wú)法依賴簡(jiǎn)單的拷貝機(jī)制來(lái)完成訓(xùn)練任務(wù)，而必須學(xué)習(xí)更抽象的語(yǔ)義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計(jì)在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑，從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

為了保持訓(xùn)練的簡(jiǎn)潔性，在每一次訓(xùn)練中，模型只會(huì)接收到一種隨機(jī)選定的控制模態(tài)（例如空間布局、姿態(tài)骨架或邊界框）。這樣可以讓模型分別學(xué)會(huì)獨(dú)立理解不同類型的控制提示，并在推理階段自然實(shí)現(xiàn)多控制的組合能力。

(b) 多控制推理

在推理階段，Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài)，例如同時(shí)提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框，從而實(shí)現(xiàn)復(fù)雜的多控制場(chǎng)景生成。與傳統(tǒng)「單一路徑控制」的方案不同，用戶無(wú)需在不同模塊之間切換或分階段注入條件，而是通過(guò)統(tǒng)一畫布一次性給出所有約束信號(hào)。

從學(xué)習(xí)機(jī)制上看，模型在訓(xùn)練過(guò)程中僅接觸到單一控制模態(tài)的樣本：每個(gè)訓(xùn)練樣本只隨機(jī)激活其中一種控制形式（身份、姿態(tài)或位置），使模型分別掌握對(duì)單獨(dú)控制信號(hào)的理解與對(duì)齊能力。值得注意的是，即便在數(shù)據(jù)中并不存在顯式標(biāo)注的「多模態(tài)組合控制」樣本，模型在推理階段仍然能夠在統(tǒng)一畫布中同時(shí)解析并整合多種控制信號(hào)：它會(huì)在身份參考的約束下保持人物外觀一致性，在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài)，并在布局框條件下遵循全局空間排布。

這一現(xiàn)象表明，模型在統(tǒng)一畫布表示的框架下，學(xué)到的并不是對(duì)某一種控制模態(tài)的簡(jiǎn)單記憶，而是對(duì)「畫布上局部區(qū)域與目標(biāo)圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之，模型在僅依賴單模態(tài)訓(xùn)練的前提下，仍然展現(xiàn)出對(duì)未見(jiàn)過(guò)控制組合的泛化能力：在推理中面對(duì)新的、復(fù)雜的多控制配置時(shí)，依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號(hào)相互兼容的高質(zhì)量結(jié)果。這也從實(shí)驗(yàn)角度驗(yàn)證了統(tǒng)一畫布設(shè)計(jì)在提升組合式可控生成能力方面的有效性。

實(shí)驗(yàn)結(jié)果

多控制組合（Multi-Control Composition）

Canvas-to-Image 能夠同時(shí)處理身份、姿態(tài)和布局框，而基線方法往往會(huì)失敗。Canvas-to-Image 能：

遵循畫布中給定的姿態(tài)與空間約束；
保持人物外觀與參考圖一致；
在多種控制疊加時(shí)維持整體畫面的連貫性與合理性。

身份 + 物體組合

當(dāng)畫布中同時(shí)包含人物提示和物體提示時(shí)，Canvas-to-Image 不會(huì)把兩者當(dāng)作獨(dú)立元素簡(jiǎn)單并置。模型能夠理解兩者之間應(yīng)有的空間與語(yǔ)義關(guān)系，因而會(huì)生成具有自然接觸、合理互動(dòng)的場(chǎng)景。

此外，在多種控制疊加的情況下，Canvas-to-Image 仍能保持：

人物外觀與參考圖一致；
物體的形狀、材質(zhì)和語(yǔ)義保持穩(wěn)定；
人物與物體之間的空間一致性與幾何邏輯不被破壞。

因此即便在復(fù)雜的組合控制設(shè)置下，生成的畫面也能呈現(xiàn)出連貫、可信的互動(dòng)效果，而不是常見(jiàn)的「貼圖式合成感」。

多層次場(chǎng)景：前景 + 背景

在給定一張背景圖的情況下，Canvas-to-Image 可以通過(guò)放置參考圖或標(biāo)注邊界框的方式，將人物或物體自然地融入場(chǎng)景。模型會(huì)根據(jù)畫布中的提示自動(dòng)調(diào)整空間關(guān)系，使插入元素在位置、光照和整體氛圍上與背景保持一致，呈現(xiàn)近乎原生的融合效果。

消融研究

我們系統(tǒng)地測(cè)試了當(dāng)逐步添加控制時(shí)模型的表現(xiàn)：

僅身份控制：模型能生成人物，但姿態(tài)和位置隨機(jī)；
+ 姿態(tài)控制：模型學(xué)會(huì)同時(shí)控制身份和姿態(tài)；
+ 空間布局：模型能完全控制身份、姿態(tài)和位置。

關(guān)鍵發(fā)現(xiàn)：雖然訓(xùn)練時(shí)使用單任務(wù)畫布，但模型自然學(xué)會(huì)了在推理時(shí)組合多種控制——這種涌現(xiàn)能力驗(yàn)證了我們的設(shè)計(jì)理念。

總結(jié)

Canvas-to-Image 的核心價(jià)值是把多模態(tài)的生成控制方式全部圖形化，讓復(fù)雜場(chǎng)景的構(gòu)建回歸到最直觀的方式：在畫布上擺放、畫、框，就能讓模型生成對(duì)應(yīng)的結(jié)構(gòu)化、真實(shí)感強(qiáng)的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式，將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.