<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Snapchat提出Canvas-to-Image:一張畫布集成 ID、姿態(tài)與布局

      0
      分享至



      Canvas-to-Image 是一個(gè)面向組合式圖像創(chuàng)作的全新框架。它取消了傳統(tǒng)「分散控制」的流程,將身份參考圖、空間布局、姿態(tài)線稿等不同類型的控制信息全部整合在同一個(gè)畫布中。用戶在畫布上放置或繪制的內(nèi)容,會(huì)被模型直接解釋為生成指令,簡(jiǎn)化了圖像生成過(guò)程中的控制流程。



      • 作者:Yusuf Dalva, Guocheng Gordon Qian*, Maya Goldenberg, Tsai-Shien Chen, Kfir Aberman, Sergey Tulyakov, Pinar Yanardag, Kuan-Chieh Jackson Wang
      • 通訊作者:Guocheng Gordon Qian
      • 機(jī)構(gòu):1Snap Inc. 2UC Merced 3Virginia Tech
      • 論文標(biāo)題:Canvas-to-Image: Compositional Image Generation with Multimodal Controls
      • 項(xiàng)目主頁(yè):https://snap-research.github.io/canvas-to-image/
      • arXiv:arxiv.org/abs/2511.21691



      為什么要把控制方式合并到一張畫布上?

      在以往的生成流程中,身份參考、姿態(tài)線稿、布局框等控制方式往往被設(shè)計(jì)成互不相干的獨(dú)立輸入路徑

      例如:

      • 身份控制需要貼一張獨(dú)立的參考圖;
      • 姿態(tài)控制依賴單獨(dú)的骨架圖;
      • 空間布局要再通過(guò)另一個(gè)模塊或附加輸入傳給模型。

      這些控制信號(hào)分別從不同通道進(jìn)入模型,各自擁有獨(dú)立的編碼方式與預(yù)處理邏輯。結(jié)果就是:用戶無(wú)法在畫面的同一位置疊加多種控制信息,也無(wú)法用「一個(gè)局部區(qū)域里的組合提示」來(lái)告訴模型該怎么生成。

      換句話說(shuō),傳統(tǒng)方法的輸入結(jié)構(gòu)是多入口、分散式的,缺乏統(tǒng)一的表達(dá)空間。這使得復(fù)雜場(chǎng)景的構(gòu)建流程變得冗長(zhǎng)且割裂,用戶只能一次提供一種控制,無(wú)法在同一個(gè)圖像區(qū)域上同時(shí)表達(dá)身份 + 姿態(tài) + 位置等組合指令。

      Canvas-to-Image 正是針對(duì)這一結(jié)構(gòu)性限制提出新的方案:所有控制信號(hào)都匯聚到同一張畫布中,由模型在同一個(gè)像素空間內(nèi)理解、組合并執(zhí)行。

      核心方法論



      (a) 多任務(wù)畫布(Multi-Task Canvas)

      Canvas-to-Image 設(shè)計(jì)的關(guān)鍵在于——畫布本身既是 UI,也是模型的輸入。畫布中可以出現(xiàn):

      • 一小塊真實(shí)人物的圖像,用于指定人物;
      • 一組簡(jiǎn)單的骨架線條,用來(lái)調(diào)節(jié)肢體姿勢(shì);
      • 框選區(qū)域,用來(lái)定義人物或物體應(yīng)處的位置。

      這些異構(gòu)視覺(jué)符號(hào)中包含的空間關(guān)系、語(yǔ)義信息,都由 VLM-Diffusion(基于 Qwen-Image-Edit)直接解析。

      在訓(xùn)練過(guò)程中,Canvas-to-Image 的多任務(wù)畫布從跨幀圖像集(cross-frame image sets)中自動(dòng)生成。具體流程如下:

      • 隨機(jī)選取一幀作為目標(biāo)圖像。
      • 從其他幀中抽取目標(biāo)幀所需要不同的視覺(jué)元素(人物片段,背景,姿態(tài)結(jié)構(gòu),框選區(qū)域等)。
      • 將抽取的視覺(jué)元素,按照目標(biāo)幀中的相應(yīng)位置,擺放在輸入畫布中。

      這樣的跨幀采樣策略會(huì)在輸入畫布中自然引入姿態(tài)、光照、表情等方面的顯著差異,使得輸入提示與目標(biāo)圖像之間不存在可直接復(fù)用的像素對(duì)應(yīng)關(guān)系。由此,模型無(wú)法依賴簡(jiǎn)單的拷貝機(jī)制來(lái)完成訓(xùn)練任務(wù),而必須學(xué)習(xí)更抽象的語(yǔ)義關(guān)聯(lián)與結(jié)構(gòu)映射。這一設(shè)計(jì)在訓(xùn)練階段有效規(guī)避了「抄輸入」的捷徑,從根本上避免了模型在推理階段出現(xiàn) copy-paste 式的生成行為。

      為了保持訓(xùn)練的簡(jiǎn)潔性,在每一次訓(xùn)練中,模型只會(huì)接收到一種隨機(jī)選定的控制模態(tài)(例如空間布局、姿態(tài)骨架或邊界框)。這樣可以讓模型分別學(xué)會(huì)獨(dú)立理解不同類型的控制提示,并在推理階段自然實(shí)現(xiàn)多控制的組合能力。

      (b) 多控制推理

      在推理階段,Canvas-to-Image 允許用戶在同一張畫布上靈活組合多種控制模態(tài),例如同時(shí)提供身份參考區(qū)域、姿態(tài)骨架以及空間布局框,從而實(shí)現(xiàn)復(fù)雜的多控制場(chǎng)景生成。與傳統(tǒng)「單一路徑控制」的方案不同,用戶無(wú)需在不同模塊之間切換或分階段注入條件,而是通過(guò)統(tǒng)一畫布一次性給出所有約束信號(hào)。

      從學(xué)習(xí)機(jī)制上看,模型在訓(xùn)練過(guò)程中僅接觸到單一控制模態(tài)的樣本:每個(gè)訓(xùn)練樣本只隨機(jī)激活其中一種控制形式(身份、姿態(tài)或位置),使模型分別掌握對(duì)單獨(dú)控制信號(hào)的理解與對(duì)齊能力。值得注意的是,即便在數(shù)據(jù)中并不存在顯式標(biāo)注的「多模態(tài)組合控制」樣本,模型在推理階段仍然能夠在統(tǒng)一畫布中同時(shí)解析并整合多種控制信號(hào):它會(huì)在身份參考的約束下保持人物外觀一致性,在姿態(tài)骨架約束下生成結(jié)構(gòu)合理的姿態(tài),并在布局框條件下遵循全局空間排布。

      這一現(xiàn)象表明,模型在統(tǒng)一畫布表示的框架下,學(xué)到的并不是對(duì)某一種控制模態(tài)的簡(jiǎn)單記憶,而是對(duì)「畫布上局部區(qū)域與目標(biāo)圖像結(jié)構(gòu)之間關(guān)系」的更高層次建模能力。換言之,模型在僅依賴單模態(tài)訓(xùn)練的前提下,仍然展現(xiàn)出對(duì)未見(jiàn)過(guò)控制組合的泛化能力:在推理中面對(duì)新的、復(fù)雜的多控制配置時(shí),依然能夠生成結(jié)構(gòu)一致、外觀可信且各控制信號(hào)相互兼容的高質(zhì)量結(jié)果。這也從實(shí)驗(yàn)角度驗(yàn)證了統(tǒng)一畫布設(shè)計(jì)在提升組合式可控生成能力方面的有效性。

      實(shí)驗(yàn)結(jié)果

      多控制組合(Multi-Control Composition)

      Canvas-to-Image 能夠同時(shí)處理身份、姿態(tài)和布局框,而基線方法往往會(huì)失敗。Canvas-to-Image 能:

      • 遵循畫布中給定的姿態(tài)與空間約束;
      • 保持人物外觀與參考圖一致;
      • 在多種控制疊加時(shí)維持整體畫面的連貫性與合理性。



      身份 + 物體組合

      當(dāng)畫布中同時(shí)包含人物提示和物體提示時(shí),Canvas-to-Image 不會(huì)把兩者當(dāng)作獨(dú)立元素簡(jiǎn)單并置。模型能夠理解兩者之間應(yīng)有的空間與語(yǔ)義關(guān)系,因而會(huì)生成具有自然接觸、合理互動(dòng)的場(chǎng)景。

      此外,在多種控制疊加的情況下,Canvas-to-Image 仍能保持:

      • 人物外觀與參考圖一致;
      • 物體的形狀、材質(zhì)和語(yǔ)義保持穩(wěn)定;
      • 人物與物體之間的空間一致性與幾何邏輯不被破壞。

      因此即便在復(fù)雜的組合控制設(shè)置下,生成的畫面也能呈現(xiàn)出連貫、可信的互動(dòng)效果,而不是常見(jiàn)的「貼圖式合成感」。



      多層次場(chǎng)景:前景 + 背景

      在給定一張背景圖的情況下,Canvas-to-Image 可以通過(guò)放置參考圖或標(biāo)注邊界框的方式,將人物或物體自然地融入場(chǎng)景。模型會(huì)根據(jù)畫布中的提示自動(dòng)調(diào)整空間關(guān)系,使插入元素在位置、光照和整體氛圍上與背景保持一致,呈現(xiàn)近乎原生的融合效果。



      消融研究

      我們系統(tǒng)地測(cè)試了當(dāng)逐步添加控制時(shí)模型的表現(xiàn):

      • 僅身份控制:模型能生成人物,但姿態(tài)和位置隨機(jī);
      • + 姿態(tài)控制:模型學(xué)會(huì)同時(shí)控制身份和姿態(tài);
      • + 空間布局:模型能完全控制身份、姿態(tài)和位置。

      關(guān)鍵發(fā)現(xiàn):雖然訓(xùn)練時(shí)使用單任務(wù)畫布,但模型自然學(xué)會(huì)了在推理時(shí)組合多種控制——這種涌現(xiàn)能力驗(yàn)證了我們的設(shè)計(jì)理念。



      總結(jié)

      Canvas-to-Image 的核心價(jià)值是把多模態(tài)的生成控制方式全部圖形化,讓復(fù)雜場(chǎng)景的構(gòu)建回歸到最直觀的方式:在畫布上擺放、畫、框,就能讓模型生成對(duì)應(yīng)的結(jié)構(gòu)化、真實(shí)感強(qiáng)的畫面。統(tǒng)一畫布 + 多模態(tài)控制的范式,將有望成為下一代創(chuàng)作工具的基礎(chǔ)界面形態(tài)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      英超3隊(duì)進(jìn)決賽!維拉4-1逆轉(zhuǎn)森林,水晶宮5-2雙殺,有望創(chuàng)1神跡

      英超3隊(duì)進(jìn)決賽!維拉4-1逆轉(zhuǎn)森林,水晶宮5-2雙殺,有望創(chuàng)1神跡

      體育知多少
      2026-05-08 07:24:35
      申裕斌出局滿臉沮喪!孫穎莎安慰她超暖心 韓媒:難越乒壇高墻

      申裕斌出局滿臉沮喪!孫穎莎安慰她超暖心 韓媒:難越乒壇高墻

      顏小白的籃球夢(mèng)
      2026-05-08 07:51:33
      NBA季后賽|湖人再度不敵雷霆,賽后全隊(duì)找裁判理論

      NBA季后賽|湖人再度不敵雷霆,賽后全隊(duì)找裁判理論

      北青網(wǎng)-北京青年報(bào)
      2026-05-08 15:47:14
      生下三胎僅6個(gè)月,方媛官宣喜訊,全網(wǎng)恭喜,讓郭富城也始料未及

      生下三胎僅6個(gè)月,方媛官宣喜訊,全網(wǎng)恭喜,讓郭富城也始料未及

      一盅情懷
      2026-05-08 10:58:52
      98.6%!挪威基本沒(méi)人買油車了!

      98.6%!挪威基本沒(méi)人買油車了!

      王煜全
      2026-05-06 15:16:01
      成都“牽手門”事件,女主現(xiàn)狀曝光:丟掉國(guó)企飯碗后她后悔了么?

      成都“牽手門”事件,女主現(xiàn)狀曝光:丟掉國(guó)企飯碗后她后悔了么?

      一口娛樂(lè)
      2026-05-08 14:43:37
      萬(wàn)萬(wàn)沒(méi)想到!“小馬云”范小勤成年首播,模樣大變認(rèn)不出

      萬(wàn)萬(wàn)沒(méi)想到!“小馬云”范小勤成年首播,模樣大變認(rèn)不出

      雷科技
      2026-05-08 15:55:04
      96年,張萬(wàn)年得知有一名戰(zhàn)士當(dāng)了和尚,問(wèn)他道:誰(shuí)把你逼上山的

      96年,張萬(wàn)年得知有一名戰(zhàn)士當(dāng)了和尚,問(wèn)他道:誰(shuí)把你逼上山的

      鍋鍋愛(ài)歷史
      2026-04-04 14:29:00
      湖人107-125不敵雷霆根源找到,賽后楊毅點(diǎn)評(píng)一針見(jiàn)血

      湖人107-125不敵雷霆根源找到,賽后楊毅點(diǎn)評(píng)一針見(jiàn)血

      煙潯渺渺
      2026-05-08 14:49:35
      央視軍事官宣:中國(guó)首艘核動(dòng)力航母正式確認(rèn)

      央視軍事官宣:中國(guó)首艘核動(dòng)力航母正式確認(rèn)

      武器鑒賞
      2026-05-08 13:23:34
      廳級(jí)干部已經(jīng)成為了高危職業(yè)

      廳級(jí)干部已經(jīng)成為了高危職業(yè)

      風(fēng)向觀察
      2026-05-04 14:17:07
      武漢地鐵“無(wú)人行李箱墻”沖上熱搜!網(wǎng)友:太戳人了……

      武漢地鐵“無(wú)人行李箱墻”沖上熱搜!網(wǎng)友:太戳人了……

      環(huán)球網(wǎng)資訊
      2026-05-08 08:09:12
      好日子到頭了?許家印背后的"保護(hù)傘",終于被重罰了

      好日子到頭了?許家印背后的"保護(hù)傘",終于被重罰了

      瀲滟晴方DAY
      2026-05-07 12:12:51
      你知道中國(guó)的大地原點(diǎn)位于何處嗎?經(jīng)國(guó)家測(cè)量,就在一個(gè)村莊上

      你知道中國(guó)的大地原點(diǎn)位于何處嗎?經(jīng)國(guó)家測(cè)量,就在一個(gè)村莊上

      南書房
      2026-05-08 07:25:06
      俄方憤怒質(zhì)問(wèn)“你們站哪邊”,亞美尼亞:在這個(gè)問(wèn)題上不是俄盟友

      俄方憤怒質(zhì)問(wèn)“你們站哪邊”,亞美尼亞:在這個(gè)問(wèn)題上不是俄盟友

      觀察者網(wǎng)
      2026-05-08 12:20:07
      手機(jī)App越來(lái)越卡?問(wèn)題可能出在服務(wù)器

      手機(jī)App越來(lái)越卡?問(wèn)題可能出在服務(wù)器

      薛定諤的BUG
      2026-05-07 14:46:21
      章子怡沒(méi)想到,清空賬號(hào)、劃清界限的森林北,揭開(kāi)汪峰僅剩的體面

      章子怡沒(méi)想到,清空賬號(hào)、劃清界限的森林北,揭開(kāi)汪峰僅剩的體面

      好賢觀史記
      2026-05-08 15:53:17
      年薪百萬(wàn)跳樓!90后游戲天才熬死在寒冬,國(guó)產(chǎn)3A封神他卻看不見(jiàn)

      年薪百萬(wàn)跳樓!90后游戲天才熬死在寒冬,國(guó)產(chǎn)3A封神他卻看不見(jiàn)

      青眼財(cái)經(jīng)
      2026-04-16 22:04:54
      富商馬清鏗情婦喊話原配妻子,恭喜對(duì)方解脫,原配至今沉默沒(méi)離婚

      富商馬清鏗情婦喊話原配妻子,恭喜對(duì)方解脫,原配至今沉默沒(méi)離婚

      樹娃
      2026-05-06 09:19:57
      東航原董事長(zhǎng)劉紹勇被提起公訴

      東航原董事長(zhǎng)劉紹勇被提起公訴

      界面新聞
      2026-05-08 10:00:52
      2026-05-08 16:31:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12945文章數(shù) 142646關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎(jiǎng)金600萬(wàn) 工服成相親神器

      頭條要聞

      向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

      頭條要聞

      向?qū)酥芯刃迅叻椿杳耘臃丛庹茡?女子否認(rèn)"裝暈"

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂(lè)要聞

      古天樂(lè)被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      一覺(jué)醒來(lái),美伊又打起來(lái)了

      汽車要聞

      智能雙艙大五座SUV 樂(lè)道L80將于5月15日正式上市

      態(tài)度原創(chuàng)

      教育
      家居
      藝術(shù)
      時(shí)尚
      軍事航空

      教育要聞

      體育是“五育并舉”的重要基石。在甘肅省隴南市武都區(qū)蓮湖小學(xué),新近引入的智慧體育設(shè)施讓教學(xué)工具得到升級(jí)...

      家居要聞

      流動(dòng)的尺度 打破家的形式主義

      藝術(shù)要聞

      探索施密德的油畫,感受無(wú)法抵擋的藝術(shù)魅力!

      海魂衫搭配白色,更解暑!

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢(shì)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成人网站国产| 亚洲成AV人片在线观看麦芽| 一二三区国产精品久久| 国产免费午夜福利757| 国内自拍偷拍| 在线观看无码av网站永久免费| 国产在线欧美日韩精品一区 | 欧美最猛性xxxxx大叫| 郧西县| 久久99精品视频| 日韩视频在线观看一区| 在线观看国产成人AV天堂| 91丨国产丨精品丨丝袜| 色综合久久中文综合网| 国产熟妇疯狂4p交在线播放| 中文字幕av久久爽Av| 久久国产精99精产国高潮| 国产美女视频久久| 日韩A人毛片精品无人区乱码 | 日日艹| 99久热这里只有精品免费| 国产丝袜打飞机免费在线| 少妇人妻88久久中文字幕| 97人人爽| 亚洲av不卡无码| 性无码免费一区二区三区在线网站| 无码精品人妻一区二区三区人妻斩 | 亚洲第一色区| 激情五月亚洲中文字幕| 男女啪啪永久免费网站| 中国无码mv| 中文字幕天天色色干干| 精品国产aⅴ无码一区二区| 白嫩少妇喷水正在播放| 超碰aⅴ人人做人人爽欧美| 成全影院电视剧在线观看| 日韩国产精品中文字幕| 亚洲国产欧美日本视频| 欧美亚洲一区在线| www三级片| 伊在人亚洲香蕉精品播放|