<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      視頻版Vision-Banana來了?大一統(tǒng)框架UniVidX刷新視頻任務SOTA

      0
      分享至



      近日,由香港科技大學 MMLab 及合作團隊完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被計算機圖形學頂級會議 SIGGRAPH 2026 正式接收。



      • 論文地址:https://arxiv.org/pdf/2605.00658
      • 代碼:https://github.com/houyuanchen111/UniVidX
      • 項目主頁:https://huggingface.co/houyuanchen/UniVidX



      圖 1:該圖系統(tǒng)性展示了 UniVidX 在多模態(tài)視頻生成中的統(tǒng)一建模能力,覆蓋 Text→X、X→X 及 Text&X→X 三類核心范式。上半部分為 UniVid-Intrinsic,支持逆向渲染、重打光、Intrinsic 生成等任務;下半部分為 UniVid-Alpha,支持 RGBA 生成、視頻摳圖與視頻 inpainting 等任務。結果表明,單一框架即可覆蓋原本需要多個獨立模型完成的復雜視頻圖形任務。

      該工作提出了一個面向多模態(tài)視頻生成與理解的一體化統(tǒng)一框架 UniVidX,在多項視頻圖形任務上達到或刷新當前最優(yōu)性能,標志著視頻擴散模型在通用化方向上的重要進展。



      圖 2:該圖展示了 UniVidX 的核心結構,包括隨機條件掩碼、解耦門控 LoRA 以及跨模態(tài)自注意力。不同模態(tài)在訓練中被動態(tài)劃分為條件或目標,從而實現(xiàn)全方向生成能力。通過共享注意力機制與模塊化參數(shù)適配,模型在保證一致性的同時有效避免模態(tài)間干擾。

      長期以來,視頻圖形學與視頻生成領域的發(fā)展呈現(xiàn)出明顯的任務割裂。不同問題往往依賴獨立建模,例如視頻逆向渲染、視頻重打光、視頻摳圖、視頻 inpainting 以及文生視頻等任務,通常需要分別訓練專用模型來完成。

      這種以固定輸入——輸出映射為核心的建模方式,限制了模型對復雜真實場景的適應能力,也阻礙了跨任務知識的共享與遷移。在實際應用中,視頻內(nèi)容往往涉及多種模態(tài)與多種操作的組合,傳統(tǒng)方法難以提供統(tǒng)一且高效的解決路徑。



      圖 3:該圖對比了 UniVid-Intrinsic 與現(xiàn)有方法在 Intrinsic 生成任務中的表現(xiàn)。相比基線方法存在的模態(tài)錯位與細節(jié)缺失,UniVidX 在 RGB、反照率與法線之間保持了更高的一致性。結果表明,該方法能夠穩(wěn)定生成具有物理一致性的多模態(tài)視頻序列。

      針對這一問題,UniVidX 從建模范式上進行了系統(tǒng)性重構。該框架的核心思想,是將不同視頻圖形任務統(tǒng)一為多模態(tài)條件生成問題,使任意模態(tài)既可以作為輸入條件,也可以作為生成目標,從而實現(xiàn)「任意模態(tài)到任意模態(tài)」的統(tǒng)一建模能力。在這一統(tǒng)一空間中,RGB 視頻、法線、反照率、光照、Alpha 通道以及前景背景等信息不再彼此割裂,而是通過共享的生成機制進行協(xié)同建模。



      圖 4:該圖展示了 UniVidX 在 Intrinsic 生成和 RGBA 生成任務中的定量評測。無論在用戶評分還是時間一致性指標上,UniVidX 均優(yōu)于現(xiàn)有方法。值得注意的是,該方法可實現(xiàn)多層分解生成,體現(xiàn)出更強的統(tǒng)一建模能力。

      為了實現(xiàn)這一統(tǒng)一能力,UniVidX 在模型結構與訓練機制上提出了一系列關鍵設計。

      首先,通過隨機條件掩碼機制,模型在訓練過程中不斷改變輸入與輸出模態(tài)的劃分,從而學習全方向的生成關系,而非固定映射。這一機制使模型具備更強的泛化能力,可以適應多樣化的任務需求。

      其次,通過解耦門控 LoRA,模型為不同模態(tài)分配獨立參數(shù)空間,并在對應模態(tài)作為生成目標時動態(tài)激活,從而有效避免不同模態(tài)之間的參數(shù)干擾,同時保留預訓練擴散模型的原始生成能力。

      此外,跨模態(tài)自注意力機制通過在不同模態(tài)之間共享信息,實現(xiàn)了幾何、光照與語義層面的統(tǒng)一約束,顯著提升了生成結果的一致性與穩(wěn)定性。



      圖 5:該表系統(tǒng)比較了 UniVid-Intrinsic 與多種代表性方法在反照率、光照、法線及正向渲染任務上的性能。UniVidX 在 PSNR、SSIM 及 LPIPS 等指標上整體領先。結果驗證了統(tǒng)一框架在多任務場景中的綜合優(yōu)勢。

      在具體實現(xiàn)上,研究團隊基于該框架構建了兩個代表性模型,用于覆蓋不同類型的視頻圖形任務。UniVid-Intrinsic 面向 Intrinsic,可統(tǒng)一處理 RGB、反照率、輻照度和法線等模態(tài),支持文本到 Intrinsic 生成、視頻逆向渲染、正向渲染以及視頻重打光等任務。

      與此同時,UniVid-Alpha 面向視頻層級分解與合成,統(tǒng)一建模混合視頻、前景、背景與 Alpha 通道,支持視頻摳圖、視頻 inpainting 以及前景與背景替換等關鍵應用。兩個模型在統(tǒng)一框架下共同支持 Text→X、X→X 以及 Text&X→X 三類生成范式,總計覆蓋十五類典型視頻任務,驗證了該方法的廣泛適用性。



      圖 6:該圖展示了不同方法在逆向渲染和正向渲染任務中的視覺效果。相比其他方法存在的偽影與細節(jié)丟失,UniVidX 生成結果更接近真實分布。尤其在光照一致性與幾何細節(jié)方面,表現(xiàn)出更高的穩(wěn)定性與精度。

      值得關注的是,UniVidX 在數(shù)據(jù)效率方面表現(xiàn)出顯著優(yōu)勢。實驗結果表明,即使在不足千條視頻的數(shù)據(jù)規(guī)模下,模型仍能夠在多個任務上達到或超過現(xiàn)有最優(yōu)方法,并在真實場景與分布外數(shù)據(jù)上保持良好的泛化能力。這一現(xiàn)象表明,該方法并非依賴大規(guī)模任務數(shù)據(jù)進行學習,而是通過合理的結構設計與訓練策略,有效激活并利用了預訓練視頻擴散模型中蘊含的動態(tài)世界先驗。



      圖 7:該表展示了 UniVidX 在真實世界 MAW 數(shù)據(jù)集上的反照率估計性能。盡管僅在合成數(shù)據(jù)上訓練,模型仍取得最佳強度誤差指標,并在色度誤差上保持競爭力。結果表明該方法具備良好的跨域泛化能力。

      在系統(tǒng)評測方面,UniVidX 在多個關鍵任務中取得領先表現(xiàn)。在視頻逆向渲染與正向渲染任務中,模型在 PSNR、SSIM 及感知指標上整體優(yōu)于現(xiàn)有擴散模型方法;在法線估計任務中,在顯著減少訓練數(shù)據(jù)規(guī)模的情況下仍達到接近甚至優(yōu)于專用模型的性能;在視頻摳圖任務中,作為無需額外輔助信息的模型,其結果超過多種依賴 mask 輸入的方法。同時,在文本驅(qū)動生成任務中,模型在視覺質(zhì)量、語義一致性以及跨模態(tài)一致性方面均獲得更高評價,且在時間一致性方面顯著優(yōu)于圖像級方法。



      圖 8:該表對比了 UniVidX 與多種專用法線估計方法的性能。盡管訓練數(shù)據(jù)規(guī)模顯著更小,UniVidX 仍達到接近甚至優(yōu)于部分專用模型的精度。該結果體現(xiàn)了利用擴散先驗進行統(tǒng)一建模的高數(shù)據(jù)效率優(yōu)勢。

      從更高層面來看,UniVidX 的價值不僅體現(xiàn)在單項任務性能的提升上,更體現(xiàn)在其系統(tǒng)能力的整合與擴展。由于所有模態(tài)共享統(tǒng)一的生成框架,不同任務可以在同一模型內(nèi)部靈活組合,從而支持更加復雜的視頻編輯與內(nèi)容生成流程。

      例如,可以先進行視頻逆向渲染獲取物理屬性,再基于文本進行重打光或材質(zhì)編輯;也可以通過 Alpha 分解實現(xiàn)視頻 inpainting 與背景替換。這種多模態(tài)可組合的能力,使 UniVidX 從單一模型擴展為面向復雜應用的統(tǒng)一視頻圖形引擎。



      圖 9:該表展示了 UniVid-Alpha 在視頻摳圖任務上的定量表現(xiàn)。作為無需輔助 mask 輸入的方法,UniVidX 在 MAD、MSE 等關鍵指標上優(yōu)于多種現(xiàn)有方法。結果說明擴散模型先驗能夠有效替代傳統(tǒng)顯式分割信號。

      總體而言,UniVidX 的提出標志著視頻擴散模型正在從單一任務工具向通用視頻圖形基礎模型轉(zhuǎn)變。該工作驗證了一個重要方向:在具備強大預訓練先驗的前提下,通過合理的多模態(tài)建模機制,可以將傳統(tǒng)圖形學中的分解、估計、生成與編輯任務統(tǒng)一到同一框架中。這一進展不僅為視頻生成與理解提供了新的技術路徑,也為自動駕駛仿真、具身智能、影視制作等領域的實際應用奠定了重要基礎。

      作者介紹


      本文第一作者為南京大學本科生陳厚源,即將入學香港科技大學 MMLab 開展研究。本文通訊作者為香港科技大學 MMLab 饒安逸老師。值得一提的是,斯坦福大學博士生 Lvmin Zhang 也是本文作者之一,他此前曾與饒安逸老師合作完成 ControlNet、IC-Light 等代表性工作,其中 ControlNet 曾獲 ICCV Marr Prize。此外,清華大學趙昊老師也為該工作提供了重要指導,共同推動了項目的完成。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

      千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

      情感大頭說說
      2026-04-24 12:46:24
      “小馬云”18歲成年首播,直播間和女生熱吻,稱想找個老婆

      “小馬云”18歲成年首播,直播間和女生熱吻,稱想找個老婆

      逍遙浪騰云
      2026-05-11 14:09:53
      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      朱可夫晚年回憶:當年德軍能從莫斯科撤走,皆因斯大林的一道指令

      飯小妹說歷史
      2026-05-11 10:25:07
      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      阿鳧愛吐槽
      2026-05-11 22:13:02
      日本人怒罵張本智和:和松島輝空都是廢物,戶上直接被教練開罵

      日本人怒罵張本智和:和松島輝空都是廢物,戶上直接被教練開罵

      何蕥室內(nèi)設計
      2026-05-11 16:08:35
      難以置信!上海雇主怒斥保姆打開全屋燈光“費電”,背后真相扎心

      難以置信!上海雇主怒斥保姆打開全屋燈光“費電”,背后真相扎心

      火山詩話
      2026-05-11 06:42:40
      女人有錢沒錢,一眼就能看出來:沒錢的女人,大多有這三個窮習慣

      女人有錢沒錢,一眼就能看出來:沒錢的女人,大多有這三個窮習慣

      時尚的弄潮
      2026-05-11 20:23:18
      晚年最該戒掉的,不是煙酒,而是這四樣

      晚年最該戒掉的,不是煙酒,而是這四樣

      大熊歡樂坊
      2026-04-03 01:01:03
      42歲李宇春不婚真相曝光:不是沒人要,是根本不需要!

      42歲李宇春不婚真相曝光:不是沒人要,是根本不需要!

      南萬說娛26
      2026-05-09 10:46:28
      不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

      不查不知道一查嚇一跳,掌管少林寺38年的釋永信,私下到底多享受

      凡知
      2025-08-16 09:25:44
      黃金還沒跌到位

      黃金還沒跌到位

      新浪財經(jīng)
      2026-05-12 00:44:22
      603959,被證監(jiān)會立案!

      603959,被證監(jiān)會立案!

      中國基金報
      2026-05-11 23:02:27
      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      紙鳶奇譚
      2026-04-13 16:06:54
      調(diào)查:諾伊爾問題分裂德國足壇

      調(diào)查:諾伊爾問題分裂德國足壇

      綠茵情報局
      2026-05-11 20:48:46
      香港游泳名將何詩蓓官宣戀情,事業(yè)情場得意,與荷蘭隊友甜蜜出游

      香港游泳名將何詩蓓官宣戀情,事業(yè)情場得意,與荷蘭隊友甜蜜出游

      體娛一家親
      2026-05-11 21:33:10
      國產(chǎn)晶圓代工最大并購!中芯國際406億收購中芯北方今日上會

      國產(chǎn)晶圓代工最大并購!中芯國際406億收購中芯北方今日上會

      快科技
      2026-05-11 15:20:05
      震驚世界  美國校園槍擊慘案  一共 13 人死亡

      震驚世界 美國校園槍擊慘案 一共 13 人死亡

      那些看得見的老照片
      2026-04-20 07:00:08
      起風了!特朗普登上專機前,鄭麗文劃下紅線:不許支持“臺獨”

      起風了!特朗普登上專機前,鄭麗文劃下紅線:不許支持“臺獨”

      共工之錨
      2026-05-11 22:28:29
      《主角》開播收獲超高口碑,37歲女配實力出圈,完勝張嘉益劉浩存

      《主角》開播收獲超高口碑,37歲女配實力出圈,完勝張嘉益劉浩存

      阿鳧愛吐槽
      2026-05-12 03:13:57
      油價突變!5月12日柴油汽油價格,新一輪國內(nèi)油價調(diào)整將大幅降價

      油價突變!5月12日柴油汽油價格,新一輪國內(nèi)油價調(diào)整將大幅降價

      有料財經(jīng)
      2026-05-11 22:27:02
      2026-05-12 04:04:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12970文章數(shù) 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      母女二人一年用水量高達400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      宗馥莉罷免銷售負責人 部分業(yè)務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      時尚
      房產(chǎn)
      旅游
      藝術
      軍事航空

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      房產(chǎn)要聞

      產(chǎn)業(yè)賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      旅游要聞

      打卡同色系風景 帶火城市微旅行

      藝術要聞

      震撼!Nicole Nodland鏡頭下的絕美時尚女神!

      軍事要聞

      特朗普:伊朗的回應“完全不可接受”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品香蕉一区二区三区| 午夜无遮挡男女啪啪免费软件| 精品无码久久久久国产| 九九国产视频| 极品 在线 视频 大陆 国产| 一本久久a久久免费精品不卡| 午夜黄色影院| 最近2019中文字幕在线| 国产在线拍揄自揄拍无码视频| 国产成人高清精品免费| 日本a在线播放| 中文字幕第一页亚洲观看| 久久精品视频亚洲| 日韩偷拍五月| 日本中文字幕在线播放| 大连市| 九九热视频精选在线播放| 成人看的污污超级黄网站免费 | 西西人体午夜大胆无码视频| 久久av高潮av无码av喷吹| 91精品久久久久久久99蜜桃| 国产精品爆乳在线播放第一人称| 成人频道| 成人激情文学| 韩国三级l中文字幕无码| 久久久噜噜噜www成人网| 久久精品欧美日韩精品| dy888午夜国产午夜精品| 波多野结衣的av一区二区三区| 国产精品无码av不卡| 国产XXXX视频| 久久久精品456亚洲影院| 欧美黑人换爱交换乱理伦片| 日本伊人一区二区三区| 国产天堂亚洲国产碰碰| 亚洲av成人在线一区| 亚洲国产制服中文字幕| 高中女无套中出17p| 一本色道久久综合无码欧美| 亚洲欧美日韩第一区中文字幕| 放荡的美妇在线播放|