<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      UniLumos: 物理反饋統一圖像視頻重打光框架,20倍加速光影重塑

      0
      分享至



      圖像與視頻重光照(Relighting)技術在計算機視覺與圖形學中備受關注,尤其在電影、游戲及增強現實等領域應用廣泛。當前,基于擴散模型的方法能夠生成多樣且可控的光照效果,但其優化過程通常依賴于語義空間,而語義上的相似性無法保證視覺空間中的物理合理性,導致生成結果常出現高光過曝、陰影錯位、遮擋關系錯誤等不合理現象。

      針對上述問題,我們提出了 UniLumos,一個統一的圖像與視頻重光照框架。本工作的主要創新點主要為:

      • 引入幾何反饋以增強物理一致性:為緩解物理不合理現象,我們在生成過程中引入了來自 RGB 空間的幾何反饋(如深度圖與法線圖),使光照效果與場景結構對齊,從而顯著提升物理一致性。然而,該反饋機制依賴高質量輸出作為視覺空間監督,而傳統的流匹配多步去噪過程計算開銷大。為此,我們采用路徑一致性學習,在少步訓練條件下保持有效監督,同時大幅提升推理速度。
      • 構建細粒度光影評估基準:為實現對光影效果的細粒度控制與評估,我們設計了一個結構化的六維光影描述標簽,以捕捉核心光照屬性。在此基礎上,提出了 LumosBench,一個基于視覺語言模型(VLM)的光照可控性評估基準,實現了對重光照精度的自動化、可解釋評估。

      實驗表明,UniLumos 在顯著提升物理一致性的同時,其重光照質量也達到了當前 SOTA 水平,并且在計算效率上比現有方法提升約 20 倍,實現了高質量與高效率的統一。

      • 論文標題:UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
      • 論文地址:https://arxiv.org/abs/2511.01678
      • 代碼倉庫:https://github.com/alibaba-damo-academy/Lumos-Custom
      • WanVideo ComfyUI支持: https://github.com/kijai/ComfyUI-WanVideoWrapper

      Demo









      本演示所呈現內容均來源于真實用戶的生成內容,僅用于展示模型的效果。

      研究背景與現有方案的局限性

      重光照(Relighting)是計算機視覺與圖形學中的一項核心任務,旨在保持場景幾何、材質等內容固有屬性不變的前提下,對圖像或視頻中的光照效果進行自由編輯與調整。該技術在電影后期、游戲開發、虛擬現實(VR)與增強現實(AR)等領域具有重要應用價值,例如實現演員在不同光照虛擬場景中的無縫合成,或對游戲環境氛圍進行實時調節。

      近年來,基于擴散模型(Diffusion Models)的方法在重光照任務中展現出強大的生成潛力。然而,當前主流方法在生成質量與實用性之間仍面臨兩個根本性挑戰:

      • 挑戰一:物理一致性的缺失

      現有方法通常在語義潛空間中進行優化,其目標是實現語義層面的相似性,而非物理層面的準確性。這種設計導致模型易產生物理不一致現象,具體表現為:

      • 陰影錯位(Misaligned Shadows):陰影方向與物體三維結構不符;
      • 高光過曝(Overexposed Highlights):高光區域細節丟失,不符合真實光學反射特性;
      • 遮擋關系錯誤(Incorrect Occlusions): 光線與物體之間的相互遮擋邏輯混亂。

      盡管已有研究(如 IC-Light、Light-A-Video 等)嘗試引入幾何先驗或強化時序一致性,但它們要么缺乏視覺域(Visual Domain)中的顯式物理監督,要么為保持一致性而犧牲了推理效率。

      • 挑戰二:評估體系的不完善

      如何系統評估重光照結果的質量,是當前研究中的另一大瓶頸。現有通用圖像評價指標(如 FID、LPIPS)主要關注整體感知相似度,卻無法針對性衡量光照屬性的準確性。例如,它們難以判斷生成結果在「陰影方向是否正確」、「色溫是否匹配」、「光照強度是否合理」等細粒度維度上的表現。這種評估體系的局限,嚴重制約了模型在光照可控性(Controllability)方面的迭代與優化。



      圖 1:各基線方法的定性對比。所有方法均以一段主體視頻和一段文本光影描述作為輸入,生成在指定光照條件下具有相應背景的視頻。UniLumos 生成效果更自然且符合物理一致性。其中,基線方法 IC-Light(逐幀閃爍嚴重)和 Light-A-Video(光照方向錯誤、細節丟失)相比,UniLumos 展現出更準確的陰影對齊與更高的時序穩定性。

      統一的圖像與視頻重光照框架 (UniLumos)

      為應對上述挑戰,我們提出 UniLumos——一個統一的圖像與視頻重光照框架。如下圖所示,該框架基于視頻生成模型 Wan 2.1 構建,能夠依據用戶指定的光照條件(如圖像參考、視頻片段或文本提示),在保持場景內容結構與時序一致性的前提下,實現對圖像與視頻的高質量重光照。



      圖 2:UniLumos 整體框架圖。左側為 LumosData(我們提出的數據構建流程),該流程包含四個階段,用于從真實場景數據生成多樣化的重光照樣本對。右側展示了 UniLumos 的架構,一個統一的圖像與視頻重光照框架,其設計目標是實現物理合理的光照控制。

      核心創新

      我們的核心創新包括一個旨在增強物理一致性的幾何反饋機制,以及一個用于細粒度效果評估的基準:

      • 引入幾何反饋以增強物理一致性。為解決擴散模型缺乏物理約束的問題,我們引入了一種來自 RGB 空間的幾何反饋機制。該機制采用深度圖與表面法線圖作為監督信號,二者均為場景的固有幾何屬性,具備光照不變性。在訓練過程中,我們將模型生成的 RGB 圖像輸入預訓練的密集幾何估計模型(如 Lotus),實時提取其深度與法線信息,并通過計算其與原始圖像幾何信息之間的差異構建反饋信號,反向傳播以約束生成過程。此機制強制模型學習光影與三維場景結構的對齊關系,從而顯著改善陰影、著色與空間一致性。然而,該物理反饋機制依賴高質量的 RGB 輸出以提取準確的幾何信息,而傳統的多步去噪過程計算成本高昂。為此,UniLumos 引入了路徑一致性學習,使模型在少步訓練模式下仍能保持有效的幾何監督。最終,UniLumos 在推理速度上較現有 SOTA 方法提升達 20 倍,同時保持了更高的物理一致性。
      • 構建細粒度評估基準。為解決評估體系不完善的問題,我們構建了以下數據與評估基礎基準:
      • LumosData:引入一套結構化的六維光照標注協議,用于精確捕捉核心光照屬性,包括光照方向、光源類型、強度、色溫、時間動態與光學現象。
      • LumosBench:提出一個基于大規模視覺語言模型的自動化評估基準,通過判斷生成結果是否在六個維度上與控制指令精確匹配,實現對重光照效果的細粒度、可解釋評估。

      方法詳述

      高質量訓練數據構建 (LumosData)

      我們首先構建了一個高質量的光影訓練數據集 LumosData,其流程如上圖(左)所示。這是一個可擴展的數據集構建流程,用于從真實世界視頻中提取高質量的重光照訓練樣本。





      模型架構與訓練

      • 潛空間擴散與條件注入



      • 聯合目標函數

      我們的訓練目標融合了三種互補的損失函數,以權衡外觀保真度、幾何一致性與推理速度。整體損失定義為:







      • 訓練策略

      為平衡物理監督與訓練效率,我們借鑒路徑一致性調度思想,采用選擇性優化策略。在每輪訓練迭代中,我們按 80/20 比例劃分批次,以避免全監督帶來的過高開銷,同時保留有效的學習信號。



      實驗結果與分析

      我們在圖像與視頻重光照任務上進行了廣泛實驗,并與多種重光影 SOTA 方法進行了系統比較。

      A. 定量結果:多項指標達到 SOTA

      如下表所示,UniLumos 在所有關鍵指標上均取得最優性能:

      • 視覺保真度:在圖像與視頻任務中,PSNR 與 SSIM 均優于所有基線模型,表明其生成結果更清晰、結構保持更好。
      • 時間一致性:在視頻任務中,UniLumos 的 R-Motion 指標顯著低于其他方法(如 Light-A-Video),說明其生成視頻的光影過渡更平滑,閃爍與抖動現象更少。
      • 物理一致性:在我們提出的 Lumos 一致性指標上,UniLumos 的生成光影準確性得分顯著高于基線,其密集幾何誤差也大幅降低,驗證了其物理合理性的顯著提升。



      B. LumosBench 細粒度可控性分析

      我們進一步使用 LumosBench 評估模型在六個光照維度上的可控性。具體而言,我們構建了一個包含 2000 條測試提示詞的數據集,每條提示詞由一個視頻和一條結構化文本描述組成,旨在每次僅變動一個光照屬性,同時保持其他變量恒定。這些提示詞覆蓋六大類別:方向、光源類型、強度、色溫、時間動態與光學現象,每個類別下包含多個子類型(例如方向分為前/側/后光)。

      為衡量生成光照屬性與預期屬性之間的一致性,我們采用 Qwen2.5-VL 對重光照結果進行分析,并判斷目標屬性是否正確呈現。每個維度獨立評分,最終的可控性得分為所有六個維度的平均值。

      UniLumos (1.3B) 的平均可控性得分達 [此處缺失具體數值],顯著高于其他專有重光照模型,如 IC-Light Per-Frame 與 Light-A-Video。其表現甚至優于參數量更大的通用視頻生成模型(如 Wan2.1 14B),說明 UniLumos 在光照屬性的細粒度控制方面具備顯著優勢。



      C. 定性結果:視覺效果更真實、更穩定

      我在基線方法對比和下圖中提供了定性比較結果,充分展現了 UniLumos 在光照真實感、時序一致性與可控性方面的優勢:

      • 光照質量與可控性:如基線方法對比圖所示,UniLumos 生成的光照效果能更準確地匹配目標描述,細膩地捕捉方向性陰影、色調與強度變化。對比方法則要么未能有效反映預期的光照變化,要么產生過度均勻、缺乏真實感的結果。
      • 時序一致性:與逐幀處理的 IC-Light、Light-A-Video 等基線方法相比,UniLumos 實現了更平滑的幀間過渡,有效避免了閃爍或結構畸變。這一優勢得益于我們所采用的時空聯合建模機制,以及物理感知監督與路徑一致性訓練的進一步增強。
      • 前景細節保持:UniLumos 在面部結構、衣物紋理等主體細節的保持上優于基線模型。例如,Light-A-Video 偶爾會出現形變或身份特征漂移,而我們的模型在長序列中仍能保持高度保真。
      • 基于參考視頻的重光照:下圖展示了 UniLumos 在不同參考視頻條件下的生成效果。模型成功實現了全局光照方向與細微空間變化的跨場景適配,展現出在真實場景下優異的泛化能力。



      D. 效率對比:實現 20 倍加速

      在生成 49 幀 480p 視頻的任務中:UniLumos (1.3B) 僅需12 秒;IC-Light(逐幀處理)需277 秒;Light-A-Video (Wan-1.3B) 需756 秒;Light-A-Video (CogVideoX-2B) 需917 秒。UniLumos 在保持 SOTA 生成質量的同時,實現了顯著的推理效率提升。



      E. 消融實驗:關鍵模塊分析

      如下表和圖所示,我們通過消融研究驗證各模塊的貢獻:

      • 物理引導反饋:在同時移除深度與法向反饋(w/o All Feedback)的條件下,模型在圖像質量與物理一致性方面均出現顯著下降,驗證了本文所提出物理引導損失函數的必要性。值得注意的是,僅移除法向監督所造成的性能下降遠大于僅移除深度監督,這表明在光影交互建模中,表面朝向信息相較于場景距離信息具有更關鍵的作用。
      • 路徑一致性學習:在去除路徑一致性模塊(w/o Path Consistency)的情況下,各項物理指標僅出現輕微下滑,同時 SSIM 與 LPIPS 指標仍保持競爭力。這表明路徑一致性模塊在幾乎不犧牲生成性能的前提下,為少步生成場景帶來了可觀的效率優勢,證明了其實際應用價值。
      • 訓練模式:為評估本文統一訓練范式的有效性,我們對比了分領域訓練的模型變體:僅使用視頻訓練會導致視覺質量下降,而僅使用圖像訓練則會損失時序平滑性。相比之下,我們的統一方法在兩類輸入上均取得了高質量的重光照結果,并實現了最優的時序一致性平衡。





      結論

      針對現有基于擴散模型的重光照方法在物理真實性差和評估維度單一等方面的挑戰,我們提出了 UniLumos,一個統一的圖像與視頻重光照框架。該框架引入 RGB 空間的幾何反饋,包括深度圖與法線圖作為監督信號,并將其與流匹配基模相結合,顯著提升了光照效果的物理一致性。

      為克服該反饋機制帶來的計算效率瓶頸,我們采用路徑一致性學習來增強物理監督的有效性,在實現當前最優生成質量的同時,帶來了 20 倍的推理加速。

      此外,為解決評估體系不完善的問題,我們構建了 LumosBench,一個基于視覺語言模型的光照可控性評估基準,實現了對重光照精度的自動化、可解釋評估。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      塞爾主持:姆巴佩可能以為皇馬是主隊2-0領先,才發了Hala Madrid

      塞爾主持:姆巴佩可能以為皇馬是主隊2-0領先,才發了Hala Madrid

      懂球帝
      2026-05-11 12:09:08
      大快人心!上海地鐵“霸道大媽”終被法辦,倚老賣老真的不靈了

      大快人心!上海地鐵“霸道大媽”終被法辦,倚老賣老真的不靈了

      西莫的藝術宮殿
      2026-05-11 16:11:00
      德隆秀恩愛,42歲身家過億,二婚娶超模,不工作環游世界

      德隆秀恩愛,42歲身家過億,二婚娶超模,不工作環游世界

      大西體育
      2026-05-11 22:38:23
      英國首相稱將對令人失望的選舉結果負責

      英國首相稱將對令人失望的選舉結果負責

      財聯社
      2026-05-11 17:32:12
      人民日報發聲:機關事業單位的隱性收入,正在消失

      人民日報發聲:機關事業單位的隱性收入,正在消失

      細說職場
      2026-05-09 12:16:27
      香港游泳名將何詩蓓官宣戀情,事業情場得意,與荷蘭隊友甜蜜出游

      香港游泳名將何詩蓓官宣戀情,事業情場得意,與荷蘭隊友甜蜜出游

      體娛一家親
      2026-05-11 21:33:10
      俄加強對普京的保護措施,歐洲情報機構猜測,可能與紹伊古有關

      俄加強對普京的保護措施,歐洲情報機構猜測,可能與紹伊古有關

      阿甘天天傳
      2026-05-10 23:20:20
      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      賀希寧走步了嗎?CBA裁判專家分析,給出了一個答案

      體育哲人
      2026-05-11 21:04:17
      炸鍋!穆里尼奧回歸皇馬條件曝光,5 大球星要被掃地出門

      炸鍋!穆里尼奧回歸皇馬條件曝光,5 大球星要被掃地出門

      奶蓋熊本熊
      2026-05-11 00:35:03
      價格大跳水!山姆排長隊,一上架遭搶購!有商戶一天賣了9000斤,網友:猝不及防

      價格大跳水!山姆排長隊,一上架遭搶購!有商戶一天賣了9000斤,網友:猝不及防

      極目新聞
      2026-05-11 12:31:11
      國際足聯愿作出重大讓步,世界杯轉播權或降價!央視態度很明確

      國際足聯愿作出重大讓步,世界杯轉播權或降價!央視態度很明確

      開成運動會
      2026-05-11 20:19:11
      我換迷你車拒絕懷孕同事蹭車,五天后人事說她因打車貴已申請離職

      我換迷你車拒絕懷孕同事蹭車,五天后人事說她因打車貴已申請離職

      曉艾故事匯
      2026-05-11 14:13:09
      臺積電、阿斯麥跌超3%

      臺積電、阿斯麥跌超3%

      財聯社
      2026-05-11 21:40:09
      我50歲才悟出一個道理:凡是從不參加同學聚會、不愛發動態、不混圈子的人,十有八九在這兩個方面遠超常人,觀察了身邊上百人屢試不爽

      我50歲才悟出一個道理:凡是從不參加同學聚會、不愛發動態、不混圈子的人,十有八九在這兩個方面遠超常人,觀察了身邊上百人屢試不爽

      心理觀察局
      2026-05-08 10:35:21
      為啥說帶娃最好遠離無良親戚?網友:再次驗證了物種的多樣性

      為啥說帶娃最好遠離無良親戚?網友:再次驗證了物種的多樣性

      解讀熱點事件
      2026-05-12 00:05:15
      特斯拉Model 3偷偷增配:新電池+高倍率快充,續航悄悄往上提

      特斯拉Model 3偷偷增配:新電池+高倍率快充,續航悄悄往上提

      三農老歷
      2026-05-11 20:02:44
      慕尼黑1860球迷在德丙聯賽唱歌嘲諷孔帕尼,調侃拜仁歐冠出局

      慕尼黑1860球迷在德丙聯賽唱歌嘲諷孔帕尼,調侃拜仁歐冠出局

      懂球帝
      2026-05-12 00:46:30
      4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

      4只皮皮蝦1035元,官方回應是否“帶客吃回扣”

      中國新聞周刊
      2026-05-09 19:38:06
      查爾斯新助手放話:必須讓威廉哈里和好,2年零對話僵局待破

      查爾斯新助手放話:必須讓威廉哈里和好,2年零對話僵局待破

      影視情報室
      2026-05-11 20:22:15
      齊爾克澤技術再好也不配效力曼聯,表現激怒B費!英媒建議回購1人

      齊爾克澤技術再好也不配效力曼聯,表現激怒B費!英媒建議回購1人

      羅米的曼聯博客
      2026-05-11 11:54:16
      2026-05-12 03:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12970文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      頭條要聞

      母女二人一年用水量高達400多噸 警方發現背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      宗馥莉罷免銷售負責人 部分業務將外包

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      手機
      數碼
      親子
      教育
      公開課

      手機要聞

      蘋果iOS/iPadOS 15.8.8正式版發布

      數碼要聞

      榮耀600系列全解讀:肖戰代言、幸運星設計、2億影像,值得沖嗎?

      親子要聞

      你們都喜歡哪些科目啊?

      教育要聞

      特朗普訪華對美國留學市場是利好嗎?中國留美學生規模如何變化?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 777亚洲精品乱码久久久久久| 欧美日本日韩aⅴ在线视频| 制服国产欧美亚洲日韩| 激情啪啪精品一区二区| 亚洲欧美人成网站在线观看看| 狠狠躁天天躁夜夜躁婷婷| 亚洲の无码热の综合| 亚洲国产精品久久久就秋霞| 天堂偷拍| 午夜福利不卡片在线播放免费| 中文字幕少妇人妻精品| 亚洲va| 欧美日韩激情在线一区| 国产精品自拍视频我看看| www成人国产高清内射| 广饶县| 97资源超碰| 社旗县| zooslook欧美另类最新| 肏屄毛片| 亚洲 校园 欧美 国产 另类| 欧美精品无需播放器在线观看| 91无码人妻精品一区| 福利导航视频| 亚洲精品一区二区三区小| 嫩草国产露脸精品国产软件 | 长子县| 五月开心六月丁香综合色啪| 五月天天天综合精品无码| 欧美成人a在线网站| av日韩一区二区三区| 福利一区二区1000| 国产人碰人摸人爱视频| 精品国产人妻一区二区三区久久| 日本一区二区色| 韩国三级Hb久久精品| 亚洲欧美国产免费综合视频| 国产视频2区| 国产成人无码精品久久久免费| 国产成人精品无码一区二| 色图4区|