<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      CVPR 2026 視頻模型趨勢梳理:不止生成下一幀,更要理解下一步

      追覓下一步要應對哪些風險

      0
      分享至


      視頻智能正從畫面生成走向運動控制、動態建模、信號理解與真實場景應用。

      作者丨鄭佳美

      編輯丨馬曉寧

      過去,視頻生成更多是在解決“像不像”的問題:人物是否清晰,畫面是否流暢,風格是否統一。但隨著模型能力提升,視頻真正困難的部分開始顯現出來——它不是一組漂亮幀的連續播放,而是一個由時間、空間、運動、相機、光照和物理信號共同構成的動態系統。

      只要模型無法理解這些隱含結構,它生成的視頻就可能看似逼真,卻在運動邏輯、視角一致性或真實場景適應上露出破綻。因此,視頻智能正在進入一個更深的階段:不只是生成畫面,而是理解畫面為什么會這樣變化。

      從運動軌跡編輯、3D 結構約束、可迭代文生視頻,到自適應視頻 token、長期運動表征、頻閃去除、熱成像分離和地球觀測模型,研究者實際上都在處理同一個底層問題:如何讓模型把視頻從“像素序列”理解為“動態世界”。

      這也是今年 CVPR 相關方向中一個值得注意的信號——視頻模型的競爭重心,正在從視覺質量轉向對時間、空間和物理規律的建模能力。

      換句話說,視頻 AI 的下一步,不是單純把視頻生成得更長、更清楚、更炫,而是讓模型知道運動從哪里來、結構為什么穩定、信號如何形成,以及復雜場景中的變化如何被預測和控制。

      當這些能力逐漸補齊,視頻模型才可能真正從內容生成工具,走向能夠理解、編輯和推演現實世界的動態智能系統。

      01


      從改畫面到改運動

      視頻生成和視頻編輯正在從“畫面是否好看”,走向“運動是否可控”。谷歌和石溪大學共同提出的《MotionV2V: Editing Motion in a Video》研究的正是如何不只修改視頻風格或局部外觀,而是直接編輯視頻里的“運動”。

      比如讓人物換方向、讓物體晚一點出現,或在保留場景內容的同時改變鏡頭運動。現有方法一旦涉及物體運動、相機軌跡或時間順序變化,就很難保留原視頻后續幀中已有的內容。

      MotionV2V 的核心思路是把視頻運動表示成稀疏軌跡點,并讓用戶直接編輯這些軌跡。系統先從輸入視頻中提取物體或場景點的原始運動軌跡,用戶再指定目標運動,模型根據“原始軌跡”和“目標軌跡”之間的差異生成編輯后的視頻。論文把這種差異稱為 motion edit,并用它指導視頻擴散模型,在盡量保留原視頻內容的同時,讓目標物體或相機按新的方式運動。


      論文地址:https://arxiv.org/pdf/2511.20640v1

      它的亮點在于,MotionV2V 不是從單張圖片重新生成視頻,而是真正以完整輸入視頻為條件進行 video-to-video motion editing。因此它可以利用視頻中任意時間點的信息,處理首幀里還沒出現的物體,也能支持物體運動、相機運動、時間控制和連續多次編輯。

      作者還構建了 motion counterfactuals,即內容相同但運動不同的視頻對,用來微調 motion-conditioned video diffusion 架構。從論文對比來看,MotionV2V 在內容保留、運動控制和整體編輯質量上優于已有方法,用戶研究中也獲得約 70% 的偏好率。整體來看,這篇論文把視頻編輯從“改外觀”推進到“改運動”。


      當運動編輯涉及相機、物體和非剛性形變時,僅靠 2D 運動線索往往不夠。Adobe 和馬里蘭大學帕克分校共同提出的《Generative Video Motion Editing with 3D Point Tracks》進一步使用 3D point tracks 作為統一的運動控制表示,同時改變視頻里的相機運動和物體運動。

      系統會先估計輸入視頻中的相機參數和 3D 點軌跡,用戶編輯相機運動或物體軌跡后,再由 video-to-video 生成模型合成新視頻。


      論文地址:https://arxiv.org/pdf/2512.02015v1

      相比 2D 軌跡,3D 軌跡提供了深度信息,可以幫助模型判斷遮擋關系、前后層次和真實空間運動。論文還設計了 3D track conditioner,通過 cross-attention 從輸入視頻中采樣視覺上下文,并把這些信息對齊到目標幀空間中,讓模型在改變運動的同時保持畫面連貫。

      由于真實世界中很難獲得成對訓練數據,作者采用兩階段訓練:先用合成數據學習基礎運動控制,再用真實單目視頻構造非連續片段對,縮小合成到真實的差距。整體來看,這篇論文把視頻運動編輯推進到更 3D-aware 的階段,也支持運動遷移、非剛性變形、物體移除和復制等效果。


      如果輸入只有一張物體圖像,模型如何在相機繞物體旋轉時生成穩定、真實、結構一致的視頻?澳大利亞國立大學和亞馬遜共同提出的《Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors》研究的就是從單張物體圖像生成 orbital video。現有視頻生成方法在大角度視角變化時缺少可靠像素對應關系,容易生成結構扭曲或不合理的物體形狀。


      論文地址:https://arxiv.org/pdf/2604.12309

      這篇論文的核心思路是引入 3D foundation model 中學到的形狀先驗,用它輔助視頻擴散模型生成更穩定的環繞視頻。模型從單張輸入圖像中提取兩類 3D latent features:全局 latent vector 提供整體結構指導,體積特征投影得到的 latent images 提供隨視角變化的幾何細節。

      相比深度圖或法線圖,這些 3D latent features 能表達更完整的物體形狀,也避免顯式提取 mesh 的額外開銷。作者還設計了 multi-scale 3D adapter,把不同尺度的 3D 特征接入基礎視頻模型,從而提升生成視頻的真實感、物體形狀合理性和多視角一致性。


      谷歌和新加坡國立大學共同提出的《VISTA: A Test-Time Self-Improving Video Generation Agent》則把重點放在生成流程本身:當用戶給出文本想法后,系統能不能反復評估、反思和修改,直到生成更符合意圖的視頻。

      它研究的是 test-time self-improvement,也就是不重新訓練視頻生成模型,而是在推理階段通過反復評價和改寫 prompt 來提升結果。

      VISTA 會先把用戶想法拆成帶有時間結構的場景計劃,包括時長、角色、動作、對白、環境、相機、聲音和情緒等要素;生成多個候選視頻后,通過 pairwise tournament 選出當前最好結果;隨后由視覺、音頻和上下文評審智能體提出意見,最后由 reasoning agent 綜合反饋并改寫 prompt,進入下一輪生成。


      論文地址:https://arxiv.org/pdf/2510.15831

      它的亮點在于,VISTA 不是只優化某個指標,而是把視頻規劃、候選篩選、多維度評價和提示詞重寫串成自動閉環。論文中提到,VISTA 在自動指標下相較先進基線最高達到 60% 的 pairwise win rate,在人工評測中也獲得 66.4% 的偏好率。整體來看,它把文生視頻從“一次性生成”推進到“生成—評價—反思—再生成”。


      02


      讓模型先學會「怎么動」

      要讓視頻模型更好地生成和編輯內容,底層表示也需要更高效。上海交通大學、香港中文大學多媒體實驗室、上海人工智能實驗室 OpenGVLab、同濟大學、清華大學共同提出的《AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space》研究的是視頻 tokenization 問題,也就是如何把連續視頻幀壓縮成更適合自回歸模型處理的離散 token。


      論文地址:https://arxiv.org/pdf/2505.17011v2

      AdapTok 的核心思路是讓視頻 token 分配變得自適應。它不是給每個時間段分配同樣多的 token,而是根據視頻內容、時間變化和整體預算,動態決定哪里多用 token、哪里少用 token。

      它使用 1D latent token space 表示視頻,并引入 temporal causality,讓前面幀的編碼和解碼不依賴未來幀,更適合流式處理和自回歸生成;同時通過 block-wise masking、block causal scorer 和 IPAL 策略完成自適應分配。

      這樣一來,運動明顯、場景變化大的片段會獲得更多 token,靜態或冗余片段則使用更少 token。在 UCF-101 和 Kinetics-600 任務中,AdapTok 在不同 token 預算下都能提升重建質量和生成表現。


      AdapTok 解決的是視頻如何被高效表示,而 CompVis @ LMU、MCML 和蘋果共同提出的《Learning Long-term Motion Embeddings for Efficient Kinematics Generation》進一步追問:如果只是理解未來怎么動,是否一定要完整生成像素視頻。論文轉向學習一種更緊湊的 long-term motion embedding,用來表示場景中的長期運動規律。

      它從大規模 tracker 模型得到的軌跡數據中學習壓縮運動空間,把稀疏軌跡和起始幀編碼成 latent motion grid,并可在任意空間查詢點上重建密集運動;隨后在這個運動 latent 空間里訓練 conditional flow-matching 模型,根據文本任務描述或 spatial pokes 生成長期運動。這種表示可達到 64 倍時間壓縮,也就是說模型不用逐幀生成視頻,就能在更抽象的運動空間中推斷未來動態。


      論文地址:https://arxiv.org/pdf/2604.11737

      這篇論文的亮點在于,它把“生成視頻”拆成了更基礎的“生成運動”。這種 kinematics-first 方式更適合探索多個可能未來,也更適合機器人規劃、軌跡預測和長期動態建模。

      在開放域互聯網視頻和 LIBERO 機器人基準上,它的運動生成質量、條件遵循能力和效率都優于專門軌跡預測方法以及 Wan、Veo 3 等視頻模型基線。整體來看,AI 不一定要先“畫出未來”,也可以先學會“未來應該怎么動”。


      03


      從修復畫面到理解信號來源

      除了生成和編輯,視頻與圖像研究也在關注如何從復雜成像退化中恢復可靠信息。南開大學國際先進研究院、鵬城實驗室、南開大學計算機學院、香港理工大學、OPPO 研究院共同提出的《It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal》研究的是短曝光連拍圖像中的 flicker artifact 去除問題。

      這類退化由人工光源頻閃和 rolling shutter 共同造成,表現為條紋狀、明暗不均的閃爍,不能簡單當作普通噪聲或低光增強處理。

      Flickerformer 的核心思路是利用閃爍退化的周期性和方向性。周期性來自交流電光源亮度變化,方向性與相機逐行掃描機制有關。針對這兩個特點,Flickerformer 設計了 PFM、AFFN 和 WDAM 三個模塊,分別用于幀間相位相關融合、單幀自相關建模,以及小波域方向性高頻修復。


      論文地址:https://arxiv.org/pdf/2603.22794v1

      它的亮點在于,把頻閃本身的物理先驗嵌入網絡結構里,而不是把 flicker removal 當成普通圖像增強任務。在 BurstDeflicker benchmark 上,Flickerformer 超過多種圖像復原和 burst restoration 方法,取得 31.226 PSNR、0.920 SSIM、0.045 LPIPS。整體來看,這篇論文讓模型能夠更準確地去除條紋閃爍,同時保留細節并減少重影。


      類似思路也出現在熱成像研究中。CMU 提出的《Dual Band Video Thermography: Separating Time-Varying Reflection and Emission Near Ambient Conditions》研究的是熱成像中的發射 / 反射分離問題。

      熱相機看到的長波紅外信號既可能來自物體自身熱輻射,也可能來自周圍環境反射;在接近室溫的日常場景中,這兩部分信號強度接近且都會隨時間變化,因此很難判斷亮暗變化到底來自物體溫度變化,還是背景反射。


      論文地址:https://arxiv.org/pdf/2509.11334

      論文提出 dual-band thermal videography,用兩個長波紅外子波段視頻分離“物體自身發射”和“背景反射”。它同時利用光譜線索和時間線索:同一材料在兩個波段中的發射率比例相對固定,而物體熱傳導變化通常更平滑、背景反射變化更快。

      實驗中,方法能把咖啡壺升溫時的熱發射與旁邊移動人物的反射分開,也能區分玻璃板上的手指熱印和手指反射。在酒杯和咖啡壺視頻中的非校準溫度估計誤差分別約為 1.72% 和 5.34%。整體來看,這篇論文把熱成像從“看到溫度分布”推進到“理解熱信號來源”。


      04


      讓視覺模型進入真實世界任務

      當視覺模型進入遙感和地球觀測場景時,問題會比普通圖像更復雜:模型不僅要處理圖像,還要同時理解時間序列、多源數據和地圖標注。艾倫人工智能研究所、華盛頓大學、亞利桑那州立大學、不列顛哥倫比亞大學聯合提出的《Helios: Stable Latent Image Modeling for Multimodal Earth Observation》研究的是面向地球觀測數據的多模態基礎模型。

      地球觀測數據既有圖像空間結構,也有類似視頻或文本的時間序列特征,還包含衛星影像、地圖、地形、作物、土地覆蓋等多種模態。

      這篇論文提出的模型叫 OlmoEarth,目標是讓地球觀測基礎模型更穩定、更高效,也更容易落地到環保、人道主義和公共利益相關任務中。它不只訓練模型,還配套構建端到端平臺,用于數據收集、標注、訓練和推理,降低真實組織使用前沿地球觀測模型的門檻。


      論文地址:https://arxiv.org/pdf/2511.13655

      OlmoEarth 的核心方法是 Latent MIM Lite。它用隨機初始化、訓練中凍結的線性投影層,把圖像 patch 投到 token 空間作為預測目標,在保留 latent modeling 表征能力的同時提升訓練穩定性。這個設計還把自監督數據和帶標注地圖數據統一到同一個 token 空間里,讓模型可以用相同損失學習觀測數據和標簽地圖。

      針對遙感數據空間、時間和模態高度冗余的問題,OlmoEarth 采用 modality-aware masking,讓模型必須從其他時間、空間或模態中推斷缺失信息;同時只在同一 bandset 內進行 token 對比,避免大量“太容易”的負樣本削弱訓練效果。

      綜合評估中,OlmoEarth 與 12 個其他基礎模型相比,在 embedding 評估中于 24 個任務里的 15 個取得最好表現;在 full fine-tuning 設置下,于 29 個任務里的 19 個取得最好表現。整體來看,這篇論文為地球觀測任務提出了一個更穩定、更開放、更面向真實應用的多模態基礎模型體系。


      這次去 CVPR 現場,一定不要錯過

      【認識大牛+賺外快】的機會

      需要你做什么:把你最關注的10個大會報告,每頁PPT都拍下來

      你能獲得什么?

      認識大牛:你將可以進入CVPR名師博士社群;

      錢多活少:提供豐厚獎金,任務量精簡;

      聽會自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

      如果你即將前往CVPR,想邊聽會邊賺錢,還能順便為AI學術社區做貢獻、認識更多大牛,歡迎聯系我們:[添加微信號:MS_Yahei]

      【限額5位,先到先得】

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      深夜加班回家,門鎖被換行李被扔在樓道,我掏出房本報警:房是我全款買的

      麥子情感故事
      2026-05-15 15:43:11
      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      馬斯克黃仁勛空軍一號合影曝光 機艙內飾奢華大氣 馬斯克評論:愉快的旅途

      快科技
      2026-05-15 14:58:18
      全球最牛股市猝死?“舉國梭哈”到熔斷崩盤,8000點曇花一現!

      全球最牛股市猝死?“舉國梭哈”到熔斷崩盤,8000點曇花一現!

      格隆匯
      2026-05-15 16:15:35
      漁船里俘虜兩個上校,科威特捏住伊朗最高級戰俘,德黑蘭干什么呢

      漁船里俘虜兩個上校,科威特捏住伊朗最高級戰俘,德黑蘭干什么呢

      寰球經緯所
      2026-05-15 10:11:40
      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      iPhone 17 官方宣布降價!蘋果推出 618 優惠活動

      XCiOS俱樂部
      2026-05-15 08:35:34
      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?真假

      多名院士調查發現:吃一口隔夜剩米飯,等于進一次毒?真假

      今日養生之道
      2026-05-15 17:57:19
      上海G1險勝北京!全民皆兵保優勢,趙睿+雙塔空砍,威廉姆斯受傷

      上海G1險勝北京!全民皆兵保優勢,趙睿+雙塔空砍,威廉姆斯受傷

      籃球資訊達人
      2026-05-15 21:28:22
      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      浩渺青史
      2026-05-06 16:57:17
      廣西貴港平南縣通報:丹竹鎮廊廖村發生地面塌陷,未造成人員傷亡

      廣西貴港平南縣通報:丹竹鎮廊廖村發生地面塌陷,未造成人員傷亡

      環球網資訊
      2026-05-15 21:28:10
      郭有才遇上硬茬!網傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      郭有才遇上硬茬!網傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      火山詩話
      2026-05-14 09:39:10
      國乒格局大洗牌!3人下桌、2人上桌,王勵勤動真格:樊振東或被棄

      國乒格局大洗牌!3人下桌、2人上桌,王勵勤動真格:樊振東或被棄

      以茶帶書
      2026-05-15 13:59:53
      2-1客場強勢逆轉!國產神鋒梅開二度12輪6球 中超新貴豪取9連勝

      2-1客場強勢逆轉!國產神鋒梅開二度12輪6球 中超新貴豪取9連勝

      狍子歪解體壇
      2026-05-15 21:32:27
      女娃被鎖車里絕望喝光3瓶水,都沒有等到打麻將的父母想起她

      女娃被鎖車里絕望喝光3瓶水,都沒有等到打麻將的父母想起她

      第四思維
      2025-07-15 13:16:45
      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      名記:詹姆斯如果離開湖人,大概率只能簽全額中產或老將底薪

      懂球帝
      2026-05-15 14:15:07
      穆帥:我已經收到本菲卡續約報價;目前和皇馬沒有任何接觸

      穆帥:我已經收到本菲卡續約報價;目前和皇馬沒有任何接觸

      懂球帝
      2026-05-15 17:50:14
      日本網民的真正破防,開始了

      日本網民的真正破防,開始了

      這里是東京
      2026-05-15 17:19:46
      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      唏噓!日本3大旅歐名將無緣世界杯 三笘薫夢碎:開賽1個月前重傷

      我愛英超
      2026-05-15 13:50:18
      悲催!上海一母親將700萬遺產給兒子,6年后才發現被女兒徹底拉黑

      悲催!上海一母親將700萬遺產給兒子,6年后才發現被女兒徹底拉黑

      火山詩話
      2026-05-15 06:49:15
      一個人最大的本事,就是解決問題的能力!(深度好文)

      一個人最大的本事,就是解決問題的能力!(深度好文)

      辛東方
      2026-02-12 08:00:03
      豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

      豐田蘭德酷路澤FJ日本上市 約合19萬人民幣

      車質網
      2026-05-15 09:09:13
      2026-05-15 21:59:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7280文章數 20751關注度
      往期回顧 全部

      科技要聞

      直降千元起步!蘋果華為率先開啟618讓利

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      頭條要聞

      生產成本疑不足40元 "童鞋界愛馬仕"泰蘭尼斯廣告翻車

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      手機
      游戲
      本地
      時尚
      公開課

      手機要聞

      PGYTECH推出GO Ultra趣拍套裝,可組合實現拍立得照片打印功能

      PS5獨占神作銷量太慘了!首周僅4614份 第二周消失

      本地新聞

      用蘇繡的方式,打開江西婺源

      日常衣服千萬不用買太貴,準備幾件白色T恤,清爽百搭又實用

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成年片色大黄全免费软件到| 久久人人爽人人爽人人片aV东京热| 国产成人亚洲精品另类动态| 青青草原国产精品啪啪视频| 中文字幕人妻无码视频| 午夜在线网址| 99国内精品久久久久久久| 亚洲AV片揉捏奶头| 污视频网站免费看| 国产精品18久久久久久麻辣| 亚洲一区二区精品偷拍| 亚洲第一区av| 亚洲第一无码AV无码专区| 欧美激情中文字幕在线一区二区| 熟女一区二区三区| 吕梁市| 国产极品高颜值美女在线| 午夜中文在线| 亚洲中文字幕国产精品| 亚洲爆乳大丰满无码专区| 欧美日韩国产在线看| 午夜精品久久久久成人| 自拍偷拍亚洲一区| 久久综合少妇11p| 亚洲人午夜射精精品日韩| 国产精品毛片一区二区三区 | 欧美成人精品手机在线| 色偷偷成人一区二区三区| 国产亚洲精品综合| 中文字幕少妇人妻| 开放90后国产精品四虎| 怡春院久久国语视频免费| 午夜成人爽爽爽视频在线观看| 尹人久久| 无码福利写真片视频在线播放| 丁香六月婷婷综合激情欧美| 亚洲国产理论片在线播放| 国模冰莲自慰肥美胞极品人体图 | 思思久99在热线女精品视频| www.尤物.com| 高清无码午夜福利视频|