<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      西湖大學張馳團隊:不重訓,也能讓視頻生成更長更穩丨CVPR 2026

      0
      分享至


      FreeLOC:一種面向長視頻生成的分層自適應推理校正方法。

      作者丨鄭佳美

      編輯丨岑 峰

      過去一段時間,AI 視頻最讓人驚艷的,往往都是前幾秒。人物狀態自然,光影氛圍到位,動作也足夠流暢,很容易讓人產生一種感覺,視頻生成已經離真正可用不遠了。

      但行業越往前走,問題也越清楚,真正難的從來不是做出一小段漂亮畫面,而是能不能把這種質量穩定地延續下去。一旦視頻時長被拉長,很多模型就會開始慢慢失穩,人物、場景和動作表面上還在延續,內部卻已經出現細節漂移和時序松動。

      這也是為什么,今天 AI 視頻行業真正卡住的地方,已經不只是能不能生成片段,而是能不能生成連續、穩定、可以承載完整情境的內容。

      比如一段廚房視頻里,鏡頭從備菜推進到下鍋,再切到擺盤,觀眾期待看到的是同一個空間、同一套器具和同一份食材被自然地串聯起來。再比如一段城市通勤視頻里,人物從地鐵口走到街邊店鋪,鏡頭可以變化,但人物狀態、環境關系和動作邏輯不能越走越散。

      只有解決這種長時間穩定性問題,AI 視頻才真正有機會從展示走向創作和生產。也正是在這樣的背景下,西湖大學的張馳團隊提出了《Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction》。

      這項研究關注的,不是怎樣把某一幀做得更亮眼,而是為什么模型在短視頻里表現很好,一旦進入長視頻生成,質量就會越來越難維持。也正因為它抓住了這個行業里越來越核心的問題,所以這項研究不只是一次常規優化,而更像是在回答,AI 視頻從短片段走向長內容時,究竟卡在了哪里。


      論文地址:https://arxiv.org/pdf/2603.25209

      01


      更長的視頻,更明顯的優勢

      在 Wan2.1-T2V-1.3B 上,研究人員把視頻長度擴展到 2 倍和 4 倍之后,發現 FreeLOC 的優勢非常穩定,而且視頻越長,這種優勢越明顯。

      先看 2 倍長度,也就是 161 幀的結果。主體一致性達到 98.06,背景一致性達到 97.49,運動平滑達到 98.98,說明在人物、場景和動作連續性上,它都已經處在最好或接近最好的水平。

      更突出的部分在畫質相關指標上。圖像質量達到 68.31,明顯高于 Direct 的 60.34,也高于 Sliding Window 的 64.64 和 FreeNoise 的 67.19。美學質量達到 62.33,而其他方法大多只在 52 到 56 之間,所以這一項的領先尤其明顯。

      動態程度也達到 39.41,已經接近最佳。換句話說,在 2 倍長度下,FreeLOC 不是只在某一個指標上占優,而是在穩定性、清晰度和整體觀感上都表現更強。

      到了 4 倍長度,也就是 321 幀,長視頻生成的難度會明顯上升,因為模型更容易出現內容漂移、畫面變糊或者動作失真。但研究結果表明,FreeLOC 在這種更苛刻的設定下仍然能保持很強的表現。

      主體一致性達到 98.44,仍然幾乎是最高水平。圖像質量達到 67.44,而 Direct 已經掉到 59.21,差距達到 8.2。美學質量達到 61.21,Direct 只有 49.43,差距進一步擴大到 11.8。動態程度達到 36.27,而 Direct 只有 4.32,差不多已經是數量級上的差別。

      這個結果說明,隨著視頻長度繼續增加,很多方法會越來越難維持質量,但 FreeLOC 仍然能把畫面質量和動態表現保持在較高水平,所以它的優勢不是偶然,而是在高難度長視頻場景里依然成立。


      這種提升并不只出現在一個模型上。研究團隊又在 HunyuanVideo 上做了同樣的測試,結果趨勢依然一致。2 倍長度,也就是 253 幀時,圖像質量達到 68.92,美學質量達到 62.38,都是最高,主體一致性也有 97.92,優于大多數方法。

      到了 4 倍長度,也就是 509 幀,圖像質量仍有 67.92,美學質量仍有 61.09,動態程度達到 39.28,也接近最佳。也就是說,FreeLOC 的效果并不是只在 Wan2.1-T2V-1.3B 上成立,而是在另一套視頻生成模型上也能復現出相同趨勢,這就說明研究提出的方法具有比較明顯的跨模型通用性。

      為了進一步說明這種提升到底來自哪里,研究團隊還做了消融實驗,把方法拆開來看。只使用 TSA 時,圖像質量是 65.87,美學質量是 57.05,說明單獨處理長上下文問題已經能帶來可見提升。

      只使用 VRPR 時,圖像質量是 61.88,美學質量是 54.13,說明單獨修正位置問題也有效,但作用還不夠強。假如把 TSA 和 VRPR 一起加上去,卻對所有層統一處理,圖像質量是 65.19,美學質量是 56.34,雖然比只用一個模塊更好,但仍然不是最佳結果。

      更關鍵的是,研究人員還測試了隨機分配到不同層的做法,結果圖像質量反而掉到 63.90,這說明模塊本身并不是隨便放在哪里都行,真正重要的是放在哪些層上。按層選擇之后,也就是 FreeLOC 的做法,圖像質量達到 67.44,美學質量達到 61.21,都是最高。

      這一部分實驗最想說明的是,性能提升不只是因為多加了兩個模塊,而是因為研究人員發現不同層對不同問題的敏感程度并不一樣,所以必須做分層處理,而這正是 FreeLOC 最核心的創新點之一。


      研究人員還進一步比較了不同的位置處理方式和不同的注意力機制。在位置處理上,他們比較了 Clipping、Grouping 和 VRPR,最后發現 VRPR 的效果最好,圖像質量達到 68.84,美學質量達到 61.21,都明顯領先。這說明多粒度的位置重編碼確實比簡單截斷或者簡單分組更有效。

      在注意力機制上,研究又比較了 Sliding Window、Selected Frame Attention 和 TSA,結果 TSA 依然最好,圖像質量達到 68.84,美學質量達到 61.21。這意味著,單純用滑動窗口雖然能縮小注意力范圍,但會損失一部分長程信息,而 TSA 能在控制上下文長度的同時,盡量保留長距離時序關聯,所以整體表現更強。


      把這些實驗合在一起看,研究團隊實際上是在證明一件事,FreeLOC 的優勢不是只體現在某一個局部技巧上,而是來自一整套更合理的設計,包括位置重編碼、注意力控制,以及最關鍵的分層使用策略。

      整體來看,這組實驗傳遞出的結論非常清楚。無論是在 Wan2.1-T2V-1.3B 還是 HunyuanVideo 上,無論是在 2 倍長度還是 4 倍長度設置下,FreeLOC 都能同時提升視頻的穩定性、清晰度、美感和動態表現,而且越到更長、更難的生成場景,這種優勢越明顯。


      02


      從設置到機制,一步步驗證

      在實驗設置上,研究團隊選用了兩個公開可用的視頻生成模型,分別是 Wan2.1-T2V-1.3B 和 HunyuanVideo,用來驗證 FreeLOC 是否具有跨模型的適用性。

      視頻生成時,研究人員把輸出分辨率統一設為 480p,也就是 832 × 480,并且重點測試了把視頻長度擴展到 2 倍和 4 倍之后的生成效果。這樣做的目的很明確,就是看模型在視頻明顯變長之后,是否還能維持原本的畫面質量和時序穩定性。

      為了證明 FreeLOC 的效果不是偶然,研究還設置了多組對比方法,包括 Direct Sampling,也就是直接生成,Sliding Window,也就是滑動窗口,以及 FreeNoise、FreeLong、RIFLEx 和 FreeLOC。

      這樣的對比覆蓋了目前比較常見的長視頻生成思路,有的是最直接的基線方法,有的是通過局部窗口維持連續性,也有的是已有的訓練免費方法,所以能夠比較全面地看出 FreeLOC 相比其他方案到底強在哪里。


      在評價方式上,研究人員采用的是 VBench 標準,并且把指標分成了一致性和質量兩大類。一致性方面主要看 Subject Consistency,也就是人物在長視頻里會不會變形或漂移,Background Consistency,也就是背景是否穩定,以及 Motion Smoothness,也就是動作和運動過程是否連續自然。

      質量方面主要看 Imaging Quality,也就是畫面清晰度,Aesthetic Quality,也就是整體視覺美感,以及 Dynamic Degree,也就是視頻的動態表現強不強。這樣一來,研究考察的就不只是單純的清晰度,而是把人物穩定、背景穩定、動作連續、畫面質量和觀感都納入了評估范圍。


      除了常規的對比實驗,研究團隊還做了一個很關鍵的探測實驗,也就是逐層分析 Transformer。具體來說,研究人員會對每一層施加擾動,然后觀察兩個結果,一是視覺質量到底下降了多少,二是 attention 的變化到底有多大。

      通過這種方法,他們發現不同層對問題的敏感性并不一樣,有的層更容易受到位置變化的影響,有的層更容易受到長上下文擴展的影響。這個發現非常重要,因為它直接支持了 FreeLOC 后面的分層處理思路,也就是不是所有層都一視同仁,而是要針對不同層采用不同修正方式。

      研究還專門驗證了兩類核心的 O.O.D 問題。第一類是位置 O.O.D,做法是改變幀之間的相對位置關系,然后觀察生成質量會不會下降。第二類是長度 O.O.D,做法是直接增加視頻長度,再計算 attention entropy,也就是注意力分散程度。

      實驗結果表明,視頻長度一旦增加,attention 就會變得更分散,而注意力越分散,生成質量往往越差。也正是基于這兩類問題的驗證,研究團隊才進一步提出了后面的 VRPR、TSA 和分層適配策略。整體來看,這一部分實驗經過的意義就在于,研究并不是只做結果對比,而是先把問題來源拆清楚,再針對性地設計解決辦法。


      03


      從「能生成」走向「能使用」

      這項研究的意義,不只是把長視頻生成的結果做得更好,而是把問題背后的原因說清楚了。研究團隊指出,長視頻之所以容易出現畫面變糊、動作不連貫、人物不穩定這些問題,核心來自兩類 O.O.D,也就是位置 O.O.D 和上下文 O.O.D。

      這個判斷很重要,因為它說明過去很多方法更像是在不斷試技巧、調參數,而這項研究開始把問題推進到機制解釋的層面。也就是說,研究人員不僅提出了一個更有效的方案,還解釋了為什么以前的方法容易失效,為什么視頻一變長,模型就會更容易出問題。

      這項研究還有一個很實際的意義,就是證明了訓練并不是唯一辦法。以前一說到長視頻生成,很多人會默認要重新訓練模型,或者至少做一次很重的額外訓練,因為短視頻模型通常很難直接應對更長的時序范圍。

      研究團隊這次證明,只在推理階段做更精細的修正,也能明顯改善生成效果。這一點很關鍵,因為它意味著算力成本會更低,現有模型也更容易直接使用,對技術落地和實際部署都更有幫助。

      另外,研究人員還重新揭示了 Transformer 不同層的作用差異。他們發現,不同層并不是在做同一件事,有些層更容易受到位置問題影響,有些層更容易受到長上下文問題影響。

      所以真正有效的方法,不是一刀切地改所有層,而是先找出問題主要集中在哪些層,再做針對性修復。這個認識很有價值,因為它不只適用于視頻生成,對長上下文的 LLM、圖像生成模型的推理優化,其實也都有啟發。

      換句話說,這項研究提出的不只是一個技巧,更是一種更通用的思路,也就是先識別問題,再定位到層,最后做局部修復。

      如果從普通人的角度來看,這項研究的影響其實也很直接。未來大家用 AI 生成稍微長一點的視頻時,人物突然變臉、衣服亂變、背景亂跳、動作接不上的情況,有望明顯減少。

      對普通用戶來說,這意味著做故事短片、教學視頻、產品展示視頻時,成片會更穩定,也更接近真正能用的內容。對內容創作者來說,這意味著返工會更少,制作成本會更低,小團隊和個人創作者也更有機會用現成模型做出更長、更連貫的視頻內容。

      所以這項研究真正推動的,不只是技術指標的提升,而是讓 AI 長視頻生成離日??捎谩⑸虡I可用又近了一步。

      04


      FreeLOC 的創建者

      論文一作田佳豪,目前是西湖大學 AGI Lab 的科研助理,師從張馳教授。主要從事計算機視覺方面的研究。他當前的研究重點集中在擴散生成模型,視頻生成,世界模型等方向。

      就學術成果來看,他已發表或參與多項工作,包括以第一作者發表在 CVPR 2026 的FreeLOC,以及投遞于 ECCV 2026 的 HeadForcing,此外還發表了 DCCM,Loss-Guided Diffusion For General Controllable Generation 等工作,整體研究路徑體現出從圖像級擴散模型理論、視頻時序建模到自回歸長視頻生成與交互式視頻合成的持續推進。


      通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在

      此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。

      在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

      這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。

      從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。

      這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。


      參考鏈接:https://icoz69.github.io/


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      大瓜!馬克龍被妻子打耳光,是跟42歲美女演員互發曖昧短信,被抓包了?!

      英國那些事兒
      2026-05-14 23:29:50
      特朗普訪華,日本有了新計劃,俄喊話中國,李在明的表態真高明

      特朗普訪華,日本有了新計劃,俄喊話中國,李在明的表態真高明

      寄予的清風
      2026-05-15 17:28:41
      世乒賽結束僅5天,劉詩雯傳來一大喜訊,讓乒壇和王勵勤沉默了

      世乒賽結束僅5天,劉詩雯傳來一大喜訊,讓乒壇和王勵勤沉默了

      八斗小先生
      2026-05-15 18:19:06
      別笑雷軍那一蹲

      別笑雷軍那一蹲

      財經無忌
      2026-05-15 18:03:42
      槍聲響起!馬科斯大勢已去,菲軍方趕緊切割,中菲關系有了轉機?

      槍聲響起!馬科斯大勢已去,菲軍方趕緊切割,中菲關系有了轉機?

      李健政觀察
      2026-05-15 17:25:28
      誰敢相信!一個全明星中鋒,短短一個月,身價縮水5000萬

      誰敢相信!一個全明星中鋒,短短一個月,身價縮水5000萬

      球毛鬼胎
      2026-05-15 17:43:02
      53.9萬元!天津一小區給業主發錢了!每家500元,來自電梯廣告等公共收益

      53.9萬元!天津一小區給業主發錢了!每家500元,來自電梯廣告等公共收益

      天津人
      2026-05-15 18:01:06
      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      用戶向豆包咨詢機票退票手續費,導致損失600元,并向法院起訴豆包運營公司,豆包相關負責人:案例已處置,涉及金融、退款等會有風險提示

      極目新聞
      2026-05-14 16:30:33
      官宣!法國公布世界杯名單,老將回歸,皇馬小將兩張紅牌嚇壞德尚

      官宣!法國公布世界杯名單,老將回歸,皇馬小將兩張紅牌嚇壞德尚

      嗨皮看球
      2026-05-15 19:35:35
      中東,突傳大消息!美國最新回應伊朗!黃金、白銀暴跌!原油飆升!

      中東,突傳大消息!美國最新回應伊朗!黃金、白銀暴跌!原油飆升!

      證券時報e公司
      2026-05-15 16:42:36
      一座天壇,橫跨51年:美國總統再次踏上中美交往的歷史現場

      一座天壇,橫跨51年:美國總統再次踏上中美交往的歷史現場

      澎湃新聞
      2026-05-14 13:34:30
      世乒賽剛結束,日本主帥評價梁靖崑,只字未提實力卻句句戳心

      世乒賽剛結束,日本主帥評價梁靖崑,只字未提實力卻句句戳心

      阿訊說天下
      2026-05-15 11:51:27
      5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

      5人4杰青!全是名校領導,被舉報學術造假,評論區怒火徹底壓不住

      譚談社會
      2026-05-14 22:46:49
      云南騰沖槍擊案:村中首富持沖鋒槍瘋狂殺人,除夕夜兩家被滅門

      云南騰沖槍擊案:村中首富持沖鋒槍瘋狂殺人,除夕夜兩家被滅門

      飛云如水
      2024-07-04 22:24:01
      移民加拿大兩年,我悄悄回國了,說幾句大實話

      移民加拿大兩年,我悄悄回國了,說幾句大實話

      老特有話說
      2026-05-15 16:20:03
      從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

      從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

      北緯的咖啡豆
      2026-05-15 09:45:32
      過分 國際乒聯5天造2爭議:畫錯中國國旗 海報將孫穎莎換成王曼昱

      過分 國際乒聯5天造2爭議:畫錯中國國旗 海報將孫穎莎換成王曼昱

      風過鄉
      2026-05-15 19:17:50
      1.1億拿下世界杯版權!央視的低頭妥協,換來的卻是網友的憤怒

      1.1億拿下世界杯版權!央視的低頭妥協,換來的卻是網友的憤怒

      譚談社會
      2026-05-15 16:54:21
      向太曝馬伊琍已再婚:當年文章過不了心理那關

      向太曝馬伊琍已再婚:當年文章過不了心理那關

      娛樂看阿敞
      2025-12-12 15:50:00
      NBA季后賽明天5月16日賽程:騎士PK活塞,CCTV5直播馬刺PK森林狼

      NBA季后賽明天5月16日賽程:騎士PK活塞,CCTV5直播馬刺PK森林狼

      薇說體育
      2026-05-15 16:04:57
      2026-05-15 20:00:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7278文章數 20751關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      頭條要聞

      美媒詢問是否認為現在的美國是"衰落國家" 外交部回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

      態度原創

      游戲
      家居
      親子
      手機
      公開課

      LCK第二賽段:打出對位差距,HLE多點開花橫掃DK

      家居要聞

      110㎡淡而有致的生活表達

      親子要聞

      這可是你自愿吃的啊~

      手機要聞

      小米盧偉冰宣布明日直播:將爆料17 Max手機賣點

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品午夜国产VA久久成人 | 天天日狠狠操| 啦啦啦www在线观看免费视频| 国产精品一区二区三区卡| 久艹视频在线观看| 久久久久亚洲AV成人网人人软件| 日韩av爽爽爽久久久久久| 国产极品粉嫩馒头一线天| 美女秘密91| 一区二区日韩无码| 久久国产黑丝袜视频| 日韩av日韩av在线| 亚洲一区| 国产成人精品三级在线影院| 福利视频一区二区在线| 中中文字幕三区| 极品美女一区二区三区| 国产白浆一区二区| 午夜免费国产体验区免费的| 日日摸夜夜爽无码| 潮喷大喷水系列无码| 夜夜欢天天干| 国产亚洲日韩妖曝欧美| 国产精品一区二区韩国AV| 国产成人小视频| 九九热在线视频中文字幕| 波多野结衣毛片| 久久久久久久久18禁秘| 国产女人喷潮视频免费| 美女扒开内裤无遮挡禁18 | 99国产精品免费视频观看8| 亚洲国产aⅴ成人精品无吗| 不卡视频一区二区三区| 天天噜噜揉揉狠狠夜夜| 国产一区二区三区四区五区加勒比| 亚洲一区二区三区av链接| 狠狠久久亚洲欧美专区| 久操视频免费| 久久天堂av综合合色蜜桃网| 韩国精品AV| 日韩 欧美 中文 亚洲 高清 在线 91精品网站天堂系列在线播放 |