網易首頁 > 網易號 > 正文申請入駐

港大、JD探索院聯手出招：視頻AI從"能用"到"好用"，只需這四步

2026-05-06 19:26:43　來源: 科技行者

天津舉報

分享至

這項由香港大學、京東探索研究院、清華大學、北京大學和浙江大學聯合完成的研究，以技術報告形式發布于2026年4月，論文編號為arXiv:2604.25427，有興趣深入了解的讀者可通過該編號查詢完整原文。

你有沒有試過用AI視頻生成工具，結果出來的東西跟你描述的完全對不上號？或者生成的人物手指長得奇奇怪怪，畫面前后一會兒是白天一會兒是黑夜，整個視頻看起來像是拼湊出來的？這不是你的問題，這是現在幾乎所有視頻生成AI都面臨的老大難困境。

來自香港大學和京東探索研究院等機構的研究團隊，決定系統性地解決這個問題。他們把這套解決方案稱為"視頻生成后訓練框架"，簡單來說，就是給已經學會"生成視頻"的AI，再上一套專門讓它"生成好視頻"的課程。

**預訓練的AI，就像剛畢業的新員工**

要理解這項研究的價值，先得明白一個道理：AI生成視頻分兩個大階段。第一階段叫"預訓練"，模型會看海量的視頻和文字，學會"視頻長什么樣"這件事，有點像一個大學生花四年時間讀了很多書、看了很多案例。第二階段叫"后訓練"，針對真實工作環境里的具體問題做調整，就像這個大學生入職以后要經歷試用期培訓、導師輔導、項目歷練，才能真正上手干活。

當前大多數視頻AI只完成了第一階段就直接上崗了，結果暴露出三個典型問題：第一，對用戶輸入的描述極其敏感，你換個詞、換個語序，生成結果可能天差地別；第二，視頻在時間上不連貫，同一個物體前后幀之間會莫名其妙地變形、消失或者抖動；第三，計算成本極高，生成一段視頻要等很長時間，根本不適合大規模商用。

這個研究團隊設計了一套完整的"后訓練"課程，把整個流程分成四個遞進的階段，每個階段各司其職，合力解決上面三個問題。

一、打地基：先用優質數據讓AI學會"好好說話"

整個課程的第一步，叫做"監督微調"，英文縮寫是SFT。這一步的核心目標不是讓AI變得多厲害，而是讓它變得"靠譜"。

用一個更直觀的類比來理解：假設你要訓練一個廚師助手機器人。它可能已經看過幾百萬道菜的食譜，理論知識滿分，但實際操作起來，可能會把鹽和糖搞混，或者炒一半突然不動了。這時候你要做的第一件事，不是立刻讓它挑戰米其林菜單，而是讓它先把最基本的操作做對——正確識別調料、按順序完成步驟、不出安全事故。

研究團隊在這一階段做的，就是用一批精心篩選的高質量視頻-文字配對數據，專門針對AI最頻繁出現的嚴重錯誤進行糾正。這些錯誤包括：完全拒絕執行某些指令（就像廚師助手突然罷工）、生成邏輯混亂的內容（就像做菜做到一半開始往鍋里倒洗潔精）、以及產出不安全的內容。

經過這一步，AI就從一個"能力強但行為不穩定"的狀態，變成了一個"聽話、穩定、有基本判斷力"的狀態。這個穩定的狀態非常重要，因為它是后續所有進階訓練的基礎。如果跳過這一步直接做后面更復雜的優化，AI可能在優化過程中"跑偏"，出現各種奇怪的退化現象。研究團隊特別強調：這一步還有一個額外好處，就是讓AI在嘗試不同生成策略時有更大的"探索空間"，為后續訓練提供更好的素材。

二、用獎懲機制做精細打磨：讓AI追求真正的"好看"

AI學會了基本操作之后，下一步是教它追求更高的標準。這一階段叫做"基于人類反饋的強化學習"，縮寫是RLHF，用的具體方法叫GRPO。

用獎懲機制訓練AI這件事，可以用馴犬來類比。狗學會了"坐下"這個基本指令之后，你想讓它學會更復雜的行為，就需要用零食獎勵它做對的，用平淡的態度回應它做錯的。不同的是，AI的"零食"是由一批專門的評分系統給出的分數。

這個研究里，團隊構建了四個專門的評分系統，分別負責評估不同維度的質量。第一個負責評估整體視頻美學，包括光影、色彩搭配、構圖是否好看、前后幀是否像一部電影。第二個負責評估單幀圖像質量，也就是截出任意一幀看，清晰度和精致度是否過關。第三個負責評估運動質量，物體的移動是否自然流暢，有沒有抖動、跳幀、突然變形之類的問題。第四個負責評估語義一致性，也就是生成的視頻內容和用戶描述的文字是否對得上。

然而，同時讓這四個評委打分、然后綜合他們的意見來決定是否"獎勵"AI，遠比聽起來復雜。因為這四個維度有時候會互相沖突。比如追求視覺上特別華麗，可能會讓畫面變得夸張不自然，反而和用戶的文字描述對不上；而追求文字對齊，有時候生成的畫面又會顯得平淡呆板。研究團隊花了大量精力設計評分的合并策略和各維度的權重比例，確保最終的優化方向是"整體最好"而不是"某一項特別極端"。

在具體的技術實現上，團隊面對的是視頻生成特有的挑戰：生成一段視頻需要多個連續的計算步驟，而獎勵只在最后一步給出。這就像是廚師花了兩小時做了一道菜，結果評委只在最后品嘗一口的時候才給分。如何把這一口的感受反推回去，指導每一步的烹飪操作，是個技術難題。

研究團隊采用了一種叫"同步時間步分組"的策略來解決這個問題。簡單說，就是把生成過程中的不同時間節點分給不同的訓練批次，每次只在特定節點引入隨機探索（技術上叫SDE采樣），其余時間保持確定性操作（ODE采樣）。這樣一來，每次計算的成本降低了，但AI依然能夠通過隨機探索發現更好的生成策略。團隊還引入了"時序梯度校正"機制，用一個數學公式對不同時間步的學習信號強度進行標準化，避免某些時間步的影響過大或過小。

經過這一階段的訓練之后，在實際評測中，視頻整體質量的人工評分提升了31%。視覺質量和運動流暢度的提升最為顯著，文字語義對齊方面的提升則相對有限——研究團隊坦承，這主要是因為目前文字-視頻對齊的評分系統本身還不夠準確，限制了這方面的優化效果。

三、從源頭入手：訓練一個專門"幫你描述"的助手

前兩個階段解決的是AI生成視頻的質量問題，但還有一個問題沒有解決：用戶給出的描述往往太簡單、太模糊。如果用戶只輸入"一只貓在玩耍"，AI能做的最多就是生成一只在玩耍的貓，但光影、場景、風格、動作細節全靠AI自己猜。

這一階段的解法，是訓練一個專門的"提示詞增強"語言模型，充當用戶和視頻AI之間的翻譯官。用戶輸入簡單描述，這個翻譯官把它擴充、潤色、補充細節，然后再交給視頻AI處理。

這個翻譯官的訓練方式，和第二階段的視頻AI訓練異曲同工——同樣用獎懲機制，只不過被訓練的對象從視頻AI變成了語言模型，獎勵目標也略有調整。這里的評分系統有三個維度：生成的視頻和原始用戶描述的語義是否依然吻合（防止翻譯官亂加內容，把"一只貓"變成"一條狗"）；視頻整體視覺質量是否更好；以及增強后的描述格式是否規范、長度是否合適、AI能否正常解析執行。

這個方案的一個重要優點在于：訓練翻譯官的時候，視頻生成AI本身是被凍結的、不參與訓練。這意味著訓練成本大大降低，而且同一套翻譯官可以給不同的視頻AI使用，靈活性很高。

實測效果顯示，加入提示詞增強之后，視頻整體人工評分在已有31%提升的基礎上，又額外提升了20%。提升的主要來源依然是視覺質量和運動質量，而語義對齊基本保持穩定——說明翻譯官在幫用戶把描述說得更豐富的同時，沒有偏離用戶的原始意圖。

四、提速：讓慢吞吞的好視頻變得快起來

經過前三個階段，AI生成的視頻質量已經大幅提升。但還有一個現實問題沒解決：視頻生成太慢了。當前主流的視頻AI使用的是"雙向注意力"機制，簡單理解就是：生成第10秒的內容時，它需要同時參考第1秒到最后一秒的所有信息。這就像寫一篇文章，每寫一個字都要把整篇文章從頭到尾看一遍，效率極低。

更高效的方案是"自回歸"架構，也就是像說話一樣，只看已經說過的內容，依次往后生成。這樣可以邊生成邊播放，大幅降低等待時間。但問題在于，直接訓練一個自回歸視頻模型，很容易出現"誤差積累"問題——生成第二幀時用第一幀的內容，生成第三幀時用前兩幀，一旦某一幀出了點小錯，這個錯誤會被一直帶下去，越來越大，到最后視頻完全崩掉。

研究團隊用了一套三步走的蒸餾方案來解決這個問題。第一步，先用一種叫"分布匹配蒸餾"的技術，把原來那個慢但質量高的雙向模型，壓縮成一個步驟更少的雙向學生模型，保留它高質量生成的能力，同時減少計算量。第二步，給這個學生模型裝上"時間遮擋"機制，讓它學會只看過去的幀來預測未來的幀，完成從雙向到單向的架構轉換。這一步直接上手訓練很容易崩，所以團隊設計了一套專門的初始化策略來穩住訓練過程。第三步，用"自強迫蒸餾"方法做最終打磨——在訓練時，讓AI真正模擬上線后的工作狀態：生成每一幀時，只依賴自己之前真實生成的內容，而不是標準答案里的完美數據。通過這種方式，AI學會了如何在真實誤差存在的情況下依然生成好內容，而不是在"理想條件"下表現好、一到真實場景就垮掉。

這套方案還考慮到了音視頻同步生成的場景，專門設計了非對稱的時間對齊機制和音頻處理方式，確保音畫同步不錯位。

**從評分系統到評測協議，研究的誠實之處**

整個研究體系中，評分系統的構建本身就是一項重要工作。研究團隊參考了HPSv3的訓練范式，用Qwen3.5視覺語言模型作為特征提取骨干，配合一個多層感知機輸出最終分數，并引入了"不確定性感知排序損失"來提升評分的可靠性。他們為此收集了涵蓋視頻美學、文字-視頻對齊、圖像美學、文字-圖像對齊四個維度的標注數據。

在人工評測方面，團隊采用了"好-持平-差"三類比較協議，而沒有強迫評測人員在每對視頻中必須選出一個更好的。這種設計很實用，因為很多時候兩段視頻真的差不多，強迫選擇只會引入噪聲。評測維度覆蓋了視覺質量、運動質量和文字對齊三個方面。

研究團隊在結論中也坦誠地指出了當前框架的局限：文字對齊方面的提升效果相對有限，根本原因在于現有的文字-視頻對齊評分系統準確性還不夠高，導致這個維度的獎勵信號本身就不可靠。他們明確把"開發更準確的文字對齊評分系統"列為未來工作的重點方向。

**這對普通人意味著什么**

說到底，這項研究做的事情，是把一個"能用但不好用"的視頻AI，系統性地改造成一個"好用、快用、還能對得上你想要的效果"的工具。四個階段各自解決一類問題：第一階段保穩定，第二階段提質量，第三階段解決用戶描述能力不足的問題，第四階段解決速度瓶頸。

對于普通用戶來說，這意味著未來用AI生成視頻時，不再需要絞盡腦汁想怎么描述才能得到想要的結果；不再需要對著詭異的手指或者跳幀的畫面抓狂；也不再需要等待漫長的生成時間。對于企業來說，這套框架提供了一個可復用的后訓練藍圖，可以應用于不同的基礎視頻模型，降低了把實驗室模型轉化為產品的門檻。

研究團隊本身也承認，這不是終點。提示詞增強只優化了輸入端，視頻AI只優化了輸出端，而兩者之間的深度協同、以及如何在更長視頻、更復雜場景下保持穩定，都還有很多工作要做。但作為一套系統化的工程實踐總結，這項研究為整個行業提供了一個難得的完整參考。

有興趣進一步了解技術細節的讀者，可以通過arXiv編號2604.25427查閱原始論文。

Q&A

Q1：視頻生成AI的后訓練框架和預訓練有什么區別？

A：預訓練階段，AI通過看海量視頻和文字學會"視頻長什么樣"，相當于大學四年學理論。后訓練框架則是針對實際部署中的具體問題做調整，比如糾正生成錯誤、提升畫面質量、加快生成速度，相當于入職后的實戰培訓。這篇論文設計的四階段后訓練框架，核心目標就是彌補預訓練模型和真實用戶需求之間的落差。

Q2：GRPO獎懲機制訓練視頻AI時，獎勵分數是怎么給出來的？

A：研究團隊構建了四個專門的評分系統：視頻整體美學評分系統、單幀圖像質量評分系統、運動流暢度評分系統，以及文字-視頻語義一致性評分系統。這四個系統綜合給出獎勵分數，引導AI朝著視覺質量和文字對齊同時提升的方向優化，但四者的權重需要精心調配，防止某一項過度主導優化方向。

Q3：提示詞增強模型為什么不會把用戶的原始意思改掉？

A：提示詞增強模型在訓練時設置了專門的"文字-視頻對齊"獎勵維度，確保增強后的描述和用戶原始輸入在語義上保持一致。如果翻譯官把"一只貓在玩耍"改成了完全不相關的內容，這個獎勵分數就會很低，模型就不會學習這種做法。實測數據也顯示，加入提示詞增強后，文字對齊的評分基本維持穩定，沒有因為擴充描述而跑偏。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.