![]()
這項由香港大學、京東探索研究院、清華大學、北京大學和浙江大學聯合完成的研究,以技術報告形式發布于2026年4月,論文編號為arXiv:2604.25427,有興趣深入了解的讀者可通過該編號查詢完整原文。
你有沒有試過用AI視頻生成工具,結果出來的東西跟你描述的完全對不上號?或者生成的人物手指長得奇奇怪怪,畫面前后一會兒是白天一會兒是黑夜,整個視頻看起來像是拼湊出來的?這不是你的問題,這是現在幾乎所有視頻生成AI都面臨的老大難困境。
來自香港大學和京東探索研究院等機構的研究團隊,決定系統性地解決這個問題。他們把這套解決方案稱為"視頻生成后訓練框架",簡單來說,就是給已經學會"生成視頻"的AI,再上一套專門讓它"生成好視頻"的課程。
**預訓練的AI,就像剛畢業的新員工**
要理解這項研究的價值,先得明白一個道理:AI生成視頻分兩個大階段。第一階段叫"預訓練",模型會看海量的視頻和文字,學會"視頻長什么樣"這件事,有點像一個大學生花四年時間讀了很多書、看了很多案例。第二階段叫"后訓練",針對真實工作環境里的具體問題做調整,就像這個大學生入職以后要經歷試用期培訓、導師輔導、項目歷練,才能真正上手干活。
當前大多數視頻AI只完成了第一階段就直接上崗了,結果暴露出三個典型問題:第一,對用戶輸入的描述極其敏感,你換個詞、換個語序,生成結果可能天差地別;第二,視頻在時間上不連貫,同一個物體前后幀之間會莫名其妙地變形、消失或者抖動;第三,計算成本極高,生成一段視頻要等很長時間,根本不適合大規模商用。
這個研究團隊設計了一套完整的"后訓練"課程,把整個流程分成四個遞進的階段,每個階段各司其職,合力解決上面三個問題。
一、打地基:先用優質數據讓AI學會"好好說話"
整個課程的第一步,叫做"監督微調",英文縮寫是SFT。這一步的核心目標不是讓AI變得多厲害,而是讓它變得"靠譜"。
用一個更直觀的類比來理解:假設你要訓練一個廚師助手機器人。它可能已經看過幾百萬道菜的食譜,理論知識滿分,但實際操作起來,可能會把鹽和糖搞混,或者炒一半突然不動了。這時候你要做的第一件事,不是立刻讓它挑戰米其林菜單,而是讓它先把最基本的操作做對——正確識別調料、按順序完成步驟、不出安全事故。
研究團隊在這一階段做的,就是用一批精心篩選的高質量視頻-文字配對數據,專門針對AI最頻繁出現的嚴重錯誤進行糾正。這些錯誤包括:完全拒絕執行某些指令(就像廚師助手突然罷工)、生成邏輯混亂的內容(就像做菜做到一半開始往鍋里倒洗潔精)、以及產出不安全的內容。
經過這一步,AI就從一個"能力強但行為不穩定"的狀態,變成了一個"聽話、穩定、有基本判斷力"的狀態。這個穩定的狀態非常重要,因為它是后續所有進階訓練的基礎。如果跳過這一步直接做后面更復雜的優化,AI可能在優化過程中"跑偏",出現各種奇怪的退化現象。研究團隊特別強調:這一步還有一個額外好處,就是讓AI在嘗試不同生成策略時有更大的"探索空間",為后續訓練提供更好的素材。
二、用獎懲機制做精細打磨:讓AI追求真正的"好看"
AI學會了基本操作之后,下一步是教它追求更高的標準。這一階段叫做"基于人類反饋的強化學習",縮寫是RLHF,用的具體方法叫GRPO。
用獎懲機制訓練AI這件事,可以用馴犬來類比。狗學會了"坐下"這個基本指令之后,你想讓它學會更復雜的行為,就需要用零食獎勵它做對的,用平淡的態度回應它做錯的。不同的是,AI的"零食"是由一批專門的評分系統給出的分數。
這個研究里,團隊構建了四個專門的評分系統,分別負責評估不同維度的質量。第一個負責評估整體視頻美學,包括光影、色彩搭配、構圖是否好看、前后幀是否像一部電影。第二個負責評估單幀圖像質量,也就是截出任意一幀看,清晰度和精致度是否過關。第三個負責評估運動質量,物體的移動是否自然流暢,有沒有抖動、跳幀、突然變形之類的問題。第四個負責評估語義一致性,也就是生成的視頻內容和用戶描述的文字是否對得上。
然而,同時讓這四個評委打分、然后綜合他們的意見來決定是否"獎勵"AI,遠比聽起來復雜。因為這四個維度有時候會互相沖突。比如追求視覺上特別華麗,可能會讓畫面變得夸張不自然,反而和用戶的文字描述對不上;而追求文字對齊,有時候生成的畫面又會顯得平淡呆板。研究團隊花了大量精力設計評分的合并策略和各維度的權重比例,確保最終的優化方向是"整體最好"而不是"某一項特別極端"。
在具體的技術實現上,團隊面對的是視頻生成特有的挑戰:生成一段視頻需要多個連續的計算步驟,而獎勵只在最后一步給出。這就像是廚師花了兩小時做了一道菜,結果評委只在最后品嘗一口的時候才給分。如何把這一口的感受反推回去,指導每一步的烹飪操作,是個技術難題。
研究團隊采用了一種叫"同步時間步分組"的策略來解決這個問題。簡單說,就是把生成過程中的不同時間節點分給不同的訓練批次,每次只在特定節點引入隨機探索(技術上叫SDE采樣),其余時間保持確定性操作(ODE采樣)。這樣一來,每次計算的成本降低了,但AI依然能夠通過隨機探索發現更好的生成策略。團隊還引入了"時序梯度校正"機制,用一個數學公式對不同時間步的學習信號強度進行標準化,避免某些時間步的影響過大或過小。
經過這一階段的訓練之后,在實際評測中,視頻整體質量的人工評分提升了31%。視覺質量和運動流暢度的提升最為顯著,文字語義對齊方面的提升則相對有限——研究團隊坦承,這主要是因為目前文字-視頻對齊的評分系統本身還不夠準確,限制了這方面的優化效果。
三、從源頭入手:訓練一個專門"幫你描述"的助手
前兩個階段解決的是AI生成視頻的質量問題,但還有一個問題沒有解決:用戶給出的描述往往太簡單、太模糊。如果用戶只輸入"一只貓在玩耍",AI能做的最多就是生成一只在玩耍的貓,但光影、場景、風格、動作細節全靠AI自己猜。
這一階段的解法,是訓練一個專門的"提示詞增強"語言模型,充當用戶和視頻AI之間的翻譯官。用戶輸入簡單描述,這個翻譯官把它擴充、潤色、補充細節,然后再交給視頻AI處理。
這個翻譯官的訓練方式,和第二階段的視頻AI訓練異曲同工——同樣用獎懲機制,只不過被訓練的對象從視頻AI變成了語言模型,獎勵目標也略有調整。這里的評分系統有三個維度:生成的視頻和原始用戶描述的語義是否依然吻合(防止翻譯官亂加內容,把"一只貓"變成"一條狗");視頻整體視覺質量是否更好;以及增強后的描述格式是否規范、長度是否合適、AI能否正常解析執行。
這個方案的一個重要優點在于:訓練翻譯官的時候,視頻生成AI本身是被凍結的、不參與訓練。這意味著訓練成本大大降低,而且同一套翻譯官可以給不同的視頻AI使用,靈活性很高。
實測效果顯示,加入提示詞增強之后,視頻整體人工評分在已有31%提升的基礎上,又額外提升了20%。提升的主要來源依然是視覺質量和運動質量,而語義對齊基本保持穩定——說明翻譯官在幫用戶把描述說得更豐富的同時,沒有偏離用戶的原始意圖。
四、提速:讓慢吞吞的好視頻變得快起來
經過前三個階段,AI生成的視頻質量已經大幅提升。但還有一個現實問題沒解決:視頻生成太慢了。當前主流的視頻AI使用的是"雙向注意力"機制,簡單理解就是:生成第10秒的內容時,它需要同時參考第1秒到最后一秒的所有信息。這就像寫一篇文章,每寫一個字都要把整篇文章從頭到尾看一遍,效率極低。
更高效的方案是"自回歸"架構,也就是像說話一樣,只看已經說過的內容,依次往后生成。這樣可以邊生成邊播放,大幅降低等待時間。但問題在于,直接訓練一個自回歸視頻模型,很容易出現"誤差積累"問題——生成第二幀時用第一幀的內容,生成第三幀時用前兩幀,一旦某一幀出了點小錯,這個錯誤會被一直帶下去,越來越大,到最后視頻完全崩掉。
研究團隊用了一套三步走的蒸餾方案來解決這個問題。第一步,先用一種叫"分布匹配蒸餾"的技術,把原來那個慢但質量高的雙向模型,壓縮成一個步驟更少的雙向學生模型,保留它高質量生成的能力,同時減少計算量。第二步,給這個學生模型裝上"時間遮擋"機制,讓它學會只看過去的幀來預測未來的幀,完成從雙向到單向的架構轉換。這一步直接上手訓練很容易崩,所以團隊設計了一套專門的初始化策略來穩住訓練過程。第三步,用"自強迫蒸餾"方法做最終打磨——在訓練時,讓AI真正模擬上線后的工作狀態:生成每一幀時,只依賴自己之前真實生成的內容,而不是標準答案里的完美數據。通過這種方式,AI學會了如何在真實誤差存在的情況下依然生成好內容,而不是在"理想條件"下表現好、一到真實場景就垮掉。
這套方案還考慮到了音視頻同步生成的場景,專門設計了非對稱的時間對齊機制和音頻處理方式,確保音畫同步不錯位。
**從評分系統到評測協議,研究的誠實之處**
整個研究體系中,評分系統的構建本身就是一項重要工作。研究團隊參考了HPSv3的訓練范式,用Qwen3.5視覺語言模型作為特征提取骨干,配合一個多層感知機輸出最終分數,并引入了"不確定性感知排序損失"來提升評分的可靠性。他們為此收集了涵蓋視頻美學、文字-視頻對齊、圖像美學、文字-圖像對齊四個維度的標注數據。
在人工評測方面,團隊采用了"好-持平-差"三類比較協議,而沒有強迫評測人員在每對視頻中必須選出一個更好的。這種設計很實用,因為很多時候兩段視頻真的差不多,強迫選擇只會引入噪聲。評測維度覆蓋了視覺質量、運動質量和文字對齊三個方面。
研究團隊在結論中也坦誠地指出了當前框架的局限:文字對齊方面的提升效果相對有限,根本原因在于現有的文字-視頻對齊評分系統準確性還不夠高,導致這個維度的獎勵信號本身就不可靠。他們明確把"開發更準確的文字對齊評分系統"列為未來工作的重點方向。
**這對普通人意味著什么**
說到底,這項研究做的事情,是把一個"能用但不好用"的視頻AI,系統性地改造成一個"好用、快用、還能對得上你想要的效果"的工具。四個階段各自解決一類問題:第一階段保穩定,第二階段提質量,第三階段解決用戶描述能力不足的問題,第四階段解決速度瓶頸。
對于普通用戶來說,這意味著未來用AI生成視頻時,不再需要絞盡腦汁想怎么描述才能得到想要的結果;不再需要對著詭異的手指或者跳幀的畫面抓狂;也不再需要等待漫長的生成時間。對于企業來說,這套框架提供了一個可復用的后訓練藍圖,可以應用于不同的基礎視頻模型,降低了把實驗室模型轉化為產品的門檻。
研究團隊本身也承認,這不是終點。提示詞增強只優化了輸入端,視頻AI只優化了輸出端,而兩者之間的深度協同、以及如何在更長視頻、更復雜場景下保持穩定,都還有很多工作要做。但作為一套系統化的工程實踐總結,這項研究為整個行業提供了一個難得的完整參考。
有興趣進一步了解技術細節的讀者,可以通過arXiv編號2604.25427查閱原始論文。
Q&A
Q1:視頻生成AI的后訓練框架和預訓練有什么區別?
A:預訓練階段,AI通過看海量視頻和文字學會"視頻長什么樣",相當于大學四年學理論。后訓練框架則是針對實際部署中的具體問題做調整,比如糾正生成錯誤、提升畫面質量、加快生成速度,相當于入職后的實戰培訓。這篇論文設計的四階段后訓練框架,核心目標就是彌補預訓練模型和真實用戶需求之間的落差。
Q2:GRPO獎懲機制訓練視頻AI時,獎勵分數是怎么給出來的?
A:研究團隊構建了四個專門的評分系統:視頻整體美學評分系統、單幀圖像質量評分系統、運動流暢度評分系統,以及文字-視頻語義一致性評分系統。這四個系統綜合給出獎勵分數,引導AI朝著視覺質量和文字對齊同時提升的方向優化,但四者的權重需要精心調配,防止某一項過度主導優化方向。
Q3:提示詞增強模型為什么不會把用戶的原始意思改掉?
A:提示詞增強模型在訓練時設置了專門的"文字-視頻對齊"獎勵維度,確保增強后的描述和用戶原始輸入在語義上保持一致。如果翻譯官把"一只貓在玩耍"改成了完全不相關的內容,這個獎勵分數就會很低,模型就不會學習這種做法。實測數據也顯示,加入提示詞增強后,文字對齊的評分基本維持穩定,沒有因為擴充描述而跑偏。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.