<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      港大、JD探索院聯手出招:視頻AI從"能用"到"好用",只需這四步

      0
      分享至


      這項由香港大學、京東探索研究院、清華大學、北京大學和浙江大學聯合完成的研究,以技術報告形式發布于2026年4月,論文編號為arXiv:2604.25427,有興趣深入了解的讀者可通過該編號查詢完整原文。

      你有沒有試過用AI視頻生成工具,結果出來的東西跟你描述的完全對不上號?或者生成的人物手指長得奇奇怪怪,畫面前后一會兒是白天一會兒是黑夜,整個視頻看起來像是拼湊出來的?這不是你的問題,這是現在幾乎所有視頻生成AI都面臨的老大難困境。

      來自香港大學和京東探索研究院等機構的研究團隊,決定系統性地解決這個問題。他們把這套解決方案稱為"視頻生成后訓練框架",簡單來說,就是給已經學會"生成視頻"的AI,再上一套專門讓它"生成好視頻"的課程。

      **預訓練的AI,就像剛畢業的新員工**

      要理解這項研究的價值,先得明白一個道理:AI生成視頻分兩個大階段。第一階段叫"預訓練",模型會看海量的視頻和文字,學會"視頻長什么樣"這件事,有點像一個大學生花四年時間讀了很多書、看了很多案例。第二階段叫"后訓練",針對真實工作環境里的具體問題做調整,就像這個大學生入職以后要經歷試用期培訓、導師輔導、項目歷練,才能真正上手干活。

      當前大多數視頻AI只完成了第一階段就直接上崗了,結果暴露出三個典型問題:第一,對用戶輸入的描述極其敏感,你換個詞、換個語序,生成結果可能天差地別;第二,視頻在時間上不連貫,同一個物體前后幀之間會莫名其妙地變形、消失或者抖動;第三,計算成本極高,生成一段視頻要等很長時間,根本不適合大規模商用。

      這個研究團隊設計了一套完整的"后訓練"課程,把整個流程分成四個遞進的階段,每個階段各司其職,合力解決上面三個問題。

      一、打地基:先用優質數據讓AI學會"好好說話"

      整個課程的第一步,叫做"監督微調",英文縮寫是SFT。這一步的核心目標不是讓AI變得多厲害,而是讓它變得"靠譜"。

      用一個更直觀的類比來理解:假設你要訓練一個廚師助手機器人。它可能已經看過幾百萬道菜的食譜,理論知識滿分,但實際操作起來,可能會把鹽和糖搞混,或者炒一半突然不動了。這時候你要做的第一件事,不是立刻讓它挑戰米其林菜單,而是讓它先把最基本的操作做對——正確識別調料、按順序完成步驟、不出安全事故。

      研究團隊在這一階段做的,就是用一批精心篩選的高質量視頻-文字配對數據,專門針對AI最頻繁出現的嚴重錯誤進行糾正。這些錯誤包括:完全拒絕執行某些指令(就像廚師助手突然罷工)、生成邏輯混亂的內容(就像做菜做到一半開始往鍋里倒洗潔精)、以及產出不安全的內容。

      經過這一步,AI就從一個"能力強但行為不穩定"的狀態,變成了一個"聽話、穩定、有基本判斷力"的狀態。這個穩定的狀態非常重要,因為它是后續所有進階訓練的基礎。如果跳過這一步直接做后面更復雜的優化,AI可能在優化過程中"跑偏",出現各種奇怪的退化現象。研究團隊特別強調:這一步還有一個額外好處,就是讓AI在嘗試不同生成策略時有更大的"探索空間",為后續訓練提供更好的素材。

      二、用獎懲機制做精細打磨:讓AI追求真正的"好看"

      AI學會了基本操作之后,下一步是教它追求更高的標準。這一階段叫做"基于人類反饋的強化學習",縮寫是RLHF,用的具體方法叫GRPO。

      用獎懲機制訓練AI這件事,可以用馴犬來類比。狗學會了"坐下"這個基本指令之后,你想讓它學會更復雜的行為,就需要用零食獎勵它做對的,用平淡的態度回應它做錯的。不同的是,AI的"零食"是由一批專門的評分系統給出的分數。

      這個研究里,團隊構建了四個專門的評分系統,分別負責評估不同維度的質量。第一個負責評估整體視頻美學,包括光影、色彩搭配、構圖是否好看、前后幀是否像一部電影。第二個負責評估單幀圖像質量,也就是截出任意一幀看,清晰度和精致度是否過關。第三個負責評估運動質量,物體的移動是否自然流暢,有沒有抖動、跳幀、突然變形之類的問題。第四個負責評估語義一致性,也就是生成的視頻內容和用戶描述的文字是否對得上。

      然而,同時讓這四個評委打分、然后綜合他們的意見來決定是否"獎勵"AI,遠比聽起來復雜。因為這四個維度有時候會互相沖突。比如追求視覺上特別華麗,可能會讓畫面變得夸張不自然,反而和用戶的文字描述對不上;而追求文字對齊,有時候生成的畫面又會顯得平淡呆板。研究團隊花了大量精力設計評分的合并策略和各維度的權重比例,確保最終的優化方向是"整體最好"而不是"某一項特別極端"。

      在具體的技術實現上,團隊面對的是視頻生成特有的挑戰:生成一段視頻需要多個連續的計算步驟,而獎勵只在最后一步給出。這就像是廚師花了兩小時做了一道菜,結果評委只在最后品嘗一口的時候才給分。如何把這一口的感受反推回去,指導每一步的烹飪操作,是個技術難題。

      研究團隊采用了一種叫"同步時間步分組"的策略來解決這個問題。簡單說,就是把生成過程中的不同時間節點分給不同的訓練批次,每次只在特定節點引入隨機探索(技術上叫SDE采樣),其余時間保持確定性操作(ODE采樣)。這樣一來,每次計算的成本降低了,但AI依然能夠通過隨機探索發現更好的生成策略。團隊還引入了"時序梯度校正"機制,用一個數學公式對不同時間步的學習信號強度進行標準化,避免某些時間步的影響過大或過小。

      經過這一階段的訓練之后,在實際評測中,視頻整體質量的人工評分提升了31%。視覺質量和運動流暢度的提升最為顯著,文字語義對齊方面的提升則相對有限——研究團隊坦承,這主要是因為目前文字-視頻對齊的評分系統本身還不夠準確,限制了這方面的優化效果。

      三、從源頭入手:訓練一個專門"幫你描述"的助手

      前兩個階段解決的是AI生成視頻的質量問題,但還有一個問題沒有解決:用戶給出的描述往往太簡單、太模糊。如果用戶只輸入"一只貓在玩耍",AI能做的最多就是生成一只在玩耍的貓,但光影、場景、風格、動作細節全靠AI自己猜。

      這一階段的解法,是訓練一個專門的"提示詞增強"語言模型,充當用戶和視頻AI之間的翻譯官。用戶輸入簡單描述,這個翻譯官把它擴充、潤色、補充細節,然后再交給視頻AI處理。

      這個翻譯官的訓練方式,和第二階段的視頻AI訓練異曲同工——同樣用獎懲機制,只不過被訓練的對象從視頻AI變成了語言模型,獎勵目標也略有調整。這里的評分系統有三個維度:生成的視頻和原始用戶描述的語義是否依然吻合(防止翻譯官亂加內容,把"一只貓"變成"一條狗");視頻整體視覺質量是否更好;以及增強后的描述格式是否規范、長度是否合適、AI能否正常解析執行。

      這個方案的一個重要優點在于:訓練翻譯官的時候,視頻生成AI本身是被凍結的、不參與訓練。這意味著訓練成本大大降低,而且同一套翻譯官可以給不同的視頻AI使用,靈活性很高。

      實測效果顯示,加入提示詞增強之后,視頻整體人工評分在已有31%提升的基礎上,又額外提升了20%。提升的主要來源依然是視覺質量和運動質量,而語義對齊基本保持穩定——說明翻譯官在幫用戶把描述說得更豐富的同時,沒有偏離用戶的原始意圖。

      四、提速:讓慢吞吞的好視頻變得快起來

      經過前三個階段,AI生成的視頻質量已經大幅提升。但還有一個現實問題沒解決:視頻生成太慢了。當前主流的視頻AI使用的是"雙向注意力"機制,簡單理解就是:生成第10秒的內容時,它需要同時參考第1秒到最后一秒的所有信息。這就像寫一篇文章,每寫一個字都要把整篇文章從頭到尾看一遍,效率極低。

      更高效的方案是"自回歸"架構,也就是像說話一樣,只看已經說過的內容,依次往后生成。這樣可以邊生成邊播放,大幅降低等待時間。但問題在于,直接訓練一個自回歸視頻模型,很容易出現"誤差積累"問題——生成第二幀時用第一幀的內容,生成第三幀時用前兩幀,一旦某一幀出了點小錯,這個錯誤會被一直帶下去,越來越大,到最后視頻完全崩掉。

      研究團隊用了一套三步走的蒸餾方案來解決這個問題。第一步,先用一種叫"分布匹配蒸餾"的技術,把原來那個慢但質量高的雙向模型,壓縮成一個步驟更少的雙向學生模型,保留它高質量生成的能力,同時減少計算量。第二步,給這個學生模型裝上"時間遮擋"機制,讓它學會只看過去的幀來預測未來的幀,完成從雙向到單向的架構轉換。這一步直接上手訓練很容易崩,所以團隊設計了一套專門的初始化策略來穩住訓練過程。第三步,用"自強迫蒸餾"方法做最終打磨——在訓練時,讓AI真正模擬上線后的工作狀態:生成每一幀時,只依賴自己之前真實生成的內容,而不是標準答案里的完美數據。通過這種方式,AI學會了如何在真實誤差存在的情況下依然生成好內容,而不是在"理想條件"下表現好、一到真實場景就垮掉。

      這套方案還考慮到了音視頻同步生成的場景,專門設計了非對稱的時間對齊機制和音頻處理方式,確保音畫同步不錯位。

      **從評分系統到評測協議,研究的誠實之處**

      整個研究體系中,評分系統的構建本身就是一項重要工作。研究團隊參考了HPSv3的訓練范式,用Qwen3.5視覺語言模型作為特征提取骨干,配合一個多層感知機輸出最終分數,并引入了"不確定性感知排序損失"來提升評分的可靠性。他們為此收集了涵蓋視頻美學、文字-視頻對齊、圖像美學、文字-圖像對齊四個維度的標注數據。

      在人工評測方面,團隊采用了"好-持平-差"三類比較協議,而沒有強迫評測人員在每對視頻中必須選出一個更好的。這種設計很實用,因為很多時候兩段視頻真的差不多,強迫選擇只會引入噪聲。評測維度覆蓋了視覺質量、運動質量和文字對齊三個方面。

      研究團隊在結論中也坦誠地指出了當前框架的局限:文字對齊方面的提升效果相對有限,根本原因在于現有的文字-視頻對齊評分系統準確性還不夠高,導致這個維度的獎勵信號本身就不可靠。他們明確把"開發更準確的文字對齊評分系統"列為未來工作的重點方向。

      **這對普通人意味著什么**

      說到底,這項研究做的事情,是把一個"能用但不好用"的視頻AI,系統性地改造成一個"好用、快用、還能對得上你想要的效果"的工具。四個階段各自解決一類問題:第一階段保穩定,第二階段提質量,第三階段解決用戶描述能力不足的問題,第四階段解決速度瓶頸。

      對于普通用戶來說,這意味著未來用AI生成視頻時,不再需要絞盡腦汁想怎么描述才能得到想要的結果;不再需要對著詭異的手指或者跳幀的畫面抓狂;也不再需要等待漫長的生成時間。對于企業來說,這套框架提供了一個可復用的后訓練藍圖,可以應用于不同的基礎視頻模型,降低了把實驗室模型轉化為產品的門檻。

      研究團隊本身也承認,這不是終點。提示詞增強只優化了輸入端,視頻AI只優化了輸出端,而兩者之間的深度協同、以及如何在更長視頻、更復雜場景下保持穩定,都還有很多工作要做。但作為一套系統化的工程實踐總結,這項研究為整個行業提供了一個難得的完整參考。

      有興趣進一步了解技術細節的讀者,可以通過arXiv編號2604.25427查閱原始論文。

      Q&A

      Q1:視頻生成AI的后訓練框架和預訓練有什么區別?

      A:預訓練階段,AI通過看海量視頻和文字學會"視頻長什么樣",相當于大學四年學理論。后訓練框架則是針對實際部署中的具體問題做調整,比如糾正生成錯誤、提升畫面質量、加快生成速度,相當于入職后的實戰培訓。這篇論文設計的四階段后訓練框架,核心目標就是彌補預訓練模型和真實用戶需求之間的落差。

      Q2:GRPO獎懲機制訓練視頻AI時,獎勵分數是怎么給出來的?

      A:研究團隊構建了四個專門的評分系統:視頻整體美學評分系統、單幀圖像質量評分系統、運動流暢度評分系統,以及文字-視頻語義一致性評分系統。這四個系統綜合給出獎勵分數,引導AI朝著視覺質量和文字對齊同時提升的方向優化,但四者的權重需要精心調配,防止某一項過度主導優化方向。

      Q3:提示詞增強模型為什么不會把用戶的原始意思改掉?

      A:提示詞增強模型在訓練時設置了專門的"文字-視頻對齊"獎勵維度,確保增強后的描述和用戶原始輸入在語義上保持一致。如果翻譯官把"一只貓在玩耍"改成了完全不相關的內容,這個獎勵分數就會很低,模型就不會學習這種做法。實測數據也顯示,加入提示詞增強后,文字對齊的評分基本維持穩定,沒有因為擴充描述而跑偏。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “45歲獨身男子病逝15萬存款被民政局轉走”,當地回應:民政局從未經手該筆資金,系另一親屬所為,警方已赴外地調查

      “45歲獨身男子病逝15萬存款被民政局轉走”,當地回應:民政局從未經手該筆資金,系另一親屬所為,警方已赴外地調查

      極目新聞
      2026-05-12 14:27:27
      奧哈拉:看熱刺踢球簡直是種折磨,本可以徹底甩開西漢姆

      奧哈拉:看熱刺踢球簡直是種折磨,本可以徹底甩開西漢姆

      懂球帝
      2026-05-12 20:57:09
      容祖兒這輩子都逃不開?楊受成不娶也不放手,關系藏了27年

      容祖兒這輩子都逃不開?楊受成不娶也不放手,關系藏了27年

      曉踏就是我
      2026-05-12 04:28:51
      700日元變350日元!日本盒飯明著打折,為啥沒人敢等?

      700日元變350日元!日本盒飯明著打折,為啥沒人敢等?

      老特有話說
      2026-05-12 15:31:57
      記者發青島德比漏判海牛點球視頻,被西海岸老總踢出媒體群

      記者發青島德比漏判海牛點球視頻,被西海岸老總踢出媒體群

      懂球帝
      2026-05-12 13:02:21
      清軍消滅了準噶爾汗國,對當時的西方列強造成了怎樣的影響?

      清軍消滅了準噶爾汗國,對當時的西方列強造成了怎樣的影響?

      飯小妹說歷史
      2026-04-23 09:24:37
      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      52歲樸樹近況:無兒無女,沒錢沒房,成了要錢不要命的“瘋子”

      流云隨風去遠方
      2026-04-14 12:22:59
      吃他汀猝死的人增多?醫生含淚苦勸:天熱吃他汀,必須多注意4點

      吃他汀猝死的人增多?醫生含淚苦勸:天熱吃他汀,必須多注意4點

      荊醫生科普
      2026-05-08 21:10:04
      熱搜第一!無憂傳媒CEO發朋友圈「陰陽」王暖暖,被網友罵慘了

      熱搜第一!無憂傳媒CEO發朋友圈「陰陽」王暖暖,被網友罵慘了

      雷科技
      2026-05-12 17:49:06
      難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      十點街球體育
      2026-05-11 21:34:06
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      突發!百強企業老板戴學斌被刑拘 四川知名商幫巨震

      突發!百強企業老板戴學斌被刑拘 四川知名商幫巨震

      扒財經
      2026-05-12 13:03:54
      絕了!介紹弟媳給弟弟!暗地來往8年!網友:這是人干的事!

      絕了!介紹弟媳給弟弟!暗地來往8年!網友:這是人干的事!

      羅氏八卦
      2026-05-11 18:10:03
      2025就業率排名出爐:計算機跌出前五,榜一斷層領先,工科霸榜

      2025就業率排名出爐:計算機跌出前五,榜一斷層領先,工科霸榜

      狐貍先森講升學規劃
      2026-05-12 09:20:03
      5號簽!爽了,快船爽了!美記呼吁交易倫納德

      5號簽!爽了,快船爽了!美記呼吁交易倫納德

      籃球實戰寶典
      2026-05-11 16:28:21
      一棵金絲楠木價值上億!為什么樹苗才10元一棵,都沒人愿意種?

      一棵金絲楠木價值上億!為什么樹苗才10元一棵,都沒人愿意種?

      探謎未知世界
      2026-05-09 20:06:55
      直線拉升!京東一季報出爐,營收超3100億元

      直線拉升!京東一季報出爐,營收超3100億元

      證券時報e公司
      2026-05-12 19:12:48
      闊腿褲徹底失寵了,今年流行的是“豆角褲”,洋氣百搭還顯腿直

      闊腿褲徹底失寵了,今年流行的是“豆角褲”,洋氣百搭還顯腿直

      去山野間追風
      2026-05-12 18:09:09
      市民在上海街邊看到“好東西”售價僅35元,最后竟被迫支付了8700!還是假貨!果斷報警

      市民在上海街邊看到“好東西”售價僅35元,最后竟被迫支付了8700!還是假貨!果斷報警

      環球網資訊
      2026-05-12 14:30:58
      成都網友建議清退主城區共享電動車,官方回復!

      成都網友建議清退主城區共享電動車,官方回復!

      愛下廚的阿釃
      2026-05-12 19:19:31
      2026-05-12 21:20:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      8307文章數 563關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      頭條要聞

      男子自帶挖掘機為社區修路墜崖身亡 社區不認可系工亡

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進了歐戰決賽

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      手機
      藝術
      教育
      健康
      軍事航空

      手機要聞

      華為鴻蒙HarmonyOS 6.1.1 (24)開發者Beta版開啟推送

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      教育要聞

      綿陽科技城新區、游仙區、江油發布2026年義務教育招生公告(附劃片范圍、招生計劃)

      干細胞能讓人“返老還童”嗎

      軍事要聞

      知情人士披露:美國或考慮恢復對伊朗軍事行動

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人av在线资源| 午夜无码人妻AV大片| 成人在线亚洲| 91免费在线| 熟女人妻aⅴ一区二区三区麻豆| 99精品国产中文字幕| 中文字幕久一区二区| 国产亚洲精品第一综合| 国产欧美日韩在线不卡第一页| 亚洲日韩亚洲另类激情文学一| 日本丰滿岳乱DVD| a级福利毛片| 日韩av无码国产精品| av中文观看| 国产成人无码综合亚洲日韩| 在线观看亚洲欧美日本专区| 四虎永久在线精品影院| 蜜臀精品无码av在线播放| 成年女人免费碰碰视频| 国产成熟女人性满足视频| 中文字幕高清| 国内外精品成人免费视频| 人妻在线免费公开视频| 亚洲色欲或者高潮影院| 国产一区二区三区导航| 巨乳无码| 国产精品美女久久久久久麻豆| 人妻熟妇乱又伦精品无码专区| 探花无码| 蜜桃一区二区午夜啪啪| 国产aⅴ一区二区三区| 蜜芽tv国产在线精品三区| 久久精品国产精品亚洲20| 99久热在线精品视频观看| 国产菊爆视频在线观看| 亚洲第一成人在线| 亚洲一区二区三区18| 亚洲一区二区三区自拍天堂| 色综合天天综合狠狠爱_| 亚洲线精品一区二区三区| 成人免费av|