<tr id="tp1vn"><td id="tp1vn"><dl id="tp1vn"></dl></td></tr>
  1. <p id="tp1vn"></p>
  2. <sub id="tp1vn"><p id="tp1vn"></p></sub>
    <u id="tp1vn"><rp id="tp1vn"></rp></u>
    <meter id="tp1vn"></meter>
      <wbr id="tp1vn"><sup id="tp1vn"></sup></wbr>
      日韩第一页浮力,欧美a在线,中文字幕无码乱码人妻系列蜜桃 ,国产成人精品三级麻豆,国产男女爽爽爽免费视频,中文字幕国产精品av,两个人日本www免费版,国产v精品成人免费视频71pao
      網易首頁 > 網易號 > 正文 申請入駐

      Hallo-Live 讓文本驅動音視頻數字人邁入實時流式生成

      0
      分享至



      本文第一作者李淳譽為復旦大學博士生,主要研究方向為視頻生成擴散模型;復旦大學碩士生李佳燁為共同一作。復旦大學教授,上海創智學院全時導師朱思語為通訊作者。

      文本驅動的音視頻數字人,正在從 “能生成” 走向 “能實時交互”。但這條路并不好走。一方面,視頻和語音的聯合生成本身就是高維、重計算任務;另一方面,一旦為了速度做激進加速,嘴型同步、語音自然度和人物細節往往會一起下滑。

      最近,來自上海創智學院、復旦大學等機構的研究者提出了Hallo-Live,試圖正面解決這個矛盾。論文于2026 年 4 月 26 日發布在 arXiv。該方法將 異步雙流擴散(Asynchronous Dual-Stream Diffusion) 與人類偏好引導蒸餾(Human-Centric Preference-Guided DMD)結合起來,在兩張 NVIDIA H200 GPU 上實現了20.38 FPS的吞吐與0.94 秒的端到端延遲;相較教師模型 Ovi,吞吐提升16.0 倍,延遲下降99.3%,同時仍保持接近教師模型的視覺質量和音畫同步效果。



      • 論文標題:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
      • 論文鏈接:https://arxiv.org/abs/2604.23632
      • 代碼地址:https://github.com/fudan-generative-vision/Hallo-Live

      此 demo 展示了 Hallo-Live 在動漫風格、寫實人物和 Multi-speaker 場景下的實時文本驅動音視頻生成效果。

      為什么實時音視頻生成這么難?

      和傳統的音頻驅動數字人不同,文本驅動音視頻生成要同時完成兩件事:先 “理解” 文本里的人物、場景、語氣和聲學環境,再同步生成對應的說話視頻與語音。這意味著模型不僅要保證畫面質量和語音自然度,還要把嘴型、發音、表情甚至上半身動作卡在同一個時間軸上。

      已有工作里,Ovi 等雙流擴散模型已經證明,音頻流和視頻流分開建模、再做跨模態融合,是一條有效路線。但問題在于,這類模型通常更偏向離線高質量生成,離實時交互還有明顯距離。作者指出,真正把它改造成流式系統時,會遇到兩個核心瓶頸:

      • 嚴格因果的塊級注意力看不到 “短時未來” 語音信息。但真實說話中,嘴唇動作往往會先于聲音到來,存在明顯的協同發音現象。
      • 少步蒸餾雖然能提速,但容易帶來 “均值化” 退化。結果就是視頻紋理變糊、語音更機械、音畫對齊也更容易漂移。

      Hallo-Live 整體框架

      Hallo-Live 包含兩個訓練階段。Stage 1 是Dual-Stream ODE Init:模型同時輸入不同 noise level 的音視頻 blocks,基于單模態和跨模態的 Block-Causal Mask 訓練雙流 DiT,使訓練階段的可見性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD:學生模型基于音視頻 KV Cache 自回歸生成完整音視頻,再引入音頻、視頻和音視頻同步相關的 reward,對雙流 DMD 損失進行加權,從而把教師模型蒸餾為 few-step 模型。



      Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元:視頻流和音頻流先分別做單模態 Block-Causal Self-Attention,再注入文本條件,隨后通過跨模態 Block-Causal Cross-Attention 交換信息,在流式生成下完成音視頻融合。其中,視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask,讓當前視頻塊能夠看到少量未來音頻上下文。



      關鍵技術 1:

      Future-Expanding Attention

      論文第一個創新設計,是Future-Expanding Attention。作者觀察到,如果視頻流只能看到當前和過去的音頻塊,那么模型很難做出自然的提前張口、閉口、唇齒過渡等動作。于是,他們把視頻到音頻的跨模態注意力做成 “非對稱” 的:視頻仍然聚焦當前塊,但音頻鍵值范圍會額外向前擴一小段 look-ahead 窗口。

      這相當于給視頻流一個短時的 “預讀區”。重要的是,這個未來音頻塊并不是最終輸出,而是一個臨時的、可被下一步覆蓋的過渡塊,因此不會損失最終生成的音頻質量。



      從直覺上看,Strict Block-Causal Attention 只能看當前音頻,而 Future-Expanding Attention 允許視頻塊訪問少量未來音頻,從而改善口型同步效果。

      關鍵技術 2:

      把 “偏好” 直接蒸餾進學生模型

      如果說 Future-Expanding Attention 解決的是 “看不見未來語音” 的問題,那么HP-DMD解決的則是 “加速以后為什么會變丑、變僵、變不同步”。

      作者的做法是把蒸餾目標從單純模仿教師分布,轉向 “獎勵加權后的教師分布”。其中:

      • VideoAlign負責衡量視頻美學與文本 / 畫面對齊
      • SyncNet負責衡量唇形與語音是否同步
      • AudioBox負責衡量語音自然度與聲學質量

      如果用更接近 RL / reward optimization 的語言來寫,Hallo-Live 的核心不是直接做 policy gradient,而是先給學生模型生成的樣本打分,再把這些 reward 通過指數重加權注入蒸餾目標。從分布視角看,它等價于不再單純擬合教師分布 p_T,而是去擬合一個被 reward 傾斜過的新目標分布:

      直觀理解,這套寫法更像 “reward-weighted distillation” 而不是傳統強化學習里的策略梯度更新:模型并不直接對動作概率做 RL 優化,而是通過 reward 重新塑形 student 要逼近的目標分布。

      結果如何?

      速度幾乎 “斷層領先”,質量接近重型教師模型

      從主要結果來看,Hallo-Live 最突出的優勢就是把文本到音視頻生成首次真正推入了實時區間。



      從指標結果來看:

      • 速度:Hallo-Live 達到20.38 FPS0.94 秒延遲,明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
      • 質量:在VideoAlign Overall(2.32)Sync-C(4.72)以及人類保真度(0.90 / 0.98 / 0.92)等指標上,Hallo-Live 整體接近 Ovi 和 LTX-2,沒有因為提速而出現明顯失真。

      這組結果說明,Hallo-Live 并不是用極端犧牲質量去換取速度,而是在質量基本守住的前提下,把系統推到了可交互的速度等級。對于數字人直播、角色扮演和虛擬主持等場景,這一點非常關鍵。

      意義與展望

      Hallo-Live 的價值,不只是把速度做快了一點,而是提出了一種很有代表性的技術路線:在保持流式因果生成框架的前提下,完成視頻和語音的聯合生成。對數字人行業來說,提供了一種可部署、可交互、可擴展的模型形態。

      當然,論文也沒有宣稱問題已經被完全解決。比如,從指標看,Hallo-Live 在同步和語音質量上仍未全面超過最強離線或重型模型;另一方面,當前實驗平臺仍依賴兩張 NVIDIA H200,距離更低成本硬件部署還有優化空間。不過,如果把“實時文本驅動音視頻數字人”看作一個長期目標,Hallo-Live 已經給出了一份相當明確的階段性答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      網購時要注意了,“旗艦店”和“官方店”一字之差,天壤地別!

      網購時要注意了,“旗艦店”和“官方店”一字之差,天壤地別!

      另子維愛讀史
      2026-05-25 07:55:09
      友誼勛章含金量多少?我國一共頒發了多少枚友誼勛章?

      友誼勛章含金量多少?我國一共頒發了多少枚友誼勛章?

      華庭講美食
      2026-05-26 13:35:51
      谷歌聯手黑石50億美元入局,英偉達最大對手來了

      谷歌聯手黑石50億美元入局,英偉達最大對手來了

      全棧遛狗員
      2026-05-26 04:34:21
      楊梅產業已經完蛋,最大的問題不是泡藥水,而是特質透明水清無魚

      楊梅產業已經完蛋,最大的問題不是泡藥水,而是特質透明水清無魚

      愛下廚的阿椅
      2026-05-27 07:44:13
      25分鐘僅拿1分!賽后卻獲主教練力捧,他防住了對方頭號得分手

      25分鐘僅拿1分!賽后卻獲主教練力捧,他防住了對方頭號得分手

      老葉評球
      2026-05-26 22:41:33
      “基輔所有地區均遭破壞”,英法等五國否決加大對烏援助方案

      “基輔所有地區均遭破壞”,英法等五國否決加大對烏援助方案

      近距離
      2026-05-25 12:08:12
      波爾不再隱瞞!回應樊振東未回歸國乒緣由,直言旁人無權妄加揣測

      波爾不再隱瞞!回應樊振東未回歸國乒緣由,直言旁人無權妄加揣測

      十點街球體育
      2026-05-27 12:21:01
      新式床一出,雙人床落伍了!學深圳年輕人的做法,簡直不要太香!

      新式床一出,雙人床落伍了!學深圳年輕人的做法,簡直不要太香!

      室內設計師有料兒
      2026-05-26 15:53:23
      新華社消息|在美日資企業工廠爆炸致多人死傷

      新華社消息|在美日資企業工廠爆炸致多人死傷

      新華社
      2026-05-27 09:37:33
      沒想到,馬斯克離開中國才一天,78歲母親一句話讓中國網友破防

      沒想到,馬斯克離開中國才一天,78歲母親一句話讓中國網友破防

      南風不及你溫柔
      2026-05-22 05:13:52
      她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

      她憑一己之力,把吳某凡送進監獄,沒想到如今也栽了,不值得同情

      探源歷史
      2026-04-25 19:19:53
      這跟不穿有啥區別?戛納閉幕式,女星下垂、副乳突出,露的好辣眼

      這跟不穿有啥區別?戛納閉幕式,女星下垂、副乳突出,露的好辣眼

      嫹筆牂牂
      2026-05-26 07:30:48
      17罰?雷霆贏了天王山,裁判…

      17罰?雷霆贏了天王山,裁判…

      風子說個球
      2026-05-27 13:18:44
      男子離婚冷靜期打暈妻子扔下土崖,作案后試探岳父母態度,決定是否隱瞞妻子死訊,一審未當庭宣判

      男子離婚冷靜期打暈妻子扔下土崖,作案后試探岳父母態度,決定是否隱瞞妻子死訊,一審未當庭宣判

      極目新聞
      2026-05-27 08:56:06
      朱芳雨對成績不滿,廣東男籃接觸狀元內線,球隊鋒線大將欲離隊

      朱芳雨對成績不滿,廣東男籃接觸狀元內線,球隊鋒線大將欲離隊

      安海客
      2026-05-27 11:49:48
      中央政法委:確保人民群眾每一項訴求都有人辦、依法辦

      中央政法委:確保人民群眾每一項訴求都有人辦、依法辦

      新京報
      2026-05-27 12:00:41
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      臺積電已無法向美國交代了!張忠謀沒有說謊:臺積電也萬般無奈了

      臺積電已無法向美國交代了!張忠謀沒有說謊:臺積電也萬般無奈了

      阿傖說事
      2026-05-27 13:18:29
      國球尊嚴不容侵犯!劉國梁英明,堅決拒絕張本智和回國訓練請求

      國球尊嚴不容侵犯!劉國梁英明,堅決拒絕張本智和回國訓練請求

      拳擊時空
      2026-05-25 06:05:07
      湖北大娘硬訛收割機后續!警方介入,當地人再曝惡行,根本惹不起

      湖北大娘硬訛收割機后續!警方介入,當地人再曝惡行,根本惹不起

      小鋭有話說
      2026-05-27 08:55:25
      2026-05-27 14:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13091文章數 142653關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

      態度原創

      家居
      時尚
      數碼
      教育
      軍事航空

      家居要聞

      古老而持久 石影扶手椅

      多巴胺“粉”,赫本是這樣穿的!

      數碼要聞

      水月雨發布Armature Art 24二十四單元純動鐵入耳式耳機,6999元

      教育要聞

      江西現代職業技術學院:值得填報嗎?熱門專業就業現狀及報考分析#搜索千校視頻計劃

      軍事要聞

      特朗普稱要和賴清德談軍售 國臺辦回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩在线观看a| 无码av在线a∨天堂毛片| 久久综合网络一区二区| 中国国产一级毛片| 翘臀后进少妇大白嫩屁股| 网站美女视频www硬| 大屁股肥熟女流白浆| 亚洲精品2区3区| 亚洲一区在线播放蜜臀| 色妞av永久一区二区国产av| 99久久er热在这里只有精品99| 亚洲午夜天堂| av无码在线观看| A级毛片无码久久精品免费| 国产最新AV在线播放不卡| 亚洲制服丝袜一区二区三区 | 婷婷久香综合在线| 最近最新中文字幕视频| 免费一级毛片在级播放| 大理市| 色噜噜在线观看| 理论片87福利理论电影| 日韩av一二三四区| 国产麻豆成人精品av| 国模精品| 国产精品亚洲A∨天堂不卡| 色噜噜狠狠狠综合曰曰曰| 日本一区二区三区免费播放视频站| 女人18毛片水真多免费视频| 亚洲第一av网站| 成人中文字幕无码| 精品无码国模私拍视频| 天堂av资源在线免费| 午夜无码无遮挡在线视频| 欧美成人精品三级在线观看| 5566先锋影音夜色资源站在线观看| 国产精品天堂蜜av在线播放| 好吊色欧美一区二区三区四区| 加勒比HEZYO无码av| 国产69精品久久久久9999apgf | 黑人粗硬进入过程视频|