品玩4月29日訊,據(jù) Arxiv 頁(yè)面顯示,微軟研究院與浙江大學(xué)聯(lián)合團(tuán)隊(duì)正式發(fā)布文生視頻模型訓(xùn)練框架 World-R1。
該框架創(chuàng)新性地利用強(qiáng)化學(xué)習(xí)技術(shù),使視頻生成模型在無需修改架構(gòu)且不依賴 3D 數(shù)據(jù)集的情況下,成功習(xí)得 3D 幾何一致性,有效解決了鏡頭大幅移動(dòng)時(shí)物體變形或消失的“幾何幻覺”痛點(diǎn)。
World-R1 的核心機(jī)制在于將 3D 一致性約束轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)。系統(tǒng)通過 Depth Anything 3 重建 3DGS 場(chǎng)景并渲染新視角,結(jié)合 Qwen3-VL 評(píng)分與重建誤差計(jì)算獎(jiǎng)勵(lì),利用 Flow-GRPO 算法反饋給模型。同時(shí),團(tuán)隊(duì)引入了每 100 步一次的“動(dòng)態(tài)微調(diào)”策略,在強(qiáng)化幾何約束的同時(shí),確保人物運(yùn)動(dòng)等動(dòng)態(tài)效果的流暢性。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.