![]()
新智元報道
編輯:KingHZ
【新智元導讀】無論最終叫Veo 4還是Gemini Omni,這次泄露已足夠震撼:AI視頻不再是短視頻工具,而是擁有導演思維的敘事生產(chǎn)力。谷歌I/O當天,答案即將揭曉,而整個行業(yè),都將重新洗牌。
谷歌I/O大會開幕在即,Veo4 提前曝光!
此前,教授黑板推公式,逼真視頻刷屏全網(wǎng)——
現(xiàn)在,網(wǎng)友猜測Veo 4/Omni可以生成完整的多角度場景,在保持連貫性的同時流暢切換透視。
![]()
它還升級了原生音頻同步功能,支持對話、環(huán)境音和音樂。
視頻片段最長可達9秒,分辨率為720p。
![]()
部分泄露示例中仍存在連貫性問題,但完全同步的多機位場景看起來確實令人印象深刻。
這次關(guān)于Veo 4(或Gemini Omni)的泄露,絕不僅僅是參數(shù)的微調(diào).
它更像是一場關(guān)于「敘事權(quán)」的底層革命。
當AI開始學會從多個角度審視同一個瞬間,它實際上已經(jīng)從「畫匠」進化成了擁有空間邏輯的「導演」。
曝料人Pankaj Kumar甚至推測,谷歌應該輕松直出15秒視頻,但缺算力。所以,谷歌要聚焦于效率問題。
![]()
但要注意,目前只有Kumar一個人的轉(zhuǎn)述,是Veo4還是Gemini Omni,靜待谷歌I/O揭曉。
![]()
AI視頻學會了「切鏡頭」
為什么「多機位」這件事會讓人炸毛?
回到一年前。
Sora橫空出世那會兒,所有人驚嘆的是「AI能拍60秒電影了」。
但你仔細看就會發(fā)現(xiàn)一個問題:那60秒里,鏡頭是不動的,或者說,是連續(xù)的。
機位在場景里平滑滑動、推拉搖移,但沒有「切」。
Runway Gen-4等所有同行產(chǎn)品都一樣,生成出來的視頻本質(zhì)上是「一個長鏡頭」,哪怕鏡頭在動,也是同一臺攝影機的連續(xù)位移。
為什么不能切?
因為對AI來說,「切鏡頭」意味著同一場景、同一組人物、在同一時刻、從完全不同的視角再生成一次,而且要保證服裝顏色、桌上的杯子位置、人物表情連貫。
這是物理一致性、空間一致性、時間一致性三重壓力疊加,業(yè)界一年來都在硬碰硬地啃,沒人真做出來。
傳統(tǒng)影視行業(yè)的從業(yè)者會告訴你,這件事在劇組里叫「機位調(diào)度」,是導演的工作,而非單純攝影。
攝影師管「這個畫面好不好看」,導演管「這場戲怎么切才看得懂、看得爽」。
多機位的本質(zhì),是把場景拆成「敘事」。
![]()
Pankaj Kumar的爆料如果屬實,那Veo 4把這件事從「導演」壓進了「模型權(quán)重」。
換句話說,你不再是「讓AI拍一個鏡頭」,而是「讓AI拍一場戲」。
這是個量級躍遷。
過去, AI視頻是「短視頻素材生產(chǎn)工具」,可以做點開頭轉(zhuǎn)場、做點背景畫面。
這次,AI終于升級成「敘事生產(chǎn)工具」。
當然,前提是泄露屬實、I/O當天演示真的能跑通。
同步音頻補齊了最后一塊拼圖
爆料里第二個被反復提到的點,是音頻。
具體說法是:Veo 4 原生生成同步對話、環(huán)境音,甚至會根據(jù)畫面情境自動配背景音樂。
Veo 3已能做原生音頻了,這不是Veo 4的新發(fā)明。
去年,5月Veo 3發(fā)布時,谷歌宣傳的最大亮點之一就是「native audio」:視頻里的腳步聲、對話聲、環(huán)境噪音都跟畫面一起在模型里生成出來,不用后期對齊。
![]()
這一招把Veo 3從同行里拔了出來。
但有兩個東西Veo 3沒做好。
一是音質(zhì)本身。
5月11日那波早期用戶實測時,Reddit期待拉滿了,反饋積極,但具體到什么程度不知道,但應該比Veo 3那種「AI配音感」再前進了一步。
![]()
二是背景音樂。
Veo 3主要做環(huán)境音和對話,情境化的配樂基本不在它的活兒范圍。
Kumar這條爆料明確點出「contextual background music generated natively」,如果真的成了,意味著AI視頻從此自帶BGM。
把多機位和原生BGM放一起看,你就能感覺到谷歌這盤棋的輪廓:它不在拼「誰的畫面更細膩」、不在拼「誰的物理更逼真」。
它在拼「誰能直接出一條成片」。
鏡頭會切,聲音對得上,BGM自帶。剩下的,差一個劇本。
Sora已死,谷歌選這個時間點攤牌
Veo 4泄露的時間點,精準卡在 Sora 倒下的廢墟之上。
4月26日,OpenAI的Sora App正式停服。
![]()
回過頭看 Sora 的死因,是一部完整的商業(yè)悲劇。
燒錢。Sora推理成本據(jù)稱每天100萬到1500萬美元,比文本和圖像生成貴了不止一個量級,整個生命周期沒把單位成本壓下來。
留不住人。峰值100萬MAU,停服前跌破50萬,30天留存不到8%。
不賺錢。整個生命周期App內(nèi)收入約210萬美元,連一天的算力費都覆蓋不了。
3月24日,Sora官方賬號發(fā)出告別——「We're saying goodbye to the Sora app」。
API將在9月24日徹底關(guān)閉。
![]()
商業(yè)上的差距已經(jīng)擺在數(shù)據(jù)里。技術(shù)上的代差,這次泄露算是把帳挑明了。
OpenAI倒下的位置上,谷歌選了一個非常貼臉的時間點踩上去。
I/O當天,谷歌還會亮哪些牌
Omni只是這場泄露的一角。
同一波泄露中,谷歌即將推出的多款 Gemini 模型被意外推送到了生產(chǎn)環(huán)境 API——Gemini 3Flash、3.1全系列(Pro、Flash Image、Lite、TTS),以及專注于高保真音頻生成的Lyria 3 Pro。
![]()
最重磅的一句話藏在內(nèi)部文檔里——「Omni模型將針對所有核心模型推出專門的Agent版本。」
![]()
意思很直白。
谷歌要把視頻生成、音頻生成、Agent框架一起擺上I/O的臺面。
一年前,Pichai說要把Gemini「裝進每一個谷歌產(chǎn)品里」.
這一次,他大概會讓大家親眼看見這句話兌現(xiàn)的樣子。
參考資料:
https://x.com/pankajkumar_dev/status/2055657003624939860?s=20
https://finance.biggo.com/news/XM4gG54B2jrwCtgllkSK
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.