![]()
這是【德塔文·AI破局】專欄的高潮篇。昨天我們確立了“長線造世界”的宏大戰略,今天我們來看最現實的賬本。面對越來越貴的Token,還在盲目比拼“誰畫得好”是極其危險的。
這個四月,AI視頻賽道最熱鬧的一件事——一匹叫"歡樂馬"的新模型突然屠榜,把字節的即夢從第一名擠下來。阿里幾天后認領,說即將開源免費。而就在前一個月,即夢剛剛在一個月之內漲了三次價。
于是所有人都在討論:歡樂馬會不會取代即夢?可靈怎么辦?開源會不會擊穿閉源?短劇團隊該換哪家?
我想說一句可能不討喜的話——這場熱鬧,很多人正在看錯方向。
![]()
圖源:網絡
真正值得警惕的事,不是誰更強,而是Token越來越貴。
即夢一個月漲三次價,不是字節心血來潮。是AI生成視頻本身的算力賬就算不過來。視頻生成不像文字問答——你寫一篇長文給大模型看,它再回你一兩千字,這一來一回消耗的Token其實不算什么。但生成幾秒鐘的高質量視頻,它在時間軸上要同時處理畫面、運動、光影、物理、音頻——單位時間的Token消耗是文本問答的幾百倍甚至上千倍。
OpenAI那邊更直接,3月24日一刀把Sora砍了。迪士尼十億美元投資當場作廢,兩百多個超級IP授權協議全部歸零。公告發出前半小時,迪士尼還在跟OpenAI開會聊合作。
Sora是世界上技術最好的視頻模型之一。它死在哪兒?死在經濟賬上。用戶愿意花幾十塊錢看AI生成的"孫悟空大戰變形金剛",點贊完就走了,沒有持續付費的理由。算力燒得起,訂閱費收不回。
歡樂馬這次選擇開源,聽起來很慷慨,但換個角度看——這也是一個"這條賽道的閉源商業模式還沒走通"的信號。真正跑得通的生意,一般不急著開源。所以這場AI視頻大戰的表層敘事是"誰畫得更好"。
但往下看一層,真正的問題是——靠生成視頻當主業這件事,可能本身就是個過渡。
01
歡樂馬值得看的不是視頻,是世界
![]()
但歡樂馬還是值得認真看。
不是因為它把誰擠下了榜,而是——它其實不是一個"視頻模型",它是一個世界模型。這兩個詞聽起來差不多,但差別很大。
視頻模型解決的是"畫面看起來像不像"。世界模型解決的是"這個東西在現實里該怎么運作"。歡樂馬用一個統一的Transformer架構同時處理畫面和音頻,口型、腳步聲、環境音在同一次推理里生成;支持七種語言的唇形同步;長時序穩定性比前幾代顯著提升——這些能力的本質,不是"我能畫出一段看起來像視頻的東西",是"我開始理解人說話時嘴怎么動、人走路時腳怎么踩地、聲音在空間里怎么傳"。
這不是繪畫能力的升級,是對物理世界的建模能力的升級。
世界模型這個方向,在學界這兩年其實很熱。Yann LeCun一直在推他的V-JEPA,DeepMind今年發了Genie 3,英偉達做了Cosmos——路徑略有不同,但方向是一致的:讓AI不止于生成內容,而是學會這個世界的運作規律。
這才是歡樂馬真正站位的賽道。它表面上跟即夢在爭"誰畫得好",底下站著的其實是另一個問題——誰先把這個物理世界學明白。
這個差別,對不同類型的內容公司意義完全不一樣。
![]()
圖源:網絡
02
短劇不需要世界,長劇離不開世界
![]()
先說短劇。
短劇的用戶畫像很清楚——碎片時間、情緒刺激、幾分鐘解決問題。觀眾不會在一個短劇里深究"這個角色的動作軌跡是否符合物理"或者"這個場景的光影是否一致"。他們要的是爽點密集、節奏快、畫面夠看。
對這種需求,視頻生成模型就夠了。畫面看起來像、能撐住幾分鐘的注意力,就能變現。Token貴怎么辦?一邊漲價一邊壓成本——用低分辨率版本、用開源版本、用參數更少的模型、用AI漫劇替代AI真人劇。短劇的AI用法,本質上就是把它當成一個高效的打工人——又快、又便宜、又不罷工。
這條路是走得通的。AI短劇這一年的數據已經說明問題:AI仿真人短劇在百強榜里的占比從去年的7%飆到今年的38%,單分鐘成本從萬元級壓到一兩千元,一年超百億的市場規模。這是一門清清楚楚的生意。
但長劇不一樣。
長劇的觀眾要的不是"看幾個爽點",是"進入一個世界幾十個小時"。他們會盯著角色的動作一致性、場景的空間連貫性、人物關系的邏輯閉環、世界觀的完整程度。
這是對"世界"的要求,不是對"畫面"的要求。
你用視頻生成模型湊一部短劇能過關,湊一部長劇湊不下來。因為長劇的本質是——一段復雜的故事,發生在一個相對完整的世界里。短劇可以是世界的一個快照,長劇必須是這個世界在一段時間里的完整展開。
這就是為什么我說,長劇公司對AI的用法,應該跟短劇公司根本不一樣。
短劇把AI當打工人——讓它干活。長劇要把AI當合伙人——讓它幫你想事。
03
讓AI幫你想事,比讓它畫畫更值錢
![]()
“讓AI幫你想事"這句話聽起來虛,但它指的是一整套具體的東西——讓AI幫你在劇本階段識別雷區。一個人眼會漏掉的宗教沖突、政治敏感、邏輯硬傷,AI在幾分鐘內可以掃一遍,提前把風險點標出來,讓你決定改不改。
讓AI幫你沉淀調性。一家公司做了十年劇,手里有幾百萬字的劇本、幾千小時的成片、無數次的審片意見。這些東西如果只是堆在硬盤里,什么都不是。但如果你用AI做成一套可檢索、可復用的提示詞體系,它就成了這家公司獨有的"味道"——下一部戲用得上,下下部戲還用得上。
讓AI幫你協調世界觀。一個長劇拍到三四十集,演員、美術、攝影、后期、剪輯之間經常出現調性漂移——這場戲這樣演,下一場戲那樣演,觀眾看了出戲。AI如果能把整個世界觀參數化,可以實時告訴每一個環節"這場戲在這個世界里該是什么質感"。
讓AI幫你在開拍前就看到成片。用AI先把關鍵場景的走位、光線、鏡頭語言預演一遍,團隊提前達成一致再下場拍——減少的是拍攝現場的扯皮時間,省的是真金白銀的制片成本。
![]()
圖源:網絡
這些事,沒有一件是"讓AI生成畫面"。每一件都是"讓AI處理復雜信息、做判斷、沉淀經驗"。
而這種用法對Token的消耗——恰恰是合理的。
因為"畫畫"這件事是高頻、低單價的活。你每天要生成幾千個鏡頭,每一個鏡頭的決策價值不高,但消耗的Token巨大。Token越貴你越虧。
"想事"這件事是低頻、高單價的活。你一部劇可能只做幾十次關鍵決策,但每一次決策的價值是百萬甚至千萬級的——一次選題判斷、一次風險識別、一次世界觀對齊。這種場景下,Token貴一點貴得起。它處理的不是像素,是錢該怎么花、戲該怎么拍、世界該怎么長。
這就是為什么我一直說——Token越貴,AI反而越值錢。前提是你用它想事,不是讓它畫畫。
04
世界模型之后,可能還要一個"事件模型"
![]()
寫到這里,我想坦白一件事。
我前面講世界模型講得很順,但其實影視行業需要的不止世界模型。
世界模型解決的是"這個世界怎么運作"——物理規律、人的動作、環境的響應。但影視講的不是"一個世界",是"一段事情在這個世界里怎么發生"。
一個世界模型可以告訴你,這個人走進這個房間會發生什么物理反應、他說話嘴該怎么動、他打開門時光會怎么變化。但它告訴不了你——他為什么走進這個房間?他在這個房間里會發生什么樣的一段故事?這段故事會怎么在接下來的二十集里延續?又會怎么被切成長劇版、中劇版、短劇版給不同的觀眾看?
這需要另一種東西。我暫時稱它"事件模型"。
但說實話——這個概念我自己也還沒完全想清楚。
它大概的方向是:不是模擬物理,是理解"一段事情"——怎么起、怎么承、怎么轉、怎么合;怎么在一個世界觀里保持連貫;怎么在不同媒介、不同時長、不同觀眾那里呈現出不同的切面;怎么被多次調用、多次展開、多次改編而不失真。
這件事現在還沒有哪個產品能做到。學界也只有零星的雛形。我能說的只是——影視行業遲早需要它。因為我們這個行業的核心產品從來不是"畫面",是"故事"。世界模型負責畫面底下的物理,事件模型負責故事底下的邏輯。兩個加起來,才撐得起一個活著的、能反復被切片的內容宇宙。
至于它具體長什么樣、什么時候到、誰會做出來,我判斷是兩到三年內會出現比較清晰的雛形,但我不敢打包票。這篇文章里我坦誠告訴你——這部分是推測,不是判斷。
05
所以回到開頭那個問題
![]()
歡樂馬大戰即夢,在短劇圈是個大新聞。漲價也好、開源也好、屠榜也好——這些都是值得關心的事,但都是生產效率層面的事。
真正決定這個行業未來十年走向的,不在生產效率這一層。在更下面。
短劇把AI當打工人——這條路已經跑通了,接下來就是規模化和壓成本的事。
長劇要把AI當合伙人——這條路還沒有人完整跑通過,但它是長劇這個物種能不能穿越下一個十年的關鍵。
這兩條路走的不是同一門生意。用它們的人也不該是同一群人。你如果在短劇公司,AI對你來說就是成本優化器,越便宜越好;你如果在長劇公司,AI對你來說應該是世界構建的合伙人,你付得起貴的Token,因為你不是在批量生產畫面,你是在搭建能活十年的東西。
上一篇我說,做一部劇和做一個世界是兩門生意。這一篇想補上一句——未來那個"世界",不是你一個人在搭。是你和AI一起搭。
你需要的不是一個更快的打工人,是一個能跟你一起想事的合伙人。
歡樂馬和即夢的大戰很熱鬧,但這只是這場更長故事的一個開場。真正的戲,在后面。
明天專欄收官之作,德塔文將用一家昔日影視巨頭的驚天大坑,為你標出AI轉型期的四個致命死穴。
撰稿:松風
責編:蘇秦
![]()
![]()
![]()
設為星標,精彩內容不錯過
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.