![]()
這兩天,世界模型這個概念非常火爆。
騰訊、阿里相繼入局之后,現在好了,字節也算是“半入局”了。
字節正式發布了Seed3D 2.0,這是3D生成模型,你給它文字、圖片、多視角圖,甚至視頻,它幫你生成3D模型。
![]()
Seed3D 2.0的第一個優勢,是它把幾何精度往生產級推了一步。
過去的3D生成,最大問題不是不夠驚艷,是不夠可靠。邊緣發軟、薄壁結構斷裂、材質只在單一光照下好看,放進游戲引擎、仿真系統或機器人訓練環境里,很快露餡。
Seed3D 2.0用兩階段DiT先搭整體結構,再補高精度細節,讓銳邊、曲面、復雜拓撲和薄結構更穩定。
第二個優勢在材質。
別的模型追求的是RGB貼圖,以達到視覺效果相似。但Seed3D 2.0追求的是統一生成PBR材質,讓金屬、粗糙度、反光邊界在不同光照下保持物理一致。
這意味著生成結果不只是截圖好看,而是更接近可進入真實渲染管線的資產。
更關鍵的是,Seed3D 2.0它現在不光是能生成3D物體,它還在生成的同時考慮這樣一個問題“我生成的物體能不能放進接下來的場景,比如游戲建模、訓練機器人這些”。
所以它支持部件級拆分、關節建模、URDF 輸出,也能做場景組合和空間布局推理。
一個椅子不只是一個整體模型,而可以被拆成座面、靠背和底座。一個物體不只是擺在那里,而可以進入仿真、交互和運動系統。
所以它的真正優點,其實是把3D生成從內容生產工具,往具身智能、工業仿真和游戲資產基礎設施推進了一步。
因此,雖然字節并沒有大大方方承認Seed3D 2.0是世界模型,但從某種意義上來說,它算是半個世界模型。
關鍵點在于,Seed3D 2.0能理解物體的空間結構、部件關系和可操作性,這就是世界模型的特點。
不過Seed3D 2.0不能持續預測世界演化,也不理解力、碰撞、摩擦、破壞、流體等物理過程,這就是為啥它只算是半個。
01
世界模型大戰
關于世界模型這件事,得先從李飛飛開始講起。
4月14日,李飛飛的世界模型公司World Labs發布了Spark 2.0,它是一個Web端的3D高斯濺射渲染引擎。
這個東西的作用是什么?就是讓你即使是用手機的瀏覽器,也能流暢地打開那些包含上億個粒子的3D世界。
過去做3D場景,要么用傳統的三角網格,文件巨大、加載慢;要么就是視頻,看完就沒了。
3D高斯濺射是個新路子,用數百萬個半透明的橢球體來表示場景,渲染效果接近照片級,但問題是數據量太大。一個稍微復雜點的場景就能有幾千萬個splats,普通設備根本跑不動。
Spark 2.0的核心突破在三個地方。
第一是LoD系統,也就是細節層次技術。它會預先生成不同分辨率的數據,你離得近就顯示高精度,離得遠就自動降低細節。
第二是漸進式流式傳輸,場景不是一次性加載,而是邊走邊下載,就像看流媒體視頻一樣。
第三是虛擬內存管理,在GPU里劃出一塊固定的內存池,最多容納1600萬個splats,然后不斷地把需要的數據塊換進換出。
這套技術最早是World Labs為自己的產品Marble開發的。
Marble是個AI生成3D世界的工具,能根據文字或圖片生成可以進入的3D場景。Spark 2.0解決的就是“最后一公里”的問題,它讓生成的世界可以被分享、被嵌入網頁、被任何人在任何設備上訪問。
幾乎在同一時間,英偉達發布了Lyra 2.0。
Lyra 2.0和李飛飛的World Labs雖說都是世界模型,不過前者想要解決的是長距離、大范圍3D世界生成的一致性問題。
現有的視頻生成模型有兩個致命缺陷。
第一個叫“空間遺忘”,就是鏡頭走遠了再回來,模型已經忘記之前那個地方長什么樣,只能重新編一個,結果前后對不上。
第二個叫“時間漂移”,自回歸生成的過程中,微小的誤差會不斷累積,生成幾百幀之后,顏色、結構都開始變形。
Lyra 2.0的解決方案是維護一個空間記憶系統。
每生成一幀,就把它的3D幾何信息存下來。下次要生成新視角時,先從記憶里檢索出相關的歷史幀,建立3D對應關系,然后再讓生成模型補充細節。這樣既保證了空間一致性,又能利用生成模型的想象力。
更關鍵的是,Lyra 2.0還用了一個叫“自增強歷史訓練”的技巧。
傳統訓練用的都是干凈的真實數據,但實際使用時,模型看到的是自己之前生成的、可能有瑕疵的畫面。Lyra 2.0在訓練時故意喂給模型一些帶有退化的歷史幀,教它學會糾正漂移,而不是放大錯誤。
不過,英偉達做這個不是為了讓你生成視頻,Lyra 2.0的使用場景是機器人和自動駕駛。
真實世界的訓練數據太貴、太危險,很多極端場景根本采集不到。如果能用AI生成足夠真實、足夠一致的虛擬環境,就可以在里面反復訓練、測試,然后再部署到現實中。Lyra 2.0生成的世界可以直接導出為3DGS或mesh,接入Isaac Sim這樣的仿真平臺。
就在李飛飛發布Spark 2.0的第二天,騰訊正式發布并開源了HY-World 2.0。
騰訊的路線和前兩家都不一樣,它要做的是真正的3D資產生成。
什么叫3D資產?就是那些可以導入Blender、Unity、Unreal Engine的mesh文件和3DGS文件,可以被編輯、被復用、被二次開發的東西。
HY-World 2.0的工作流程分四步。
第一步是全景圖生成,用HY-Pano 2.0模型把文字或單張圖片擴展成360度全景。第二步是軌跡規劃,用WorldNav算法分析全景圖的幾何和語義信息,自動規劃出合理的相機運動路徑。第三步是世界擴展,沿著規劃好的軌跡,用WorldStereo 2.0模型生成多個關鍵幀視角,這些視角之間要保持空間一致性。第四步是世界組合,用WorldMirror 2.0把所有關鍵幀整合成統一的3DGS場景,再優化轉換成高質量mesh。
這套流程里最難的是WorldStereo 2.0。
它要做的是新視角生成,也就是給定一個起始視角和相機運動參數,生成目標視角的畫面。難點在于既要精確跟隨相機控制,又要保持視覺細節,還要和之前生成的區域在幾何上完美銜接。
騰訊的解決方案是引入記憶機制,讓模型記住已經生成的區域的幾何和外觀特征,生成新區域時參考這些記憶,避免出現“穿幫”。
騰訊做這個的目的很明確,就是服務游戲和虛擬內容產業。傳統的游戲場景制作需要美術、建模、貼圖、燈光多個環節,一個高質量場景可能要幾個人做幾周。如果能用AI直接生成可編輯的3D資產,整個生產流程就被重構了。而且騰訊強調的是“可編輯”,生成出來的不是一段視頻,而是可以在引擎里繼續調整、繼續開發的真實資產。
就在騰訊發布的幾個小時后,阿里也扔出了自己的世界模型產品Happy Oyster。
現在好了,4家完全都是不同的,阿里想做的是實時交互的世界生成。
Happy Oyster有兩個核心模式。第一個叫Wandering,漫游模式。你給它一句話或一張圖,它就生成一個具備物理一致性的完整空間,然后你可以用第一人稱視角在里面自由移動,用WASD鍵控制方向,用鼠標控制鏡頭。場景會隨著你的移動不斷延展,物體位置穩定,光照跟隨視角變化。目前支持最長1分鐘的連續實時控制。
第二個模式叫Directing,導演模式。這個更有意思,它不是生成完就結束,而是讓你在生成過程中持續介入。視頻播放到任意時刻,你都可以用文字、語音或圖像指令來改變劇情、切換鏡頭、指揮角色。系統會實時響應,場景隨之變化,然后繼續往下演化。
阿里把Happy Oyster定位為“世界模擬器”。
傳統的文生視頻是輸入prompt、等待渲染、得到成片,這是被動的。世界模擬器是主動的,它在持續地模擬世界的演化,用戶可以隨時介入、隨時改變。這種交互方式更接近游戲,而不是看電影。
不過Happy Oyster的輸出是音視頻流,不是3D資產。它的優勢在于互動體驗和生成速度,而不是可以導出到游戲引擎。這也反映了阿里的產品思路,它瞄準的是內容創作、互動娛樂、虛擬直播這些場景,而不是游戲開發的底層工具鏈。
這個時間窗口里,國內還有兩家公司值得一提。
群核科技在2025年發布了空間生成模型SpatialGen和Aholo空間智能開放平臺,瞄準的是室內設計和具身智能場景。極佳視界的GigaWorld-1在3月底的WorldArena評測中拿下全球第一,這是一個專門面向機器人訓練的具身世界模型。
02
為什么都在這個時間點發
這不是簡單的撞車。這幾家公司,無論是產品成熟度、技術路線、目標場景,那真是能都不一樣的地方全都不一樣,所以不可能碰巧在同一時間準備好。
更合理的解釋是,大家都在等一個信號,而李飛飛的Spark 2.0就是那個發令槍。
過去兩年,AI圈的主旋律是大語言模型。
從GPT-4到Claude,從Gemini到DeepSeek,模型越來越大,上下文越來越長,推理能力越來越強。
但到了2026年初,這條路開始有點難走了。各家的差距在快速縮小。繼續講“我的模型比你強5%”已經很難激起市場興趣。
agent是去年的熱點,但現在也進入了擁擠區。各家都在做能調用工具、能執行任務的AI助手,技術框架大同小異,真正的差異化越來越難。
市場需要一個新故事,一個足夠大、足夠性感、能夠承載下一輪想象空間的新敘事。
世界模型就是這個新故事,聽起來比視頻生成更接近AGI。
更重要的是,世界模型是個足夠寬泛的概念,可以把內容創作、游戲開發、機器人訓練、自動駕駛、工業仿真、數字孿生這些完全不同的場景都裝進去。
從技術層面看,世界模型的時機也確實到了。
過去兩年,幾條關鍵技術線開始匯合。
視頻擴散模型提供了生成高質量動態畫面的能力,3D高斯濺射提供了高效的3D表示方法,NeRF和三維重建技術提供了從2D到3D的轉換路徑,實時渲染技術提供了在消費級設備上打開大規模場景的可能,多模態理解讓AI能夠同時處理文字、圖像、視頻輸入,物理仿真平臺提供了訓練和驗證的環境。
這些技術單獨看都不是新東西,但它們現在“熟了”。
視頻模型的質量已經足夠好,3DGS的渲染速度已經足夠快,多模態模型的理解能力已經足夠強。
當這些技術組合在一起,世界模型從概念變成了可以落地的產品。
事實上,李飛飛早在2025年6月16日舊金山的YC AI Startup School爐邊談話里,就已經把這條技術線索講得很清楚。
她回顧了自己從ImageNet一路走來的歷程,說最早推動數據驅動視覺方法時,很多人還不相信大規模數據會改變AI;2012年卷積神經網絡的爆發讓她第一次強烈意識到,視覺模型不會停留在分類和識別,而是會繼續走向圖像描述、視覺敘事,最后一路走到生成模型。
按這個脈絡看,今天的世界模型不是突然冒出來的新概念,而是計算機視覺沿著“理解世界”這條主線自然演化到更高維度的結果。
更關鍵的是,她當時強調的核心詞不是視頻生成,也不是3D內容生產,而是空間智能。
她的判斷很直接,如果AI想真正接近AGI,就不能只在語言里做概率預測,也不能只對二維像素做模式匹配,它必須理解三維空間、幾何結構、物體關系和物理規律,知道世界是怎么被組織起來、又會如何隨著時間變化。
這也是為什么空間智能看起來像下一個前沿,或者我換一種方式來表達:世界模型就是整個行業長期低估、一直沒真正啃下來的硬骨頭。
從這個角度再看最近這一波世界模型熱潮,很多事情就更容易理解了。
大家爭的表面上是渲染、生成、交互和資產化,底層爭的其實都是誰更接近“讓機器理解真實世界”這件事
。語言當然重要,但語言本質上是人類壓縮過的符號系統。
三維世界卻是連續的、動態的,充滿遮擋、視角變化和物理約束。建模語言已經很難,建模空間往往更難。所以李飛飛當時那句話的分量很重,空間智能不是一個新標簽,它是AI真正走向現實的物理世界之前必須補上的一課。
但光有技術還不夠,還需要有人來定義標準。
誰先發布,誰就有機會影響行業對“世界模型”這個詞的理解。李飛飛的World Labs在學術界和產業界都有巨大影響力,她發布Spark 2.0,等于是給世界模型這個賽道敲響了開場鑼。其他公司如果不跟進,就會在這個新敘事里失去話語權。
所以騰訊、阿里、英偉達、字節都在最近發產品。不是因為產品剛好做完,而是因為這個時間窗口太關鍵了。
晚一周發布,市場的注意力可能就被其他熱點帶走了;早一周發布,又沒有李飛飛這個“發令槍”來引爆話題。
同時,大廠們也都在搶奪定義權。世界模型現在還是個模糊的概念,到底什么算世界模型、世界模型應該輸出什么格式、應該用什么方式交互、應該接入什么樣的工具鏈,這些都還沒有定論。
誰先占據某個關鍵位置,誰就有機會把自己的標準變成行業標準。
World Labs搶的是Web分發入口。如果未來所有的3D世界都通過Spark這樣的渲染器在瀏覽器里打開,那World Labs就掌握了分發渠道。
騰訊搶的是3D資產生產入口,如果游戲公司都用HY-World 2.0來生成場景原型,那騰訊就掌握了內容生產工具。
阿里搶的是實時交互入口,如果互動內容都用Happy Oyster這樣的世界模擬器來制作,那阿里就掌握了新的內容形態。
字節搶的是3D造物入口,如果未來游戲、機器人、工業仿真里的物體模型,都通過Seed3D 2.0從文字、圖片或視頻直接生成,并且自帶幾何、PBR 材質、部件拆分和關節結構,那字節就掌握了現實物體進入數字世界的第一道入口。
英偉達搶的是仿真訓練入口,如果機器人公司都用Lyra 2.0生成的環境來訓練模型,那英偉達就掌握了物理AI的基礎設施。
![]()
所以本質上,是大家在通過不同的產品,搶占世界模型生態里的不同層級。
誰定義了世界的生成格式,誰定義了世界的渲染方式,誰定義了世界的交互范式,誰定義了世界進入仿真的路徑,誰就可能成為下一代空間AI平臺。
03
世界模型對企業的意義
還有一點,那就是世界模型不是一個孤立的技術,要把它放在企業實際的生產上,才能看清楚這個技術到底是用來干嘛的。
對World Labs來說,世界模型是一個完整的產品閉環。Marble負責生成3D世界,Spark負責渲染和分發。李飛飛的野心不是做一個工具,而是做一個平臺。
未來如果有人想分享一個3D場景,不是發一個幾個GB的文件讓你下載,而是發一個鏈接,你在手機瀏覽器里點開就能進入。這個體驗類似于你現在分享抖音視頻,你并不是真的把視頻下載下來,你只需要把那個二維碼發給你的小伙伴,他就能掃碼直達視頻原始網頁。
這個商業模式的關鍵在于降低門檻。
傳統的3D內容創作需要專業軟件、高性能硬件、復雜的技術知識。
Marble把創作門檻降到了“輸入一句話”,Spark又把觀看門檻降到了“點開一個鏈接”。當創作和消費的門檻都足夠低,3D內容才可能像圖片和視頻一樣成為互聯網的基礎設施。
對騰訊來說,世界模型是游戲和虛擬內容產業的生產力工具。騰訊是全球最大的游戲公司,它的核心資產是游戲IP和內容生產能力。HY-World 2.0瞄準的就是內容生產環節。
傳統游戲開發,一個高質量的3A游戲場景動輒就需要幾十個美術人員做幾個月。
即使是那種小規模的獨立游戲,場景制作也是最耗時的環節之一。如果AI能生成可編輯的3D資產,美術團隊就可以從重復性的建模工作中解放出來,把精力放在創意設計和細節打磨上。
更重要的是,HY-World 2.0生成的是真正的3D資產,不是視頻。視頻只能看,資產可以用。你可以在Unity里調整光照,可以在Blender里修改模型,可以在Unreal里添加物理效果。
這種可編輯性是騰訊強調的核心價值,因為游戲開發需要的不是成品,而是可以繼續加工的半成品。
對阿里來說,世界模型是內容形態的創新。阿里這幾年在內容領域投入很大,從優酷到大麥,從直播到短視頻,一直在尋找新的內容載體。Happy Oyster代表的是一種新的內容形態,介于視頻和游戲之間。
傳統視頻是線性的,你只能從頭看到尾。游戲是開放的,但制作成本高、門檻高。Happy Oyster想做的是“可交互的視頻”或者“低門檻的游戲”。用戶不需要學習復雜的操作,只需要用自然語言說出自己的想法,場景就會響應。這種體驗可能適合互動劇、品牌營銷、虛擬陪伴、教育培訓這些場景。
阿里的商業邏輯是流量和變現。如果Happy Oyster能夠創造出一種新的內容消費方式,就可能帶來新的流量入口和變現模式。比如虛擬直播間,主播可以實時改變場景、召喚道具、創造劇情,觀眾的參與感會比傳統直播強得多。再比如品牌營銷,用戶可以在虛擬世界里探索產品、體驗場景,這種沉浸式的互動比傳統廣告更有吸引力。
開頭我就提到了,Seed3D 2.0生成的是帶幾何結構、PBR 材質、部件拆分、關節關系的3D資產。換句話說,它生成的是“可以繼續編輯、渲染、放進引擎、甚至接入仿真的東西”。
這對字節尤其重要。字節的優勢一直是內容分發和創作者生態,他們的所有產品,都是在降低內容生產門檻。用剪映降低視頻剪輯門檻、用抖音降低視頻分發的門檻,再用Seedance降低視頻生成的門檻。
Seed3D 2.0降低的是3D資產生產的門檻。
未來如果短視頻創作者想做一個3D商品展示,不需要找建模師。電商商家想把商品變成可旋轉、可互動的模型,不需要重做一套 3D 流程。游戲團隊想快速生成道具原型,也可以直接從圖片或視頻開始。
所以,對字節來說,Seed3D 2.0的戰略價值不是“我也有一個世界模型”,而是當內容互聯網從二維視頻走向三維空間,字節要繼續掌握最低門檻、最高頻的內容生產入口。
世界模型最終的競爭不會停留在模型能力上,而是會延伸到生態層面。
誰的輸出格式被更多工具支持,誰的渲染器被更多開發者使用,誰的API被更多應用接入,誰能和Unity、Unreal、Isaac、瀏覽器這些關鍵平臺深度整合,誰就有機會成為這個領域的標準制定者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.