網易首頁 > 網易號 > 正文申請入駐

字節也入局了，世界模型到底是一門怎樣的生意？

2026-04-25 12:33:28　來源: 字母榜

北京舉報

分享至

這兩天，世界模型這個概念非常火爆。

騰訊、阿里相繼入局之后，現在好了，字節也算是“半入局”了。

字節正式發布了Seed3D 2.0，這是3D生成模型，你給它文字、圖片、多視角圖，甚至視頻，它幫你生成3D模型。

Seed3D 2.0的第一個優勢，是它把幾何精度往生產級推了一步。

過去的3D生成，最大問題不是不夠驚艷，是不夠可靠。邊緣發軟、薄壁結構斷裂、材質只在單一光照下好看，放進游戲引擎、仿真系統或機器人訓練環境里，很快露餡。

Seed3D 2.0用兩階段DiT先搭整體結構，再補高精度細節，讓銳邊、曲面、復雜拓撲和薄結構更穩定。

第二個優勢在材質。

別的模型追求的是RGB貼圖，以達到視覺效果相似。但Seed3D 2.0追求的是統一生成PBR材質，讓金屬、粗糙度、反光邊界在不同光照下保持物理一致。

這意味著生成結果不只是截圖好看，而是更接近可進入真實渲染管線的資產。

更關鍵的是，Seed3D 2.0它現在不光是能生成3D物體，它還在生成的同時考慮這樣一個問題“我生成的物體能不能放進接下來的場景，比如游戲建模、訓練機器人這些”。

所以它支持部件級拆分、關節建模、URDF 輸出，也能做場景組合和空間布局推理。

一個椅子不只是一個整體模型，而可以被拆成座面、靠背和底座。一個物體不只是擺在那里，而可以進入仿真、交互和運動系統。

所以它的真正優點，其實是把3D生成從內容生產工具，往具身智能、工業仿真和游戲資產基礎設施推進了一步。

因此，雖然字節并沒有大大方方承認Seed3D 2.0是世界模型，但從某種意義上來說，它算是半個世界模型。

關鍵點在于，Seed3D 2.0能理解物體的空間結構、部件關系和可操作性，這就是世界模型的特點。

不過Seed3D 2.0不能持續預測世界演化，也不理解力、碰撞、摩擦、破壞、流體等物理過程，這就是為啥它只算是半個。

世界模型大戰

關于世界模型這件事，得先從李飛飛開始講起。

4月14日，李飛飛的世界模型公司World Labs發布了Spark 2.0，它是一個Web端的3D高斯濺射渲染引擎。

這個東西的作用是什么？就是讓你即使是用手機的瀏覽器，也能流暢地打開那些包含上億個粒子的3D世界。

過去做3D場景，要么用傳統的三角網格，文件巨大、加載慢；要么就是視頻，看完就沒了。

3D高斯濺射是個新路子，用數百萬個半透明的橢球體來表示場景，渲染效果接近照片級，但問題是數據量太大。一個稍微復雜點的場景就能有幾千萬個splats，普通設備根本跑不動。

Spark 2.0的核心突破在三個地方。

第一是LoD系統，也就是細節層次技術。它會預先生成不同分辨率的數據，你離得近就顯示高精度，離得遠就自動降低細節。

第二是漸進式流式傳輸，場景不是一次性加載，而是邊走邊下載，就像看流媒體視頻一樣。

第三是虛擬內存管理，在GPU里劃出一塊固定的內存池，最多容納1600萬個splats，然后不斷地把需要的數據塊換進換出。

這套技術最早是World Labs為自己的產品Marble開發的。

Marble是個AI生成3D世界的工具，能根據文字或圖片生成可以進入的3D場景。Spark 2.0解決的就是“最后一公里”的問題，它讓生成的世界可以被分享、被嵌入網頁、被任何人在任何設備上訪問。

幾乎在同一時間，英偉達發布了Lyra 2.0。

Lyra 2.0和李飛飛的World Labs雖說都是世界模型，不過前者想要解決的是長距離、大范圍3D世界生成的一致性問題。

現有的視頻生成模型有兩個致命缺陷。

第一個叫“空間遺忘”，就是鏡頭走遠了再回來，模型已經忘記之前那個地方長什么樣，只能重新編一個，結果前后對不上。

第二個叫“時間漂移”，自回歸生成的過程中，微小的誤差會不斷累積，生成幾百幀之后，顏色、結構都開始變形。

Lyra 2.0的解決方案是維護一個空間記憶系統。

每生成一幀，就把它的3D幾何信息存下來。下次要生成新視角時，先從記憶里檢索出相關的歷史幀，建立3D對應關系，然后再讓生成模型補充細節。這樣既保證了空間一致性，又能利用生成模型的想象力。

更關鍵的是，Lyra 2.0還用了一個叫“自增強歷史訓練”的技巧。

傳統訓練用的都是干凈的真實數據，但實際使用時，模型看到的是自己之前生成的、可能有瑕疵的畫面。Lyra 2.0在訓練時故意喂給模型一些帶有退化的歷史幀，教它學會糾正漂移，而不是放大錯誤。

不過，英偉達做這個不是為了讓你生成視頻，Lyra 2.0的使用場景是機器人和自動駕駛。

真實世界的訓練數據太貴、太危險，很多極端場景根本采集不到。如果能用AI生成足夠真實、足夠一致的虛擬環境，就可以在里面反復訓練、測試，然后再部署到現實中。Lyra 2.0生成的世界可以直接導出為3DGS或mesh，接入Isaac Sim這樣的仿真平臺。

就在李飛飛發布Spark 2.0的第二天，騰訊正式發布并開源了HY-World 2.0。

騰訊的路線和前兩家都不一樣，它要做的是真正的3D資產生成。

什么叫3D資產？就是那些可以導入Blender、Unity、Unreal Engine的mesh文件和3DGS文件，可以被編輯、被復用、被二次開發的東西。

HY-World 2.0的工作流程分四步。

第一步是全景圖生成，用HY-Pano 2.0模型把文字或單張圖片擴展成360度全景。第二步是軌跡規劃，用WorldNav算法分析全景圖的幾何和語義信息，自動規劃出合理的相機運動路徑。第三步是世界擴展，沿著規劃好的軌跡，用WorldStereo 2.0模型生成多個關鍵幀視角，這些視角之間要保持空間一致性。第四步是世界組合，用WorldMirror 2.0把所有關鍵幀整合成統一的3DGS場景，再優化轉換成高質量mesh。

這套流程里最難的是WorldStereo 2.0。

它要做的是新視角生成，也就是給定一個起始視角和相機運動參數，生成目標視角的畫面。難點在于既要精確跟隨相機控制，又要保持視覺細節，還要和之前生成的區域在幾何上完美銜接。

騰訊的解決方案是引入記憶機制，讓模型記住已經生成的區域的幾何和外觀特征，生成新區域時參考這些記憶，避免出現“穿幫”。

騰訊做這個的目的很明確，就是服務游戲和虛擬內容產業。傳統的游戲場景制作需要美術、建模、貼圖、燈光多個環節，一個高質量場景可能要幾個人做幾周。如果能用AI直接生成可編輯的3D資產，整個生產流程就被重構了。而且騰訊強調的是“可編輯”，生成出來的不是一段視頻，而是可以在引擎里繼續調整、繼續開發的真實資產。

就在騰訊發布的幾個小時后，阿里也扔出了自己的世界模型產品Happy Oyster。

現在好了，4家完全都是不同的，阿里想做的是實時交互的世界生成。

Happy Oyster有兩個核心模式。第一個叫Wandering，漫游模式。你給它一句話或一張圖，它就生成一個具備物理一致性的完整空間，然后你可以用第一人稱視角在里面自由移動，用WASD鍵控制方向，用鼠標控制鏡頭。場景會隨著你的移動不斷延展，物體位置穩定，光照跟隨視角變化。目前支持最長1分鐘的連續實時控制。

第二個模式叫Directing，導演模式。這個更有意思，它不是生成完就結束，而是讓你在生成過程中持續介入。視頻播放到任意時刻，你都可以用文字、語音或圖像指令來改變劇情、切換鏡頭、指揮角色。系統會實時響應，場景隨之變化，然后繼續往下演化。

阿里把Happy Oyster定位為“世界模擬器”。

傳統的文生視頻是輸入prompt、等待渲染、得到成片，這是被動的。世界模擬器是主動的，它在持續地模擬世界的演化，用戶可以隨時介入、隨時改變。這種交互方式更接近游戲，而不是看電影。

不過Happy Oyster的輸出是音視頻流，不是3D資產。它的優勢在于互動體驗和生成速度，而不是可以導出到游戲引擎。這也反映了阿里的產品思路，它瞄準的是內容創作、互動娛樂、虛擬直播這些場景，而不是游戲開發的底層工具鏈。

這個時間窗口里，國內還有兩家公司值得一提。

群核科技在2025年發布了空間生成模型SpatialGen和Aholo空間智能開放平臺，瞄準的是室內設計和具身智能場景。極佳視界的GigaWorld-1在3月底的WorldArena評測中拿下全球第一，這是一個專門面向機器人訓練的具身世界模型。

為什么都在這個時間點發

這不是簡單的撞車。這幾家公司，無論是產品成熟度、技術路線、目標場景，那真是能都不一樣的地方全都不一樣，所以不可能碰巧在同一時間準備好。

更合理的解釋是，大家都在等一個信號，而李飛飛的Spark 2.0就是那個發令槍。

過去兩年，AI圈的主旋律是大語言模型。

從GPT-4到Claude，從Gemini到DeepSeek，模型越來越大，上下文越來越長，推理能力越來越強。

但到了2026年初，這條路開始有點難走了。各家的差距在快速縮小。繼續講“我的模型比你強5%”已經很難激起市場興趣。

agent是去年的熱點，但現在也進入了擁擠區。各家都在做能調用工具、能執行任務的AI助手，技術框架大同小異，真正的差異化越來越難。

市場需要一個新故事，一個足夠大、足夠性感、能夠承載下一輪想象空間的新敘事。

世界模型就是這個新故事，聽起來比視頻生成更接近AGI。

更重要的是，世界模型是個足夠寬泛的概念，可以把內容創作、游戲開發、機器人訓練、自動駕駛、工業仿真、數字孿生這些完全不同的場景都裝進去。

從技術層面看，世界模型的時機也確實到了。

過去兩年，幾條關鍵技術線開始匯合。

視頻擴散模型提供了生成高質量動態畫面的能力，3D高斯濺射提供了高效的3D表示方法，NeRF和三維重建技術提供了從2D到3D的轉換路徑，實時渲染技術提供了在消費級設備上打開大規模場景的可能，多模態理解讓AI能夠同時處理文字、圖像、視頻輸入，物理仿真平臺提供了訓練和驗證的環境。

這些技術單獨看都不是新東西，但它們現在“熟了”。

視頻模型的質量已經足夠好，3DGS的渲染速度已經足夠快，多模態模型的理解能力已經足夠強。

當這些技術組合在一起，世界模型從概念變成了可以落地的產品。

事實上，李飛飛早在2025年6月16日舊金山的YC AI Startup School爐邊談話里，就已經把這條技術線索講得很清楚。

她回顧了自己從ImageNet一路走來的歷程，說最早推動數據驅動視覺方法時，很多人還不相信大規模數據會改變AI；2012年卷積神經網絡的爆發讓她第一次強烈意識到，視覺模型不會停留在分類和識別，而是會繼續走向圖像描述、視覺敘事，最后一路走到生成模型。

按這個脈絡看，今天的世界模型不是突然冒出來的新概念，而是計算機視覺沿著“理解世界”這條主線自然演化到更高維度的結果。

更關鍵的是，她當時強調的核心詞不是視頻生成，也不是3D內容生產，而是空間智能。

她的判斷很直接，如果AI想真正接近AGI，就不能只在語言里做概率預測，也不能只對二維像素做模式匹配，它必須理解三維空間、幾何結構、物體關系和物理規律，知道世界是怎么被組織起來、又會如何隨著時間變化。

這也是為什么空間智能看起來像下一個前沿，或者我換一種方式來表達：世界模型就是整個行業長期低估、一直沒真正啃下來的硬骨頭。

從這個角度再看最近這一波世界模型熱潮，很多事情就更容易理解了。

大家爭的表面上是渲染、生成、交互和資產化，底層爭的其實都是誰更接近“讓機器理解真實世界”這件事

。語言當然重要，但語言本質上是人類壓縮過的符號系統。

三維世界卻是連續的、動態的，充滿遮擋、視角變化和物理約束。建模語言已經很難，建模空間往往更難。所以李飛飛當時那句話的分量很重，空間智能不是一個新標簽，它是AI真正走向現實的物理世界之前必須補上的一課。

但光有技術還不夠，還需要有人來定義標準。

誰先發布，誰就有機會影響行業對“世界模型”這個詞的理解。李飛飛的World Labs在學術界和產業界都有巨大影響力，她發布Spark 2.0，等于是給世界模型這個賽道敲響了開場鑼。其他公司如果不跟進，就會在這個新敘事里失去話語權。

所以騰訊、阿里、英偉達、字節都在最近發產品。不是因為產品剛好做完，而是因為這個時間窗口太關鍵了。

晚一周發布，市場的注意力可能就被其他熱點帶走了；早一周發布，又沒有李飛飛這個“發令槍”來引爆話題。

同時，大廠們也都在搶奪定義權。世界模型現在還是個模糊的概念，到底什么算世界模型、世界模型應該輸出什么格式、應該用什么方式交互、應該接入什么樣的工具鏈，這些都還沒有定論。

誰先占據某個關鍵位置，誰就有機會把自己的標準變成行業標準。

World Labs搶的是Web分發入口。如果未來所有的3D世界都通過Spark這樣的渲染器在瀏覽器里打開，那World Labs就掌握了分發渠道。

騰訊搶的是3D資產生產入口，如果游戲公司都用HY-World 2.0來生成場景原型，那騰訊就掌握了內容生產工具。

阿里搶的是實時交互入口，如果互動內容都用Happy Oyster這樣的世界模擬器來制作，那阿里就掌握了新的內容形態。

字節搶的是3D造物入口，如果未來游戲、機器人、工業仿真里的物體模型，都通過Seed3D 2.0從文字、圖片或視頻直接生成，并且自帶幾何、PBR 材質、部件拆分和關節結構，那字節就掌握了現實物體進入數字世界的第一道入口。

英偉達搶的是仿真訓練入口，如果機器人公司都用Lyra 2.0生成的環境來訓練模型，那英偉達就掌握了物理AI的基礎設施。

所以本質上，是大家在通過不同的產品，搶占世界模型生態里的不同層級。

誰定義了世界的生成格式，誰定義了世界的渲染方式，誰定義了世界的交互范式，誰定義了世界進入仿真的路徑，誰就可能成為下一代空間AI平臺。

世界模型對企業的意義

還有一點，那就是世界模型不是一個孤立的技術，要把它放在企業實際的生產上，才能看清楚這個技術到底是用來干嘛的。

對World Labs來說，世界模型是一個完整的產品閉環。Marble負責生成3D世界，Spark負責渲染和分發。李飛飛的野心不是做一個工具，而是做一個平臺。

未來如果有人想分享一個3D場景，不是發一個幾個GB的文件讓你下載，而是發一個鏈接，你在手機瀏覽器里點開就能進入。這個體驗類似于你現在分享抖音視頻，你并不是真的把視頻下載下來，你只需要把那個二維碼發給你的小伙伴，他就能掃碼直達視頻原始網頁。

這個商業模式的關鍵在于降低門檻。

傳統的3D內容創作需要專業軟件、高性能硬件、復雜的技術知識。

Marble把創作門檻降到了“輸入一句話”，Spark又把觀看門檻降到了“點開一個鏈接”。當創作和消費的門檻都足夠低，3D內容才可能像圖片和視頻一樣成為互聯網的基礎設施。

對騰訊來說，世界模型是游戲和虛擬內容產業的生產力工具。騰訊是全球最大的游戲公司，它的核心資產是游戲IP和內容生產能力。HY-World 2.0瞄準的就是內容生產環節。

傳統游戲開發，一個高質量的3A游戲場景動輒就需要幾十個美術人員做幾個月。

即使是那種小規模的獨立游戲，場景制作也是最耗時的環節之一。如果AI能生成可編輯的3D資產，美術團隊就可以從重復性的建模工作中解放出來，把精力放在創意設計和細節打磨上。

更重要的是，HY-World 2.0生成的是真正的3D資產，不是視頻。視頻只能看，資產可以用。你可以在Unity里調整光照，可以在Blender里修改模型，可以在Unreal里添加物理效果。

這種可編輯性是騰訊強調的核心價值，因為游戲開發需要的不是成品，而是可以繼續加工的半成品。

對阿里來說，世界模型是內容形態的創新。阿里這幾年在內容領域投入很大，從優酷到大麥，從直播到短視頻，一直在尋找新的內容載體。Happy Oyster代表的是一種新的內容形態，介于視頻和游戲之間。

傳統視頻是線性的，你只能從頭看到尾。游戲是開放的，但制作成本高、門檻高。Happy Oyster想做的是“可交互的視頻”或者“低門檻的游戲”。用戶不需要學習復雜的操作，只需要用自然語言說出自己的想法，場景就會響應。這種體驗可能適合互動劇、品牌營銷、虛擬陪伴、教育培訓這些場景。

阿里的商業邏輯是流量和變現。如果Happy Oyster能夠創造出一種新的內容消費方式，就可能帶來新的流量入口和變現模式。比如虛擬直播間，主播可以實時改變場景、召喚道具、創造劇情，觀眾的參與感會比傳統直播強得多。再比如品牌營銷，用戶可以在虛擬世界里探索產品、體驗場景，這種沉浸式的互動比傳統廣告更有吸引力。

開頭我就提到了，Seed3D 2.0生成的是帶幾何結構、PBR 材質、部件拆分、關節關系的3D資產。換句話說，它生成的是“可以繼續編輯、渲染、放進引擎、甚至接入仿真的東西”。

這對字節尤其重要。字節的優勢一直是內容分發和創作者生態，他們的所有產品，都是在降低內容生產門檻。用剪映降低視頻剪輯門檻、用抖音降低視頻分發的門檻，再用Seedance降低視頻生成的門檻。

Seed3D 2.0降低的是3D資產生產的門檻。

未來如果短視頻創作者想做一個3D商品展示，不需要找建模師。電商商家想把商品變成可旋轉、可互動的模型，不需要重做一套 3D 流程。游戲團隊想快速生成道具原型，也可以直接從圖片或視頻開始。

所以，對字節來說，Seed3D 2.0的戰略價值不是“我也有一個世界模型”，而是當內容互聯網從二維視頻走向三維空間，字節要繼續掌握最低門檻、最高頻的內容生產入口。

世界模型最終的競爭不會停留在模型能力上，而是會延伸到生態層面。

誰的輸出格式被更多工具支持，誰的渲染器被更多開發者使用，誰的API被更多應用接入，誰能和Unity、Unreal、Isaac、瀏覽器這些關鍵平臺深度整合，誰就有機會成為這個領域的標準制定者。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.