網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

性能超越李飛飛，他們把10億高斯點(diǎn)的3D世界裝進(jìn)瀏覽器

2026-05-25 14:45:32　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯｜冷貓

我們知道，世界是三維的。

但互聯(lián)網(wǎng)普及至今，受限于技術(shù)、硬件和傳播載體，在幾十年的時(shí)間里，都在把這個(gè)三維世界壓成二維來(lái)表達(dá)。文字、圖片、視頻，這三種信息載體承載了我們今天在網(wǎng)上看到的幾乎一切，都已經(jīng)把這個(gè)世界降維。這是過(guò)去，互聯(lián)網(wǎng)受限于帶寬、硬件和計(jì)算能力后的「妥協(xié)」。

直到 3D 高斯?jié)姙R（3D Gaussian Splatting, 3DGS）的出現(xiàn)，才第一次讓「隨手拍、即時(shí)重建、實(shí)時(shí)漫游」三維場(chǎng)景成為可能。但這項(xiàng)技術(shù)一直卡在「最后一百米」：怎么讓普通人在瀏覽器里流暢地看？

今年 4 月，李飛飛領(lǐng)銜的 World Labs 開(kāi)源了 3D 高斯渲染引擎 Spark 2.0，瞬間引起技術(shù)圈的關(guān)注。

就在剛剛，群核科技的空間智能平臺(tái) Aholo又推進(jìn)了一步：正式了開(kāi)源 3D 高斯瀏覽器 Aholo Viewer，并且在渲染速度和大場(chǎng)景加載性能上超越了 Spark 2.0。它讓任何設(shè)備的瀏覽器都能流暢運(yùn)行10 億 +粒子的超大 3D 場(chǎng)景。

簡(jiǎn)單理解，它可以讓你像刷視頻一樣，在瀏覽器里流暢瀏覽超大的 3D 世界。就像 3D 版的抖音、B 站，超大 3D 世界也可以像視頻一樣快速傳輸。

主頁(yè)鏈接：https://aholojs.dev/zh-CN/
Github 鏈接：https://github.com/manycoretech/aholo-viewer

從更大的意義來(lái)說(shuō)，李飛飛與群核科技接連推出 3D 高斯瀏覽器，是一個(gè)時(shí)代到來(lái)的信號(hào)，代表著信息載體的范式躍遷：互聯(lián)網(wǎng)信息載體從文字、圖片、視頻，第一次真正邁向可交互、可漫游的 3D 內(nèi)容，而 3D 將成為互聯(lián)網(wǎng)的基礎(chǔ)語(yǔ)言之一。

十億高斯點(diǎn)，手機(jī)瀏覽器也能流暢跑

在三維視覺(jué)領(lǐng)域，3D 高斯?jié)姙R的出現(xiàn)是一個(gè)里程碑。

這是一種從 2023 年起在學(xué)界快速走紅的三維場(chǎng)景表示方法。它把一整個(gè)真實(shí)場(chǎng)景顯式地建模為數(shù)十萬(wàn)到數(shù)十億個(gè)可學(xué)習(xí)的 3D 高斯橢球，每個(gè)橢球帶有自己的位置、形狀、顏色和透明度，再通過(guò)可微分光柵化做實(shí)時(shí)渲染。

但新技術(shù)的出現(xiàn)，并沒(méi)有讓 3D 內(nèi)容變得像二維信息內(nèi)容一樣普及。因?yàn)?3D：

太大，傳輸難。一個(gè)完整的 3D 場(chǎng)景數(shù)據(jù)動(dòng)輒幾十 GB。
太重，加載慢。想要流暢漫游三維模型，設(shè)備性能門(mén)檻極高。

所以，Spark 和 Aholo Viewer 都在解決的一個(gè)核心問(wèn)題是：——讓 3D 內(nèi)容也能流暢加載瀏覽，點(diǎn)開(kāi)一個(gè)鏈接，就能「走進(jìn)」任何一個(gè)真實(shí)或虛擬的三維世界。

這樣，普通用戶(hù)拿起手機(jī)用 3D 方式記錄生活中的一切。商品的展示，也會(huì)逐步從靜態(tài)圖變成用戶(hù)可以在手機(jī)里隨意旋轉(zhuǎn)的 3D 場(chǎng)景。日常生活如逛博物館的線上展、看車(chē)看房等等，3D 交互體驗(yàn)會(huì)越來(lái)越無(wú)縫地融入到日常刷網(wǎng)頁(yè)的過(guò)程中。

在性能上，我們上手測(cè)試了下，對(duì)一個(gè) 3 億高斯點(diǎn)的場(chǎng)景，桌面端 Aholo Viewer占用內(nèi)存只有 Spark 2.0 的一半，加載速度快 1 倍、渲染速度快 3 倍，渲染效果也優(yōu)于 Spark 2.0。最高可流暢加載10 億高斯點(diǎn)的場(chǎng)景，是 Spark 2.0 上限的 10 倍

技術(shù)路線上，目前 Web 端 3DGS 渲染主流有兩種 LOD 組織方式，Aholo Viewer 和 Spark 2.0 各自選了一個(gè)技術(shù)方向。

Spark 2.0 選用的是 Splat-based LOD Tree，從單個(gè)高斯點(diǎn)（splat）粒度自下而上做合并，構(gòu)造連續(xù)的細(xì)節(jié)層級(jí)。

這種方案的好處是逐層加載細(xì)節(jié)，理論上能讓層級(jí)切換感不突兀，但在實(shí)際體驗(yàn)中，Spark 2.0 的細(xì)節(jié)切換感仍然比較明顯。代價(jià)則是內(nèi)存和顯存開(kāi)銷(xiāo)較大，同時(shí)后期擴(kuò)展性偏弱，難以靈活結(jié)合其他優(yōu)化手段。

Aholo Viewer 選用的是Chunk-based LOD Tree：把原始 3DGS 數(shù)據(jù)先切成 N 個(gè) chunk（數(shù)據(jù)塊），再分別為每個(gè) chunk 生成不同層級(jí)的 LOD，運(yùn)行時(shí)以 chunk 為單位做層級(jí)切換。

這個(gè)差異看著不大，效果卻很顯著。

第一是內(nèi)存與顯存的開(kāi)銷(xiāo)更可控。當(dāng)系統(tǒng)只需要為整個(gè) chunk 選層級(jí)，無(wú)需為成千上萬(wàn)個(gè) splat 各自決策，內(nèi)存調(diào)度的顆粒度更粗、緩存命中更好，與常規(guī)加載方案相比基本不引入額外開(kāi)銷(xiāo)。

第二是可擴(kuò)展性更強(qiáng)：chunk 是一個(gè)清晰的數(shù)據(jù)邊界，未來(lái)要擴(kuò)到城市級(jí)、街區(qū)級(jí)的超大場(chǎng)景，按區(qū)塊拼接、按區(qū)塊單獨(dú)聊聊更新，會(huì)比 splat 粒度的方案更容易。

在渲染管線層面，Aholo Viewer 通過(guò)多精度數(shù)據(jù)結(jié)構(gòu)降低顯存占用，通過(guò)緩存預(yù)計(jì)算與按需 pass 壓縮每幀 GPU 開(kāi)銷(xiāo)，通過(guò) Morton Sort 和 detail culling 改善數(shù)據(jù)訪問(wèn)效率。這些優(yōu)化疊加在一起，最終落到了一組用戶(hù)可感知的數(shù)字：內(nèi)存減半、加載快 1 倍、渲染快 3 倍、容量上限大 10 倍

Aholo Viewer 在細(xì)節(jié)上做得比較周全，遠(yuǎn)比 Spark 2.0 做的更細(xì)更完善。比如格式上兼容主流 3DGS 格式，還有完整的工具支持，包括數(shù)據(jù)格式轉(zhuǎn)換、3D 高斯碰撞體生成等能力。

Aholo Viewer 已經(jīng)是一個(gè)非常完善的開(kāi)源工作，已經(jīng)做好被開(kāi)發(fā)者落地產(chǎn)品應(yīng)用的準(zhǔn)備。

互聯(lián)網(wǎng)的 3D 躍遷

3D 高斯的實(shí)時(shí)傳輸和查看的技術(shù)問(wèn)題已經(jīng)解決了，但這能用來(lái)做什么？

只是把 3D 場(chǎng)景放進(jìn)瀏覽器讓用戶(hù)旋轉(zhuǎn)觀看，還不足以讓 3D 內(nèi)容像如今的短視頻一樣普及。

價(jià)值躍遷，發(fā)生在 3D 內(nèi)容從「展示媒介」變成「生產(chǎn)力工具」的那一刻：當(dāng) 3D 數(shù)據(jù)可以被編輯、被調(diào)用、被嵌入工作流、被下游系統(tǒng)消費(fèi)，這才是從「能看」到「能用」的跨越。

其實(shí)，群核科技的 Aholo 跟李飛飛的 Marble 之間有一個(gè)比較大的差異。李飛飛走的是通過(guò) AI 生成虛擬環(huán)境，而群核除了 AI 生成之外，更著重于現(xiàn)實(shí)世界的重建模擬。相比于創(chuàng)意表達(dá)，它更在意如何在物理世界做功：比如工業(yè)孿生、機(jī)器人訓(xùn)練、導(dǎo)向落地的空間設(shè)計(jì)，以及遵從物理屬性的視頻生成短劇制作等場(chǎng)景。

所以，除了推出 3D 高斯瀏覽器，Aholo 平臺(tái)上還有一整套空間智能 API，解決的則是：「3D 內(nèi)容怎么被大規(guī)模生產(chǎn)和使用」問(wèn)題。

它開(kāi)放了一整套空間能力 API，包括：

空間重建：拍一段視頻，就能將物理世界 1：1 復(fù)刻到數(shù)字世界
云端渲染：無(wú)需本地 GPU，支持光線追蹤與全局光照渲染，支持 3DGS + Mesh 混合渲染，支持以視頻流方式傳輸至不同客戶(hù)端。
3D AI 模型生成：支持圖生 3D 和文生 3D 模型，具備更強(qiáng)的材質(zhì)細(xì)節(jié)表現(xiàn)，可接入 3D 內(nèi)容生產(chǎn)工作流。

除了工具，還有 3D 數(shù)據(jù)。Aholo 上也會(huì)持續(xù)開(kāi)放 3D 高斯數(shù)據(jù)集，比如此前曾登頂 HuggingFace 趨勢(shì)榜的 InteriorGS，專(zhuān)門(mén)用于機(jī)器人和智能體仿真訓(xùn)練的 3D 高斯語(yǔ)義數(shù)據(jù)集。

至此，一個(gè)完整的空間智能全鏈路已經(jīng)形成：

重建 / 生成 3D 世界：通過(guò) Aholo 完成對(duì)真實(shí)世界的 3D 重建，或根據(jù)文字、草圖直接生成 3D 場(chǎng)景；
編輯 3D 資產(chǎn)：通過(guò)Aholo平臺(tái) 的多種 API，讓 3D 世界像網(wǎng)頁(yè)一樣可編程;
瀏覽交互：通過(guò) Aholo Viewer，讓用戶(hù)在任何設(shè)備的瀏覽器里實(shí)時(shí)漫游超大 3D 場(chǎng)景。

在硬件生態(tài)的共建上，群核科技也在探索與不同硬件方打通，包括影石創(chuàng)新、禾賽科技等硬件龍頭，推出空間重建軟硬件一體化解決方案，還有手機(jī)端 App 的推出，將原本只有專(zhuān)業(yè)人士才能掌握的 3D 空間記錄與內(nèi)容創(chuàng)作能力，下放到每一個(gè)普通人手中。

數(shù)字文旅是其中一個(gè)典型方向。文物古跡通過(guò) 3DGS 重建「活」在數(shù)字世界里，訪客在瀏覽器里就可以走進(jìn)一座數(shù)字博物館，圍繞一件文物 360 度查看與交互。

短劇制作是另一個(gè)有代表性的方向，讓數(shù)字化短劇緊跟內(nèi)容消費(fèi)潮流。一個(gè)短劇制作人拿手機(jī)拍幾段照片或視頻，就可以在 Aholo 平臺(tái)里快速重建出一個(gè)高度逼真的三維「虛擬片場(chǎng)」；然后通過(guò) Aholo API 對(duì)場(chǎng)景元素做精準(zhǔn)編輯、調(diào)整布光與道具。

基于黑神話取景地時(shí)思寺重建場(chǎng)景的AI短劇片段

文中視頻鏈接：https://mp.weixin.qq.com/s/5qK1eSsewt86hFrNrbkY5w

在過(guò)去，圖片和視頻定義了移動(dòng)互聯(lián)網(wǎng)時(shí)代。

而未來(lái)，3D 內(nèi)容會(huì)像短視頻 App 一樣普及。而 3D，也會(huì)成為下一代互聯(lián)網(wǎng)的新內(nèi)容形態(tài)。

通往物理世界的飛輪

不過(guò)，互聯(lián)網(wǎng)從二維走向三維，更深一層的變化發(fā)生在人工智能本身。

讓 AI 真正「看懂」三維世界，是過(guò)去兩三年最被密集投入的方向之一，核心目標(biāo)是讓 AI 對(duì)物理世界的理解深入到足以預(yù)測(cè)下一步會(huì)發(fā)生什么、并據(jù)此采取行動(dòng)。「世界模型」這個(gè)名詞，變成了近兩年大廠軍備競(jìng)賽的關(guān)鍵詞。

AI 能力進(jìn)化的核心在于數(shù)據(jù)。我們知道，互聯(lián)網(wǎng)上有數(shù)十億張圖片、數(shù)千億條文字、數(shù)億小時(shí)視頻，AI 幾乎已經(jīng)徹底用盡了這些數(shù)據(jù)。

而當(dāng)我們想要通向真正的 AGI，想讓 AI 進(jìn)入物理世界，或是構(gòu)建完善的世界模型，最大的瓶頸之一其實(shí)是 3D 數(shù)據(jù)的稀缺。3D 內(nèi)容的本質(zhì)，是對(duì)物理世界的數(shù)字化復(fù)刻，它能以最直接的方式為 AI 提供空間結(jié)構(gòu)、物體關(guān)系、環(huán)境屬性等關(guān)鍵 3D 數(shù)據(jù)。因此，3D 不僅是一種內(nèi)容形態(tài)，更是 AI 理解真實(shí)世界的最短數(shù)據(jù)路徑。

不管是李飛飛的 Spark，還是群核科技的 Aholo Viewer，他們真正重要的地方在于：讓 3D 內(nèi)容具備了互聯(lián)網(wǎng)級(jí)分發(fā)能力，就像過(guò)去分發(fā)的是圖片和視頻一樣。而瀏覽器是這個(gè)數(shù)據(jù)飛輪的入口。

當(dāng) 3D 瀏覽器普及，3D 內(nèi)容開(kāi)始進(jìn)入互聯(lián)網(wǎng)這條最大的分發(fā)管道，讓更多貼近真實(shí)世界的 3D 數(shù)據(jù)進(jìn)行循環(huán)，「更多人看 3D，更多 3D 被生產(chǎn)，更多 AI 訓(xùn)練數(shù)據(jù)，更智能的 3D 模型，更多人看 3D」這個(gè)飛輪才有可能真正轉(zhuǎn)起來(lái)。

這也是為什么，3DGS 瀏覽器這件事不能僅僅當(dāng)成一個(gè)前端工程的進(jìn)展去看，它是通往世界模型的一個(gè)關(guān)鍵入口。

回到本文開(kāi)頭那句 —— 世界是三維的。

只是過(guò)去幾十年，互聯(lián)網(wǎng)逼著我們把世界壓縮成二維。像 Aholo Viewer 這樣的 3D 高斯瀏覽器，只是一個(gè)開(kāi)始：未來(lái)一段時(shí)間，越來(lái)越多的網(wǎng)頁(yè)內(nèi)容、越來(lái)越多的 AI 應(yīng)用、越來(lái)越多的機(jī)器人感知，會(huì)重新與三維世界對(duì)齊。

數(shù)字世界的內(nèi)容向 3D 進(jìn)化，與真實(shí)世界的認(rèn)知對(duì)齊，是我們向物理智能，通用智能邁進(jìn)的重要一步。

而空間智能，終將像今天的搜索、地圖和短視頻一樣，成為下一代互聯(lián)網(wǎng)的基礎(chǔ)能力。

Aholo Viewer 開(kāi)源鏈接：https://github.com/manycoretech/aholo-viewer

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.