![]()
近日,清華大學智能產業研究院(AIR)DISCOVER Lab 聯合謀先飛技術、原力靈機、求之科技和地瓜機器人,提出了新一代高通量視覺高保真仿真器 GS-Playground。
該成果已被機器人領域國際頂級學術會議 RSS 2026(Robotics: Science and Systems)錄用,標志著國內具身智能仿真基礎設施在視覺保真度與訓練吞吐量兩個維度上同時取得了國際領先水平的突破。
![]()
- 論文鏈接:http://arxiv.org/abs/2604.25459
- 主頁地址:https://gsplayground.github.io
- 倉庫地址:https://github.com/discoverse-dev/gs_playground
為什么需要 GS-Playground?三大核心痛點
具身 AI 研究正在經歷從「本體感知」到「視覺感知」的范式轉移。讓機器人像人一樣「用眼睛看世界」來學習決策,是學界公認的下一代技術路線。然而,現有仿真器在服務這一目標時面臨三重瓶頸:
第一,渲染開銷過于高昂。當前主流的大規模并行仿真器(如 Isaac Lab、ManiSkill、Genesis 等)在物理仿真吞吐量上表現優異,但一旦接入高分辨率的逼真渲染管線,GPU 顯存就會被物理仿真與渲染任務爭搶殆盡,頻繁觸發顯存溢出(OOM),迫使研究者在畫面質量和訓練規模之間做出痛苦取舍。
第二,仿真資產制作極度依賴人工。構建一個同時滿足高保真物理和高保真視覺的仿真場景,通常需要大量美術建模和工程調試。3D 重建技術雖已成熟,但將其輸出轉化為「仿真可用」的數字孿生,依然是一個勞動密集的過程。
第三,Sim2Real 遷移鴻溝顯著。由于仿真畫面與真實世界在視覺和物理層面均存在差距,訓練出的策略往往難以直接部署到真實機器人上,需要大量的視覺隨機化和手工微調,進一步推高了計算成本和工程復雜度。
GS-Playground 的設計目標正是從根本上打通這三重瓶頸 ——讓照片級視覺反饋的計算成本,從「強化學習訓練的核心瓶頸」大幅度降低至「可規模化的程度」。
核心架構:物理引擎 × 批量渲染 × 自動化資產流水線
![]()
GS-Playground 架構圖
GS-Playground 并非對現有仿真器的功能疊加,而是從物理求解器、渲染后端到資產制作管線的全棧重新設計。其系統架構由三大核心層組成:
1. 自研高性能并行物理引擎
GS-Playground 采用了速度 - 沖量公式與嚴格互補約束的技術路線,基于國產自研跨平臺(Windows/Linux/macOS)并行物理引擎,同時支持 CPU 與 GPU 后端。
與業界主流方案(PhysX、MuJoCo、Taichi)不同,該引擎以犧牲梯度平滑性為代價換取了幾何精度上的顯著優勢—— 能夠精確模擬剛體的完美靜態平衡,并支持大時間步長仿真(dt=10ms)而不發散,特別適合需要精確接觸建模的操作任務。
在工程層面,團隊實現了兩項關鍵優化:約束島并行化(將約束圖動態分解為獨立子問題分發到多核 CPU 并行求解)和時間相干熱啟動(跨幀復用上一步沖量將 PGS 迭代次數從 50 + 降至不足 10 次)。在高約束密度場景下(50 個 27 自由度人形機器人并行),GS-Playground 以 1,015 FPS 的吞吐量運行,比 MuJoCo 快 32 倍,比 GPU 端 MjWarp 快約 600 倍。
在接觸穩定性方面,團隊通過牛頓擺(硬接觸與動量守恒測試)、Boston Dynamics Spot 大步長穩定性測試、以及密集貨架多體交互實驗,系統驗證了引擎在高密度接觸圖下的優越穩定性。
在抓握魯棒性的「搖晃測試」中,GS-Playground 的 CPU 后端在所有物體幾何形狀和時間步長配置下均實現了100% 的成功率(90/90),而 MuJoCo 的多個變體(Euler、Implicit、Implicit+Noslip)成功率幾乎為零,Isaac Sim 和 Genesis 的成功率也僅為 67%。
2. 高效批量 3DGS 渲染引擎
這是 GS-Playground 在渲染側的核心技術創新。平臺選擇了 3D 高斯潑濺(3D Gaussian Splatting, 3DGS)作為渲染表示,而非傳統的光線追蹤或光柵化,并圍繞其構建了一整套為吞吐量和顯存效率優化的批量渲染后端。
核心工程設計包含三個關鍵模塊:
- 高效點剪枝策略:保留約 30% 的高斯點,PSNR 損失不足 0.05dB,對視覺運動策略幾乎無感知影響;動態物體和機器人本體可進一步壓縮至僅保留 10%,從根本上緩解了大規模并行訓練中渲染與策略計算爭搶顯存的核心痛點。
- 剛體鏈高斯運動學(RLGK):將數百萬高斯點綁定到物理引擎中的低維剛體狀態,通過 GPU 批量向量操作在亞毫秒內完成同步,實現動態場景的「零開銷」視覺更新。
- 單模板批量廣播:GPU 顯存中只存一份場景模板,跨最多 2048 個并行環境進行廣播,大幅降低顯存帶寬壓力。
最終實測結果令人矚目:在 RTX 4090 單卡上,以 640×480 分辨率渲染 2048 個并行場景,總吞吐量突破 10,000 FPS。對比 Isaac Sim 的光線追蹤渲染器,GS-Playground 在所有測試分辨率和多種 GPU 架構(RTX 4090、RTX 6000 Ada、A100)上均保持大幅領先,而 Isaac Sim 在較高分辨率下頻繁出現顯存溢出。
![]()
GS-Playground 與 Isaac Sim 光線追蹤渲染器在不同分辨率下的渲染吞吐量對比
3. 自動化 Real2Sim 資產流水線
GS-Playground 還提出了一套完全自動化的「Image-to-Physics」流水線,解決仿真資產制作的「最后一公里」問題。該流水線僅需輸入一張 RGB 圖像,即可輸出仿真就緒的完整數字孿生場景:
RGB 圖像 → Grounding-DINO(開放詞匯檢測)→ SAM1/SAM2(實例分割)+ 迭代掩碼擴張 → LaMa(背景修復)→ AnySplat(場景級 3DGS 重建)+ SAM-3D(物體級 3DGS 與 Mesh 重建)→ 深度對齊 + 尺度校正 + Speedy-Splat 剪枝 → 輸出完整仿真資產
![]()
視頻鏈接:https://mp.weixin.qq.com/s/rguk3kNlH7eYOHCfiIoelg
單張圖像端到端處理時間約 5 分鐘。基于 Bridge-v2 數據集,團隊已產出配套的Bridge-GS 數據集,為每個場景補充了 3DGS 表示、物體 Mesh、6D 位姿和相機參數,驗證了流水線的批量生產能力。
全任務覆蓋:操作、導航、行走的 Sim2Real 驗證
GS-Playground 提供了完整的多模態傳感器棧,包括 RGB 相機、深度相機、三種類型的 LiDAR(旋轉式、固態、非重復掃描)、力 / 接觸傳感器及地形感知掃描,是當前唯一基于 3DGS 表示的并行 LiDAR 仿真器。在 API 層面,GS-Playground 兼容 MuJoCo MJCF 格式的完整子集,使現有 MuJoCo 項目可低摩擦遷移。
團隊在三大類具身任務上系統驗證了平臺的 Sim2Real 遷移能力:
- 四足行走(Unitree Go2):利用 1,024 個并行環境,策略在 10 分鐘內收斂,成功部署至真機實現速度跟蹤;
- 人形行走(Unitree G1):利用 2,048 個并行環境和全碰撞流形,23 自由度人形策略在約 6 小時內收斂;
- 視覺抓取(Airbot Play 機械臂):直接從 RGB 圖像學習端到端 6 自由度關節控制策略,在未經任何簡化的真實場景中實現了 90% 的零微調成功率 —— 作為對照,使用 MuJoCo、ManiSkill3 和 Isaac Lab 訓練的策略在真實世界中的成功率均為 0%;
- 視覺導航(Unitree Go2):采用分層強化學習架構,高層策略從第一人稱 RGB 圖像中學習目標搜索與導航決策,低層策略輸出關節級控制信號,仿真訓練后直接部署到真實 Go2 上,僅依靠機載攝像頭即可完成目標導向導航。
![]()
意義與展望
GS-Playground 的核心價值在于:它不是某個單點技術的改進,而是一整套面向視覺機器人學習的仿真基礎設施的重新設計。通過將照片級視覺反饋的計算成本降至可規模化的水平,GS-Playground 讓視覺強化學習首次達到了此前只有本體感知強化學習才能觸達的訓練規模。
團隊表示,GS-Playground 將完整開源全棧框架及 Bridge-GS 數據集。未來,團隊計劃利用該平臺為 VLA(視覺 - 語言 - 動作)和 VLN(視覺 - 語言 - 導航)模型合成大規模視覺訓練數據,同時構建可擴展的機器人策略驗證基準。當前版本在動態光照處理和柔性體仿真方面仍有進一步提升空間,團隊已規劃整合粒子動力學(PBD/MPIM)與高斯潑濺的技術方案來支持非剛性交互場景。
對于正在布局具身 AI 仿真基礎設施的研究團隊與工程團隊而言,GS-Playground 是當前開源方向上技術棧最完整、Sim2Real 驗證最充分的平臺之一。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.