網易首頁 > 網易號 > 正文申請入駐

港科大聯手社區開源StarVLA：一個框架揭秘所有主流VLA

2026-05-09 11:30:18　來源: 機器之心Pro

天津舉報

分享至

如果說 2017 年的 PyTorch 讓深度學習從 "少數派的煉丹爐" 變成了 "人人可用的工程平臺"，那么具身智能（Embodied AI）正在等待屬于它自己的 "PyTorch 時刻"。

過去兩年，VLA（Vision-Language-Action，視覺-語言-動作）模型幾乎是機器人領域最火熱的方向：從 Google 的 RT-2、Physical Intelligence 的 π?，到 NVIDIA 的 GR00T、OpenVLA、Cosmos…… 幾乎每隔幾周就有新模型刷屏。但走進任何一個機器人實驗室你都會發現一個尷尬的現實：

想復現一篇論文？代碼不全、數據接口對不上；
想公平對比兩種方法？訓練協議、評估基準各搞一套；
想換個動作頭試試？整個工程幾乎要重寫一遍；
想知道 "VLM 主干" 和 "World Model 主干" 到底誰更強？沒有人在同等條件下比過。

整個 VLA 領域看似繁榮，實則像是一個個 "黑箱" 散落在不同實驗室里。

最近，來自港科大和開源社區團隊推出了StarVLA開放研究平臺。與其說他們創造了一個全新的 VLA 模型，不如說他們做了一件更 “基礎設施” 的事：將當前主流的 VLA 范式、動作頭、訓練策略和評估基準，統一整合到同一個開源框架中，讓所有實驗都可以在公平、透明、可復現的條件下進行。

值得一提的是，StarVLA 并非一蹴而就的新品，它早已在社區中經過充分檢驗，擁有超過 2.2k的 star，并獲得了廣泛認可，一直是社區最流行的框架之一，僅次于美國 NVIDIA 和 Physics Intelligent，在國內同類項目中中斷檔領先。

這或許正是 VLA 領域所需要的 “PyTorch 時刻”—— 不再只是比誰的 demo 更炫，而是讓研究者們站在同一條起跑線上，將 VLA 真正作為一門可以科學驗證的學科來深入研究。

論文標題：StarVLA: A Lego-like Codebase for Vision-Language-Action Model Developing
論文：https://arxiv.org/pdf/2604.05014
代碼：https://github.com/starVLA/starVLA
支持基準：LIBERO / SimplerEnv / RoboTwin 2.0 / RoboCasa-GR1 / BEHAVIOR-1K / VLA-Arena / Calvin / DOMINO ...

一、為什么說 VLA 需要一個 "PyTorch 時刻"？

回顧深度學習的發展史，會發現一個規律：任何一個領域真正爆發，都離不開一個統一的、開放的、可復現的實驗平臺。

計算機視覺之于 ImageNet + Caffe / PyTorch；
自然語言處理之于 HuggingFace Transformers；
大模型微調之于 LLaMA-Factory、DeepSpeed。

而 VLA 目前正處在 ImageNet 之前的 "前夜"：模型很多、demo 很炫、論文產出很快，但沒有人能告訴你，在嚴格控制變量的前提下，哪種設計真的更好。

舉幾個具體的 "靈魂拷問"：

自回歸動作分詞（FAST）、并行回歸（OFT）、Flow Matching（π?）、雙系統（GR00T）——這四種動作頭在同一個主干下的表現到底差多少？
VLM 路線（RT-2、π?）和 World Model 路線（Cosmos， DreamZero）——真的是兩條本質不同的路，還是只是 "輔助信號" 的選擇不同？
多模態協同訓練、跨具身聯合訓練 ——到底有沒有用？提升有多大？
在 LIBERO 上 SOTA 的方法，到 RoboCasa、RoboTwin, Behavior 上還能打嗎？

在 StarVLA 之前，這些問題幾乎沒有人能給出系統性答案—— 因為根本沒有同時支持這一切的統一平臺。

二、StarVLA 是什么？一個 "全棧式" 的 VLA 實驗平臺

StarVLA 的設計哲學非常克制：不發明新方法，而是把別人發明的好方法，統一搬到一個屋檐下。

整個框架由四層可插拔模塊組成：

每一層都可以自由替換、自由組合。想做 "換動作頭不換主干" 的對比？改一行配置。想驗證 "協同訓練" 的效果？改一個開關。想把 LIBERO 上訓好的模型搬到 RoboTwin 上跑實機？同一個接口。

這就是為什么我們說它是 VLA 領域的 "PyTorch 時刻"——它把之前需要重寫整個工程才能做的事，變成了改一行配置文件的事。

三、廣義 VLA 視角：所有方法，其實是一個公式

在統一這些方法的過程中，作者還提出了一個非常漂亮的理論觀察。

VLA 看似流派眾多 —— 有的基于語言模型，有的基于視頻生成模型；有的自回歸，有的擴散；有的單系統，有的雙系統 —— 但當你把它們都塞進同一個框架后會發現，它們在數學結構上可以用同一個公式表達：

不同方法的本質區別，僅在于選用什么 "預訓練模型初始化" 以及 "輔助訓練的信號" 是什么：

VLM 路線：輔助信號是語言推理（讓模型繼續 "會說話"）；
World Model 路線：輔助信號是未來畫面預測（讓模型繼續 "會想象"）；
極簡路線：干脆沒有輔助信號，純動作監督。

作者把這個統一視角稱為"廣義 VLA"（Generalized VLA）。它意味著：與其糾結 "該選哪條路線"，不如思考 "該選什么樣的輔助信號"。這一視角，為后續 VLA 的系統性研究提供了一個清晰的理論坐標系。

VLM to VLA 和 World-Model to VLA 的統一架構

四、幾個 "反直覺" 的實驗發現

雖然 StarVLA 主打 "平臺" 而非 "刷榜"，但作者在搭建過程中也 "順手" 做了一批嚴格控制變量的實驗，結果頗有意思：

發現 1：極簡設置就能打出強基線

不做任何數據增強、只用基準原始數據和公開預訓練權重，StarVLA 在 LIBERO 上僅用 30K 步就達到了 98.8% 的成功率，在其他主流的 SimplerEnv, Robocasa-GR1, Robotwin 2.0, LIBERO-Plus 上也都有和主流大廠的模型具有非常接近的效果。

而前人代表方法 OpenVLA-OFT， GR00T, PI 等在同一基準上需要 175K 步 ——訓練步數減少了 6 倍。

這說明：以前很多論文堆的 "訓練 trick"，可能并沒有想象中那么必要。一個干凈、統一的工程實現本身，就能釋放出巨大的性能空間。

發現 2：數據 "雜" 反而更強 —— 通用模型超越專用模型

把 LIBERO、SimplerEnv、RoboTwin、RoboCasa 四個基準的數據混在一起訓練同一個模型，結果在難度最高的類人操作基準RoboCasa-GR1 上，成功率從 48.8% 提升到了 57.3%。

這意味著：跨任務、跨形態的多樣化數據并不會 "互相干擾"，反而會帶來正向遷移。這是支持 "機器人大一統模型" 路線的一個重要經驗證據。

發現 3：VLM 主干 vs World Model 主干，差距沒有想象中大

在同一個 OFT 動作頭下分別接入 Qwen3-VL（VLM 路線）和 Cosmos-Predict2（World Model 路線），兩者的性能相當接近。

這是一個非常重要的初步結論：業界一直在爭論的 "哪條路線才是 VLA 的未來"，可能本身就是個偽命題—— 真正決定性能的，也許并不是主干的 "血統"，而是輔助信號、訓練策略和數據組合。

發現 4：不做協同訓練，VLM 會在幾千步內 "失憶"

把一個預訓練好的 VLM 微調成機器人策略時，它在幾千步內就會迅速丟失原有的視覺理解和語言推理能力—— 物體識別變差、空間定位崩壞、指令理解退化。

而加入多模態協同訓練后，模型可以同時保住 "動腦" 和 "動手" 兩種能力。這一現象在論文中以清晰的曲線圖呈現，給所有想要微調 VLM 做機器人的研究者提了一個醒。

五、為什么這件事 "值得被看見"？

VLA 是當前最受資本和學術界關注的具身智能方向之一，但它也是最容易陷入 "內卷式刷榜" 的方向：每家都報告自己 SOTA，但沒人能在公平條件下被驗證。

StarVLA 的意義恰恰在于打破這種困境：

?對研究者：終于有了一個可復現、可控制變量的實驗平臺，做消融、做對比不再需要從零造輪子；

?對工程師：模塊化設計 + 統一接口，從 "換主干" 到 "換基準" 再到 "上實機" 全部打通；

?對整個領域：當所有方法都能在同一個框架里被公平地 "擺出來"，VLA 的發展就從 "比誰聲音大"，進入到 "比誰經得起驗證" 的科學階段。

這正是一個領域走向成熟的標志 —— 也正是我們說它是具身智能的"PyTorch 時刻"的原因。

六、開源信息

StarVLA 由香港科技大學團隊聯合開源社區共同推出，目前全部代碼、訓練腳本、評估接口與預訓練權重已開源，并將持續迭代。

論文：https://arxiv.org/pdf/2604.05014
代碼倉庫：https://github.com/starVLA/starVLA (目前已經 2.2k star, 感謝大家)
已支持基準：LIBERO、SimplerEnv、RoboTwin 2.0、RoboCasa-GR1、BEHAVIOR-1K
已集成方法：[QwenVL and Wan] X [FAST、OFT、π?、GR00T] 各式各樣的 backbone X action header …

如果你正在做 VLA 研究、想搭一套機器人策略基線、或者只是想搞清楚 "這些花里胡哨的 VLA 模型到底差在哪"——這個倉庫，值得 Star 一下。

本文報道由港科大 StarVLA 團隊提供素材，面向關注具身智能與機器人大模型的讀者。歡迎在 GitHub 上參與討論與共建。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.