Aurelia 發自 凹非寺
量子位|公眾號 QbitAI
2026年,具身智能的關注點,已經從硬件本體,轉移到了數據模型。
一邊是融資新聞里動輒千臺機器人部署的豪言,一邊是研究者發現兩萬小時數據,真正有效的可能不到三千小時。這個行業正在進入一種集體焦慮。
當機器人從實驗室走向真實世界,面對的是完全不同的物理規律、遷移壁壘,以及一場比拼耐力的數據馬拉松。
Demo能跑通,不代表工廠能用;仿真效果好,不代表真機能活。
在量子位、螞蟻靈波與樂聚機器人聯合發起的這場沙龍上,做模型的、做數據的、做評測的、做本體的,近200位最一線的具身從業者和研究員被拉進了同一個屋子,一起聊聊:具身智能如何真正從實驗室走進物理世界。
![]()
討論很熱,分歧也很真實。幾句話先給你打個底:
關于數據采集:大規模數據采集最難的是認知對齊,讓每一個數采員真正理解算法團隊想要什么,這件事比寫質檢規范難得多。
關于模型訓練:為了趟清楚預訓練這條路到底有多少坑,所以選擇用2萬小時真機數據做預訓練。
關于數據評測:基準低分未必代表好,但起步就拿高分肯定不行。要是剛發布大家都能沖上80分,那這個基準就廢了。
關于訓練效率:一個人每天與物理世界交互10小時、持續10年,累計才約3萬小時,而一個10歲孩子用這些數據已經能完成海量復雜任務。說明現在具身范式對數據的利用率太低。
以下為量子位整理的沙龍實錄。
樂聚工程師:具身數據還未達到Scaling Law起效的門檻
樂聚機器人具身智能算法工程師以《數據驅動具身智能:從數據生態到多場景落地》為題,系統梳理了具身數據面臨的產業挑戰與樂聚的應對策略。
![]()
他指出,制約機器人產業規模化落地的核心障礙,已從硬件和底層運控算法轉移至具身智能模型,也就是具身大腦的欠缺。
然而,與文本和視覺數據不同,具身智能數據在供給側仍存在多重瓶頸:其一是難以獲得,往往依賴真機采集,需人工參與,成本高、效率低;其二是跨本體與多模態復雜,數據包含視覺、位姿、力反饋等多維信息,格式復雜,難以跨本體復用;其三是流轉效率低:數據采集、處理與訓練鏈路割裂,缺乏統一標準與規模化生產能力。
他強調,要在具身智能領域復現LLM的成功路徑,數據規模至少需達到Scaling Law起效的門檻,而這一目標目前仍相距甚遠。
目前樂聚也與LingBot模型達成了合作,基于樂聚夸父4 Pro平臺訓練的數據,使LingBot-VLA與LingBot-Depth在多項基準測試中的成功率與過程得分均顯著優于主流模型。
![]()
現在,樂聚機器人還和螞蟻靈波與阿里云聯合舉辦了兩項具身智能操作挑戰賽,總獎金達9萬美元,歡迎感興趣的伙伴一起參與!
天池第一屆具身智能操作任務挑戰賽
由樂聚機器人、阿里云與螞蟻靈波聯合舉辦的第一屆具身智能操作任務挑戰賽,于2025年9月在阿里云天池平臺正式啟動,目前已進入真機賽階段,預計2026年7月公布結果并頒獎。賽事任務為3個真實工業場景。
總獎金池達50萬人民幣。對于賽中有創業意向的團隊,組委會還將提供專項資源支持。
![]()
ICRA 2026 REAL-I具身智能挑戰賽
另一項賽事為在ICRA 2026會議期間舉辦的REAL-I具身智能操作挑戰賽,2026年1月啟動,6月將有部分選手赴維也納參加現場決賽。賽事同樣設置3個工業任務:小件翻面、快遞包裹稱重與掃碼分揀、日化產品上料整列。
![]()
兩項賽事中,LingBot-VLA作為賽事官方推薦基線模型,組委會將為參賽者提供詳細部署文檔與專項獎勵。使用LingBot-VLA獲得一定名次的參賽隊伍,可在常規獎勵基礎上額外獲得LingBot-VLA專項獎。
螞蟻靈波鄭可成:用真機數據趟清楚預訓練到底有多少坑
螞蟻靈波LingBot-VLA模型負責人鄭可成介紹了今年1月發布的LingBot-VLA模型
他指出,VLA(視覺-語言-動作)模型的主流范式存在根本性局限:需要在特定本體和特定任務上采集數據,再進行后訓練并部署,本質上是軌跡擬合,泛化能力極為有限。
螞蟻靈波希望借鑒大語言模型(LLM)和視覺語言模型(VLM)的預訓練范式,讓模型在預訓練階段學習通用知識,從而快速泛化到下游場景,降低具體任務的數據采集與訓練成本。
鄭可成強調,具身智能VLA模型的核心在于構建數據—架構—評測的完整閉環
![]()
首先看數據,當前的具身智能操作數據分為3類:
- 互聯網數據
- 海量規模,語義豐富,可以擴充模型多樣性,但沒有精確動作(action)
- 無本體數據
- 例如最近很火的UMI與Egocentric,量級是中等規模
- 真機數據
- 具有高精度,但效率較低
![]()
LingBot-VLA訓練數據集包含2萬小時真機數據,覆蓋9種機器人本體構型。構型的納入設有門檻,每種構型須達到一定的數據時長才能進入訓練池,以確保多構型混訓時各構型知識能夠有效共享。
數據基礎上,團隊在標注上也下足了功夫。通過人工切片、標注原子動作等方式,促進不同構型的知識共享,進而緩解了真機數據不足的問題。
可以看到,當前數據主要集中于雙臂桌面操作,以Pick、Place、Grasp等原子動作占主體,場景分布較長尾,構型集中在6-7自由度范圍內。
![]()
在模型架構上,LingBot-VLA沿用Pi系列的MoT架構,并引入了LingBot-Depth深度模型。通過將Depth模型的深度知識蒸餾進VLM,解決透明、反光、密集物體的深度估計難題,讓操作任務的空間精度進一步提升。
在Scaling實驗中,團隊從3000小時至2萬小時做了分段對比,初步發現增加預訓練數據量有助于加速后訓練收斂。
鄭可成坦言,受限于當前總數據規模,這一趨勢尚不足以證明Scaling Law在具身領域成立,需要更大規模數據的持續積累。此外,多任務聯合訓練(multi-task fine-tuning)相比單任務訓練有一定的性能提升,印證了任務間動作知識的可共享性。
![]()
上海交大李永露:12萬小時數據,可用的不足1/24
上海交通大學副教授、上海創智學院全職導師李永露,從學術視角闡述了GM-100具身操作評測基準的設計理念與核心發現,并延伸至具身數據的根本性科學問題。
![]()
李永露首先拋出一個反問:機器人評測為什么需要統一標準?在他看來,AI是一個特殊領域,評測對象的復雜性本身就決定了穩定的Benchmark極難構建。
但這件事必須做,要把評測變成科學問題,而非工程問題。
他指出,在定義機器人任務時存在兩種思路:一是研究者拍腦袋列舉任務;二是從真實場景歸納,再用大模型過濾整合。
但無論哪種方式,都面臨“莫拉維克悖論”:我們以為機器人擅長的事情反而很難;我們以為它難的事情,機器卻很擅長。
李永露舉例說明,刷鍋與刷馬桶的物理過程高度相似,混合訓練時會互相提分;而折斷一根筷子和折斷一截金屬棒,物理過程完全不同,但語言層面卻是同一個詞。
語言描述無法有效區分物理過程,這是當前具身數據標注體系的根本性缺陷。
![]()
△GM-100官網:https://www.rhos.ai/research/gm-100
GM-100共設計100個評測任務,名稱來源于“長征二萬五千里”,100里剛剛開始,是小試牛刀。任務選取的核心原則是,覆蓋當前主流預訓練數據集中未充分涵蓋的物理過程。
在任務設計上,GM-100特意納入了一批直覺上不難,但實際對模型極具挑戰性的任務,例如串糖葫蘆、彈球入框、壓制隨機滾動的小球等。
![]()
評測結果印證了這一判斷,Pi 0.5得分僅13分,LingBot-VLA + Depth得分17分,整體成功率普遍偏低。
李永露認為這恰恰是好基準應有的樣子:“低分未必代表好,但起步就拿高分肯定不行。要是剛發布大家都能沖上80分,那這個基準就廢了。”
GM-100采用開放平臺模式,任務物料清單、GT演示視頻、Leaderboard均公開,鼓勵社區自行上傳測評結果,以眾包方式形成共識。數據集開源一個月內下載量突破5萬次。
他認為對于數據的使用還需要新的架構和范式。對此還分享了一組關鍵數據:從約12萬小時的Ego-centric人類行為數據中篩選后,真正可用于VLA預訓練的數據不超過5000小時;而某機構公開的11萬小時工廠視頻數據,經過篩選,樂觀估計可用比例約為3%。
![]()
圓桌對話:具身數據基石與未來圖景
具身數據的困境,不缺討論,缺的是共識。在量子位主編金磊的主持下,北京人形機器人創新中心有限公司具身智能負責人車正平螞蟻靈波科技首席數據科學家黃用韜北京智源人工智能研究院具身Infra&數據負責人姚國才上海庫帕思科技有限公司具身數據解決方案負責人曹宇四位嘉賓圍繞數據挑戰、破局路徑與未來圖景展開了一場坦誠的對話。
![]()
在數據挑戰這一議題上,幾位嘉賓給出了各自最深的感受。
北京人形車正平認為,大規模數據采集中,最難的問題是認知對齊,如何將算法團隊對數據需求的理解,有效傳達給一線數采人員。
他舉例說,采集數據的多相機視角與數采員的自然視角存在顯著差距,若不提前在流程中加以強化約束,采集到的數據將無法支撐機器人視角下的精細操作。
![]()
△車正平,北京人形機器人創新中心有限公司具身智能負責人
螞蟻靈波黃用韜從自動駕駛領域的從業背景切入,提出具身智能數據面臨的三種無法對齊的問題:
首先是學習對象與數據不對齊,遙操作動作質量天花板太低,遠不及人類日常真實能力;其次是任務分布與數據不對齊,采集的是抓拿放,用戶要的是切菜洗碗;其三是本體間不對齊,不同機器人的零位誤差和傳感器標定差異無法統一。
智源研究院姚國才則指出,當前行業最大的阻力是“太著急”。大家都想要百萬小時級數據去Scale up,但對于采什么數據、具身數據的目標是什么都還沒想清楚。
現在具身數據領域還存在大量非共識,例如實現AGI需要多少數據、需要哪些模態、如何評價數據質量、什么樣的數據才能有效表征人類行為模式等等。
困境如此,那如何破局呢?
![]()
△姚國才,北京智源人工智能研究院具身Infra&數據負責人
姚國才給出的回答是數據質量遠比數量重要
他用了一組簡單計算說明數據利用率的問題。一個人每天與物理世界交互10小時、持續10年,累計才約3萬小時,而一個10歲孩子用這些數據已經能完成海量復雜任務。
這說明當前具身模型對數據的利用率極低,如何從有限數據中充分提取價值,是比單純擴量更根本的科學命題。
他對高質量數據的定義也有獨特視角。姚國才認為,真正好的數據,應當能夠自然地捕捉人類的真實行為模式。
以Ego-centric數據為例,許多數采廠商為了獲得更多數據,人為設置任務讓數采員反復采集,恰恰把這類數據最核心的價值“in the wild”的自然行為捕捉丟棄了。
除了回歸真實這一點外,姚國才和團隊也很關注數據如何能更好表征人類行為模式,因此也非常關注肌電、腦電這種與行為意圖緊密關聯的數據。
庫帕思曹宇認為,現在具身數據通用性與復用性仍有很大提升空間。對于不同的場景,應該分層來考慮使用什么樣的數據。
在核心工藝和技術壁壘上,應通過自研或定制真機數據,構筑起競爭護城河;在通用技能的模型冷啟動階段,應通過合作共享數據,快速打好模型的泛化基礎;而針對復雜多變的長尾場景和邊緣案例,則可以利用仿真合成數據來補齊短板。
他強調,這不是一道單選題,三者分工明確、缺一不可。問題的本質是,如何將不同來源的數據,統一組織成可復用的標準化鏈路。
![]()
△曹宇,上海庫帕思科技有限公司具身數據解決方案負責人
展望未來,曹宇預判行業將從各自封閉的全鏈路模式走向明確分工的協作生態。場景方開放核心場景,數據方沉淀可復用的采集、標注、訓練、評測全鏈路能力,模型方基于統一Benchmark持續迭代算法。
在仿真與真機的關系上,車正平提出了VIP仿真標準:Visual(視覺)、Interactive(交互)、Physical(物理)。
他認為視覺層的仿真已有顯著進步,但物理層與交互層仍是最大短板,尤其是物體被操作后的狀態變化和力學反饋,在仿真中幾乎無法被準確還原。
他還提出了一個量化標準,若一個策略在仿真中成功率達90%以上,零樣本遷移至真機后應至少達到60%-70%,才算合格的仿真質量。他明確表示,仿真數據永遠無法完全替代真機數據,但可以大幅壓縮對真機數據的依賴。
展望未來3-5年,他預判具身數據的采集方式將向無感化演進。就像自動駕駛車輛的日常行駛數據可被自動回傳一樣,機器人部署后產生的真機數據也將逐步成為主要數據來源。
![]()
△黃用韜,螞蟻靈波科技首席數據科學家
黃用韜提到仿真數據與真機實采數據之間始終存在難以彌合的物理gap,尤其在末端執行器與物體的接觸交互上,直接影響模型的學習信號質量。
基于此,螞蟻靈波堅持以真機數據為預訓練核心,目的是在排除干擾變量的前提下,探索清楚VLA范式的真實上限。
黃用韜指出,當前真機部署規模僅是全市場幾千臺,與國內幾百萬臺的工業機器人總量之間存在數量級的鴻溝,彌合這一差距需要機器人自身產生的數據承擔更大比重。
隨著部署規模擴大,數據飛輪將真正轉動起來。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.