![]()
來源:新智元
【導讀】當LeCun和李飛飛各自拿下10億美元押注世界模型時,一個更底層的問題浮出水面:誰來為Physical AI提供真正能用的數(shù)據(jù)?Ropedia給出的答案,不是更多視頻,而是一部結(jié)構(gòu)化的、來自真實世界的「經(jīng)驗百科全書」。
最近,AI圈最熱的一件事情就是,玩OpenClaw。
OpenClaw似乎無所不能:寫代碼、出報告、改方案、查資料。
但有一件事,OpenClaw做不到——它沒辦法幫你去廚房炒一盤蛋炒飯。
![]()
但當AI試圖進入物理世界,一個隱藏已久的問題開始浮出水面:
機器人學習的數(shù)據(jù)在哪里,人類在真實世界中的經(jīng)驗和經(jīng)歷如何變成「高質(zhì)量數(shù)據(jù)」?
2026年,AI世界的風向標開始轉(zhuǎn)向了同一個方向:如何讓智能真正走進真實物理世界。
給Physical AI一套
真正的「經(jīng)驗底座」
對于AI發(fā)展的路線之爭,圖靈獎得主Yann LeCun的堅持代表了一種態(tài)度,資本也給出的回應。
![]()
他離開Meta后創(chuàng)辦的AMI Labs,以35億美元估值拿下10.3億美元種子輪——刷新歐洲AI創(chuàng)業(yè)史上最大種子輪紀錄。
貝索斯、英偉達、三星、施密特,半個硅谷都在他的投資人名單上。
LeCun說得直白:「世界模型將成為下一個熱詞。六個月后,每家公司都會自稱是世界模型來融資。」
就在AMI Labs官宣的兩周前,「AI教母」李飛飛的World Labs剛剛完成10億美元融資,估值飆至50億美元。
AMD和英偉達兩大芯片巨頭同時入局,Autodesk更是一口氣掏出2億美元戰(zhàn)略投資。
李飛飛在年初的訪談中反復強調(diào)一個判斷:空間智能,是AI的下一個前沿。
![]()
兩位學術(shù)界最具號召力的人物,不約而同押下了同一注:讓AI理解真實的物理世界。
這是一個時代的信號。
從語言智能到物理智能:
中間差了一座「數(shù)據(jù)大橋」
過去十年,AI的飛躍建立在互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻之上。
大模型學會了理解語言、識別場景、生成內(nèi)容,智能第一次大規(guī)模走入了人們的生活。
但當AI試圖進一步踏入物理世界,問題開始變得截然不同。
機器人不僅要「看見」,還要「行動」;不僅要識別一個廚房長什么樣,還要理解人在其中如何移動、如何操作、如何跟物體發(fā)生交互,以及每一個動作會帶來什么物理后果。
這意味著,下一代智能系統(tǒng)——包括空間智能、具身智能、世界模型和Physical AI——需要的已經(jīng)不只是更多視頻,而是更接近人類真實行動過程的經(jīng)驗數(shù)據(jù)(Experience)。
可問題在于:這樣的數(shù)據(jù),幾乎不存在。
今天互聯(lián)網(wǎng)上有海量的視頻,但絕大多數(shù)只是「被動觀看」的素材——缺少深度信息、缺少空間結(jié)構(gòu)、缺少手部交互軌跡、缺少動作與后果之間的因果關(guān)聯(lián)。
![]()
對于想要在物理世界中執(zhí)行任務的AI來說,一千小時的YouTube視頻,遠遠不如一小時結(jié)構(gòu)化的人類真實交互經(jīng)驗有用。
英偉達今年2月發(fā)布的EgoScale研究,用超過20,000小時的第一視角人類視頻訓練VLA模型,發(fā)現(xiàn)了一條近乎完美的對數(shù)線性Scaling Law——人類數(shù)據(jù)規(guī)模每擴大一倍,模型性能就穩(wěn)定提升。
![]()
這第一次用硬數(shù)據(jù)證明了:大規(guī)模人類經(jīng)驗數(shù)據(jù),是機器人學習靈巧操作的可預測監(jiān)督來源。
誰能持續(xù)產(chǎn)出高質(zhì)量結(jié)構(gòu)化的人類經(jīng)驗數(shù)據(jù),誰就握住了下一個智能時代的燃料。
但是,機器的養(yǎng)料,不該局限于枯燥的「工廠操作指南」,而更該是一部包羅萬象的「人類經(jīng)驗百科」。
![]()
如同《黑客帝國》中多個版本的Neo救世主
真實世界的互動,充滿了鮮活的復雜與多元。
一千萬條Human Experience:
一部「人類經(jīng)驗百科全書」
正是在這個背景下,Ropedia正式發(fā)布了一千萬條,約10,000+小時的Human Experience數(shù)據(jù)集——Xperience-10M,并將以開放的方式向研究者公布。
![]()
現(xiàn)在,Xperience-10M已在Hugging Face上開源。
![]()
huggingface鏈接:https://huggingface.co/datasets/ropedia-ai/xperience-10m
正如「Ropedia」這個名字所承載的野心與浪漫——
為Robot(機器人)撰寫一部全景式的Encyclopedia(百科全書),將人類流動的生命經(jīng)驗,化作AI跨越時代的通用底座。
![]()
這不是一套傳統(tǒng)意義上的原始采集數(shù)據(jù)。
他們想做的不是「上傳一批視頻」,而是為機器構(gòu)建一部通往物理世界的「經(jīng)驗百科全書」。
為什么叫「百科全書」?
因為對于具身智能和世界模型來說,真正缺的不是某一種信號,而是一整套多維度、多模態(tài)、像百科全書一樣完整的數(shù)據(jù)——它需要有物理信息、三維空間信息、交互意圖、行為軌跡,所有這些維度拼湊在一起,才能構(gòu)成一幅生動寫實的圖景,而不是一個視頻合集。
![]()
在同一段軌跡中,Ropedia同時提供了五個核心維度的數(shù)據(jù):
視覺流信息(RGB第一視角連續(xù)觀察,360°第一視角采集)
空間信息(深度、空間結(jié)構(gòu)、環(huán)境拓撲)
動作信息(全身動作、手部靈巧操作、交互軌跡)
交互信息(人與物、人與場景、人與任務之間的作用關(guān)系)
以及語義信息(任務描述、狀態(tài)變化、原子動作、行為意圖)
更關(guān)鍵的是,這些維度并不是后期「拼起來」的,而是被統(tǒng)一對齊在同一時間軸和同一結(jié)構(gòu)框架下。
視覺與動作天然同步,語義與物理變化可以對應,行為路徑與空間結(jié)構(gòu)可以追溯,整個任務執(zhí)行過程都可以被重放、建模和學習。
這正是Ropedia與市面上大量數(shù)據(jù)集最本質(zhì)的區(qū)別:它交付的不是一堆原始素材,而是一套真正可以直接喂入模型訓練環(huán)節(jié)的結(jié)構(gòu)化智能數(shù)據(jù)。
![]()
什么是4D Physical World?
在Ropedia的定義里,4D并不只是「3D加上時間」。
它真正指向的是一個更完整的框架:3D + Time + Interaction + Consequence。
拆開來看,就是四個維度的閉環(huán)——
空間(Where):智能體身處何處,周圍環(huán)境結(jié)構(gòu)如何;
行動(How):它如何移動、如何接觸、如何操控;
交互(With What):它和什么對象發(fā)生了作用;
后果(What Changes):這些動作帶來了怎樣真實可觀測的物理變化。
這四個維度,構(gòu)成了機器理解物理世界的最小閉環(huán)。
道理很簡單:如果沒有交互,時間只是一段錄像;如果沒有后果,動作只是一條軌跡。
只有當「行為如何改變世界」這個信息被寫入數(shù)據(jù)本體,Physical AI才真正擁有了學習現(xiàn)實的基礎(chǔ)。
從這個意義上說,Ropedia發(fā)布的不只是一個數(shù)據(jù)集,更像是在定義一種面向具身智能的新型數(shù)據(jù)標準。
HOMIE:把人類經(jīng)驗采集,做成像戴眼鏡一樣自然
有了數(shù)據(jù)標準還不夠,更核心的問題是:這樣的數(shù)據(jù)從哪里來?
今天行業(yè)里不乏數(shù)據(jù)采集的努力。
特斯拉的Optimus項目招募大量人員,在專用設施里穿著動捕服反復做洗碗、疊衣服等動作,攝像頭從最初的四個擴展到六個再到八個。
![]()
![]()
Figure則讓操作者頭戴Vision Pro進行遙操作數(shù)據(jù)采集。
![]()
這些方案各有所長,但都面臨一個共同的限制:它們嚴重依賴專業(yè)設備和受控環(huán)境。
采集只能發(fā)生在Tesla的數(shù)據(jù)工廠里、Figure的樣板房里、實驗室的可控場景里。
一旦換一個不同的環(huán)境——整套數(shù)據(jù)閉環(huán)的能力就急劇下降。
真正的泛化,需要的是在真實世界的千千萬萬個末端場景里完成數(shù)據(jù)閉環(huán)。
為此,Ropedia早在2025年發(fā)布了自己的端到端采集平臺——HOMIE。
![]()
HOMIE不是單一硬件,而是一整套圍繞「無感化、可擴展、長期可用」設計的「人類經(jīng)驗捕捉系統(tǒng)」。
它的核心特點在于兩個「不依賴」:不依賴重型專業(yè)設備,不依賴外部第三人稱視角相機。
用戶只需佩戴一個輕量化的頭戴式多模態(tài)采集設備,就可以回到日常生活和工作環(huán)境中自然地完成數(shù)據(jù)采集。
這意味著高質(zhì)量數(shù)據(jù)的閉環(huán),可以真實地發(fā)生在每一個末端場景里——你家的廚房、辦公桌、工廠產(chǎn)線、醫(yī)院護理站——而不只是一間樣板房或數(shù)據(jù)工廠。
HOMIE支持長時間佩戴、具備穩(wěn)定的自運動追蹤與定位能力、多傳感器精準同步,以及面向真實世界任意場景的規(guī)模化部署。
從外部看,這是一套硬件采集系統(tǒng);但從Ropedia的戰(zhàn)略來看,它更像是「物理世界百科全書」的入口層,持續(xù)把真實世界中的人類行為轉(zhuǎn)化為可被機器理解的知識單元。
真正拉開差距的,是結(jié)構(gòu)化標注能力
但是,原始經(jīng)驗并不天然等于智能數(shù)據(jù)。
這是Ropedia反復強調(diào)的核心觀點。
市面上不乏數(shù)據(jù)采集的方案——有人采了很多視頻,隨手放到網(wǎng)上,拼的是時長和體量。
但這種做法很容易淪為「又一個互聯(lián)網(wǎng)數(shù)據(jù)集」。
有數(shù)據(jù)不等于「有用的數(shù)據(jù)」。沒有高質(zhì)量、結(jié)構(gòu)化、可對齊的標注體系,海量采集只是一堆噪聲。
Ropedia真正的核心競爭力,在于它背后那套空間基礎(chǔ)模型(Spatial Foundation Model)與自動標注體系。
![]()
這套系統(tǒng)類似于特斯拉FSD的數(shù)據(jù)飛輪邏輯:
FSD最大的優(yōu)勢不在于某一版硬件有多強,而在于它能夠產(chǎn)生數(shù)據(jù)飛輪效應——車輛在路上跑的同時不斷回灌數(shù)據(jù),持續(xù)提升模型在長尾場景下的能力。
Ropedia的數(shù)據(jù)管線也遵循同樣的思路。
它并不純依賴硬件——因為硬件迭代是慢的,哪怕以深圳速度也要三到六個月一版——而是依賴自研的空間基礎(chǔ)模型來驅(qū)動整條數(shù)據(jù)管線。
幾百上千名采集人員在外場采集的數(shù)據(jù),一方面交付給下游客戶使用,另一方面也在閉環(huán)Ropedia自身模型的能力。
模型越強,標注質(zhì)量越高;標注質(zhì)量越高,模型又進一步提升。
這種飛輪效應,使得Ropedia的數(shù)據(jù)質(zhì)量迭代速度遠超傳統(tǒng)的硬件驅(qū)動或人力標注方式。
目前,這套系統(tǒng)已覆蓋的關(guān)鍵能力包括:空間定位與深度恢復、手—物交互追蹤、全身動作捕捉、物體與場景語義理解、任務描述與狀態(tài)變化建模,以及更多持續(xù)擴展中的結(jié)構(gòu)化維度。
換句話說,Ropedia真正交付的不是「我們拍到了很多」,而是「我們能把真實經(jīng)驗穩(wěn)定地轉(zhuǎn)譯成高質(zhì)量智能數(shù)據(jù)」。
這是它與大量無結(jié)構(gòu)采集方案之間的關(guān)鍵分水嶺。
「經(jīng)驗百科全書」如何
重新定義機器人數(shù)據(jù)采集?
站在具身智能和世界模型的前沿來看,Ropedia發(fā)布的這套Human Experience數(shù)據(jù)集,實際上觸及了一個整個行業(yè)懸而未決的根本性問題:
機器人要從什么樣的數(shù)據(jù)中學會在物理世界里行動?
回顧機器人領(lǐng)域數(shù)據(jù)采集的演進脈絡,你會發(fā)現(xiàn)它經(jīng)歷了三個清晰的階段:
第一階段是仿真數(shù)據(jù)主導。在NVIDIA Isaac、MuJoCo等仿真器中生成大量虛擬軌跡,優(yōu)勢是成本極低、可無限復制,但致命缺陷是sim-to-real gap——仿真中完美運行的策略,一旦部署到真實世界就大幅退化。
第二階段是遙操作(teleoperation)數(shù)據(jù)興起。Tesla Optimus招募大量人員在樣板房里用人體動捕設備遙控機器人執(zhí)行任務,F(xiàn)igure等公司用Vision Pro做數(shù)據(jù)采集,RT-2、ALOHA等項目也大量依賴遙操作。
這種方式的優(yōu)勢是動作數(shù)據(jù)直接來自真實機器人執(zhí)行,可以端到端訓練,但瓶頸同樣明顯——成本極高、采集不具備可擴展性,最關(guān)鍵的是,它只能在可控環(huán)境中進行,永遠無法覆蓋真實世界千變?nèi)f化的長尾場景。
![]()
你可以在Tesla的數(shù)據(jù)工廠里搭一個標準廚房,但你搭不出全世界幾十億家庭各不相同的廚房。
第三階段,也是正在發(fā)生的范式轉(zhuǎn)移,是以人為中心(human-centric)的經(jīng)驗數(shù)據(jù)。不再用機器人采集數(shù)據(jù),而是讓人類在真實生活場景中自然行動,通過輕量化的可穿戴設備記錄第一視角的多模態(tài)信息,然后將這些人類經(jīng)驗轉(zhuǎn)化為機器可學習的結(jié)構(gòu)化數(shù)據(jù)。
這個轉(zhuǎn)變的底層邏輯,其實和自動駕駛行業(yè)的演進如出一轍。
早期Waymo的方案是在有限的城市中用昂貴的傳感器車隊采集數(shù)據(jù),數(shù)據(jù)質(zhì)量很高但規(guī)模上不去;后來Tesla用每一輛量產(chǎn)車的攝像頭做「影子模式」,海量采集真實駕駛場景,用規(guī)模和多樣性碾壓了精采數(shù)據(jù)的稀缺性。
![]()
從「昂貴的專業(yè)采集」到「低成本、滲透式的規(guī)模化采集」,這條路徑在自動駕駛領(lǐng)域已經(jīng)被驗證過一遍了。
機器人領(lǐng)域正在重走這條路。
英偉達的例子很有說服力。
EgoScale研究表明,當?shù)谝灰暯侨祟愐曨l數(shù)據(jù)規(guī)模提升至20,854小時后,機器人策略性能呈現(xiàn)出清晰的規(guī)模化收益;與無預訓練基線相比,平均成功率提升54%。
![]()
第一視角人類數(shù)據(jù)對機器人泛化與遷移能力的作用,已經(jīng)從「輔助路線」走向「主路徑」。
這些信號匯聚起來,指向一個不可逆轉(zhuǎn)的行業(yè)共識:
如果你真想構(gòu)建能泛化到任意場景的機器人基礎(chǔ)模型,以人為中心的、來自真實世界的經(jīng)驗數(shù)據(jù),是唯一能實現(xiàn)規(guī)模化的路徑。
而Ropedia的「經(jīng)驗百科全書」范式,恰恰在這個歷史轉(zhuǎn)折點上,給出了一套完整的答案——不只是采集人類數(shù)據(jù),而是將人類在真實世界中的完整經(jīng)驗鏈條(感知-意圖-動作-交互-后果)結(jié)構(gòu)化為機器可讀、可訓練、可泛化的4D物理世界數(shù)據(jù)。
這是對「機器人該從什么數(shù)據(jù)中學習」這個根本問題的一次重新定義。
一個新的Physical AI玩家
作為關(guān)注Physical AI和具身智能賽道的觀察者,當我們在世界模型融資狂潮、機器人本體軍備競賽和基礎(chǔ)模型混戰(zhàn)的嘈雜聲中,梳理整個產(chǎn)業(yè)鏈的關(guān)鍵節(jié)點時,Ropedia的出現(xiàn)引起了我們的注意。
它的獨特之處,在于它不是任何一個我們熟悉的品類。
它不是模型公司——不做世界模型,不做VLA,不和LeCun的AMI Labs或李飛飛的World Labs競爭。
它也不是機器人本體公司——不造人形機器人,不和Figure、Tesla Optimus、1X、Unitree爭奪硬件份額。
Ropedia更像一家數(shù)據(jù)科學公司(Data ScienceCompany)。
在大語言模型時代,Scale AI和Surge AI的故事告訴我們一件事:數(shù)據(jù)基礎(chǔ)設施的價值,往往被低估到令人吃驚的程度。
![]()
Scale AI靠拼規(guī)模和吞吐量做到了百億美元估值,但最終Surge AI用不到十分之一的團隊、零外部融資,憑借對數(shù)據(jù)質(zhì)量近乎偏執(zhí)的追求,在營收上反超了前者。
這個故事的教訓很清楚——在AI基礎(chǔ)設施的競爭中,理解「模型到底需要什么樣的數(shù)據(jù)」,比單純的數(shù)據(jù)體量更值錢。
Ropedia走的是同樣的邏輯,但它面對的賽道更加底層,也更加關(guān)鍵。
大語言模型時代,Scale AI標注的是文本和圖像——這些數(shù)據(jù)形態(tài)是二維的、靜態(tài)的、結(jié)構(gòu)相對簡單的。
而Physical AI時代,數(shù)據(jù)是4D的——三維空間加時間加交互加后果,數(shù)據(jù)的復雜度和結(jié)構(gòu)化難度呈指數(shù)級上升。
在這個新賽道里,「拍了多少視頻」遠不如「能把真實經(jīng)驗轉(zhuǎn)化為多少高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)」重要。
這恰恰是Ropedia的核心定位:它不生產(chǎn)模型,也不生產(chǎn)機器人,它生產(chǎn)讓模型和機器人變得更聰明的「燃料」——而且是高辛烷值的、精煉過的、可以直接進入訓練管線的燃料。
它的客戶畫像也印證了這一點:北美和英國的科技大廠、明星機器人初創(chuàng)公司、視覺模型公司、空間智能公司——都是Physical AI賽道上最前沿的玩家。
它們選擇Ropedia,不是因為缺視頻,而是因為缺高質(zhì)量的結(jié)構(gòu)化經(jīng)驗數(shù)據(jù)。
一個時代的基礎(chǔ)設施
正在被重新定義
回頭來看,一條清晰的主線正在浮現(xiàn)。
過去,大模型依靠互聯(lián)網(wǎng)成長。文本互聯(lián)網(wǎng)塑造了語言智能,圖像與視頻互聯(lián)網(wǎng)推動了視覺智能。
而下一個時代,Physical AI需要的將不是另一套內(nèi)容平臺,而是一套能夠持續(xù)積累、持續(xù)組織、持續(xù)更新的人類經(jīng)驗基礎(chǔ)設施。
如果說過去的互聯(lián)網(wǎng)沉淀的是「人類說了什么、寫了什么、拍了什么」,那么屬于Physical AI的基礎(chǔ)設施,需要沉淀的是一個更加本質(zhì)的東西:人類如何在真實世界中行動、交互,并改變世界。
LeCun和李飛飛用數(shù)十億美元的融資規(guī)模,向全世界宣告了世界模型和空間智能的方向確定性。
但方向確定之后,真正的競爭焦點會迅速轉(zhuǎn)移到一個更底層的問題上——數(shù)據(jù)從哪里來?什么樣的數(shù)據(jù)才真正有用?誰能以可持續(xù)的方式大規(guī)模生產(chǎn)它?
從兩百萬條、10,000+小時Human Experience數(shù)據(jù)集出發(fā),Ropedia正在為Physical AI建立一套可持續(xù)擴展的「經(jīng)驗百科全書」。
![]()
更長遠來看,一個令人興奮的圖景已經(jīng)隱約可見:未來,當機器人真正走進千家萬戶時,每一臺都需要被「教會」你家的洗碗機怎么用、冰箱怎么開、你的生活習慣是什么——就像你教一個新來的鐘點工熟悉環(huán)境一樣,只不過這一次你教的是AI。
這個「教」的過程,本質(zhì)上就是Human Experience的持續(xù)采集、結(jié)構(gòu)化和閉環(huán)。
它所蘊含的,是一個比今天能想象到的大得多的數(shù)據(jù)基礎(chǔ)設施市場。
當機器第一次能夠系統(tǒng)性地學習人類如何在空間中行動并改變世界,Physical AI的真正時代,才會拉開帷幕。
One more thing,
值得一提的是,這次發(fā)布所記錄下的人類雙手與運動距離總和,就已經(jīng)足夠繞地球一圈 :)
參考資料:
https://ropedia.com/blog/20251216_introducing_ropedia
為偉大思想而生!
AI+時代,互聯(lián)網(wǎng)思想(wanging0123),
第一必讀自媒體
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.