OpenClaw不會蛋炒飯！Ropedia放出人類經(jīng)驗，機器人“經(jīng)驗百科全書”來了

2026-03-22 20:41:17　來源: 互聯(lián)網(wǎng)思想

廣東舉報

分享至

來源：新智元

【導讀】當LeCun和李飛飛各自拿下10億美元押注世界模型時，一個更底層的問題浮出水面：誰來為Physical AI提供真正能用的數(shù)據(jù)？Ropedia給出的答案，不是更多視頻，而是一部結(jié)構(gòu)化的、來自真實世界的「經(jīng)驗百科全書」。

最近，AI圈最熱的一件事情就是，玩OpenClaw。

OpenClaw似乎無所不能：寫代碼、出報告、改方案、查資料。

但有一件事，OpenClaw做不到——它沒辦法幫你去廚房炒一盤蛋炒飯。

但當AI試圖進入物理世界，一個隱藏已久的問題開始浮出水面：

機器人學習的數(shù)據(jù)在哪里，人類在真實世界中的經(jīng)驗和經(jīng)歷如何變成「高質(zhì)量數(shù)據(jù)」？

2026年，AI世界的風向標開始轉(zhuǎn)向了同一個方向：如何讓智能真正走進真實物理世界。

給Physical AI一套

真正的「經(jīng)驗底座」

對于AI發(fā)展的路線之爭，圖靈獎得主Yann LeCun的堅持代表了一種態(tài)度，資本也給出的回應。

他離開Meta后創(chuàng)辦的AMI Labs，以35億美元估值拿下10.3億美元種子輪——刷新歐洲AI創(chuàng)業(yè)史上最大種子輪紀錄。

貝索斯、英偉達、三星、施密特，半個硅谷都在他的投資人名單上。

LeCun說得直白：「世界模型將成為下一個熱詞。六個月后，每家公司都會自稱是世界模型來融資。」

就在AMI Labs官宣的兩周前，「AI教母」李飛飛的World Labs剛剛完成10億美元融資，估值飆至50億美元。

AMD和英偉達兩大芯片巨頭同時入局，Autodesk更是一口氣掏出2億美元戰(zhàn)略投資。

李飛飛在年初的訪談中反復強調(diào)一個判斷：空間智能，是AI的下一個前沿。

兩位學術(shù)界最具號召力的人物，不約而同押下了同一注：讓AI理解真實的物理世界。

這是一個時代的信號。

從語言智能到物理智能：

中間差了一座「數(shù)據(jù)大橋」

過去十年，AI的飛躍建立在互聯(lián)網(wǎng)規(guī)模的文本、圖像和視頻之上。

大模型學會了理解語言、識別場景、生成內(nèi)容，智能第一次大規(guī)模走入了人們的生活。

但當AI試圖進一步踏入物理世界，問題開始變得截然不同。

機器人不僅要「看見」，還要「行動」；不僅要識別一個廚房長什么樣，還要理解人在其中如何移動、如何操作、如何跟物體發(fā)生交互，以及每一個動作會帶來什么物理后果。

這意味著，下一代智能系統(tǒng)——包括空間智能、具身智能、世界模型和Physical AI——需要的已經(jīng)不只是更多視頻，而是更接近人類真實行動過程的經(jīng)驗數(shù)據(jù)（Experience）。

可問題在于：這樣的數(shù)據(jù)，幾乎不存在。

今天互聯(lián)網(wǎng)上有海量的視頻，但絕大多數(shù)只是「被動觀看」的素材——缺少深度信息、缺少空間結(jié)構(gòu)、缺少手部交互軌跡、缺少動作與后果之間的因果關(guān)聯(lián)。

對于想要在物理世界中執(zhí)行任務的AI來說，一千小時的YouTube視頻，遠遠不如一小時結(jié)構(gòu)化的人類真實交互經(jīng)驗有用。

英偉達今年2月發(fā)布的EgoScale研究，用超過20,000小時的第一視角人類視頻訓練VLA模型，發(fā)現(xiàn)了一條近乎完美的對數(shù)線性Scaling Law——人類數(shù)據(jù)規(guī)模每擴大一倍，模型性能就穩(wěn)定提升。

這第一次用硬數(shù)據(jù)證明了：大規(guī)模人類經(jīng)驗數(shù)據(jù)，是機器人學習靈巧操作的可預測監(jiān)督來源。

誰能持續(xù)產(chǎn)出高質(zhì)量結(jié)構(gòu)化的人類經(jīng)驗數(shù)據(jù)，誰就握住了下一個智能時代的燃料。

但是，機器的養(yǎng)料，不該局限于枯燥的「工廠操作指南」，而更該是一部包羅萬象的「人類經(jīng)驗百科」。

如同《黑客帝國》中多個版本的Neo救世主

真實世界的互動，充滿了鮮活的復雜與多元。

一千萬條Human Experience：

一部「人類經(jīng)驗百科全書」

正是在這個背景下，Ropedia正式發(fā)布了一千萬條，約10,000+小時的Human Experience數(shù)據(jù)集——Xperience-10M，并將以開放的方式向研究者公布。

現(xiàn)在，Xperience-10M已在Hugging Face上開源。

huggingface鏈接：https://huggingface.co/datasets/ropedia-ai/xperience-10m

正如「Ropedia」這個名字所承載的野心與浪漫——

為Robot（機器人）撰寫一部全景式的Encyclopedia（百科全書），將人類流動的生命經(jīng)驗，化作AI跨越時代的通用底座。

這不是一套傳統(tǒng)意義上的原始采集數(shù)據(jù)。

他們想做的不是「上傳一批視頻」，而是為機器構(gòu)建一部通往物理世界的「經(jīng)驗百科全書」。

為什么叫「百科全書」？

因為對于具身智能和世界模型來說，真正缺的不是某一種信號，而是一整套多維度、多模態(tài)、像百科全書一樣完整的數(shù)據(jù)——它需要有物理信息、三維空間信息、交互意圖、行為軌跡，所有這些維度拼湊在一起，才能構(gòu)成一幅生動寫實的圖景，而不是一個視頻合集。

在同一段軌跡中，Ropedia同時提供了五個核心維度的數(shù)據(jù)：

視覺流信息（RGB第一視角連續(xù)觀察，360°第一視角采集）
空間信息（深度、空間結(jié)構(gòu)、環(huán)境拓撲）
動作信息（全身動作、手部靈巧操作、交互軌跡）
交互信息（人與物、人與場景、人與任務之間的作用關(guān)系）
以及語義信息（任務描述、狀態(tài)變化、原子動作、行為意圖）

更關(guān)鍵的是，這些維度并不是后期「拼起來」的，而是被統(tǒng)一對齊在同一時間軸和同一結(jié)構(gòu)框架下。

視覺與動作天然同步，語義與物理變化可以對應，行為路徑與空間結(jié)構(gòu)可以追溯，整個任務執(zhí)行過程都可以被重放、建模和學習。

這正是Ropedia與市面上大量數(shù)據(jù)集最本質(zhì)的區(qū)別：它交付的不是一堆原始素材，而是一套真正可以直接喂入模型訓練環(huán)節(jié)的結(jié)構(gòu)化智能數(shù)據(jù)。

什么是4D Physical World？

在Ropedia的定義里，4D并不只是「3D加上時間」。

它真正指向的是一個更完整的框架：3D + Time + Interaction + Consequence。

拆開來看，就是四個維度的閉環(huán)——

空間（Where）：智能體身處何處，周圍環(huán)境結(jié)構(gòu)如何；
行動（How）：它如何移動、如何接觸、如何操控；
交互（With What）：它和什么對象發(fā)生了作用；
后果（What Changes）：這些動作帶來了怎樣真實可觀測的物理變化。

這四個維度，構(gòu)成了機器理解物理世界的最小閉環(huán)。

道理很簡單：如果沒有交互，時間只是一段錄像；如果沒有后果，動作只是一條軌跡。

只有當「行為如何改變世界」這個信息被寫入數(shù)據(jù)本體，Physical AI才真正擁有了學習現(xiàn)實的基礎(chǔ)。

從這個意義上說，Ropedia發(fā)布的不只是一個數(shù)據(jù)集，更像是在定義一種面向具身智能的新型數(shù)據(jù)標準。

HOMIE：把人類經(jīng)驗采集，做成像戴眼鏡一樣自然

有了數(shù)據(jù)標準還不夠，更核心的問題是：這樣的數(shù)據(jù)從哪里來？

今天行業(yè)里不乏數(shù)據(jù)采集的努力。

特斯拉的Optimus項目招募大量人員，在專用設施里穿著動捕服反復做洗碗、疊衣服等動作，攝像頭從最初的四個擴展到六個再到八個。

Figure則讓操作者頭戴Vision Pro進行遙操作數(shù)據(jù)采集。

這些方案各有所長，但都面臨一個共同的限制：它們嚴重依賴專業(yè)設備和受控環(huán)境。

采集只能發(fā)生在Tesla的數(shù)據(jù)工廠里、Figure的樣板房里、實驗室的可控場景里。

一旦換一個不同的環(huán)境——整套數(shù)據(jù)閉環(huán)的能力就急劇下降。

真正的泛化，需要的是在真實世界的千千萬萬個末端場景里完成數(shù)據(jù)閉環(huán)。

為此，Ropedia早在2025年發(fā)布了自己的端到端采集平臺——HOMIE。

HOMIE不是單一硬件，而是一整套圍繞「無感化、可擴展、長期可用」設計的「人類經(jīng)驗捕捉系統(tǒng)」。

它的核心特點在于兩個「不依賴」：不依賴重型專業(yè)設備，不依賴外部第三人稱視角相機。

用戶只需佩戴一個輕量化的頭戴式多模態(tài)采集設備，就可以回到日常生活和工作環(huán)境中自然地完成數(shù)據(jù)采集。

這意味著高質(zhì)量數(shù)據(jù)的閉環(huán)，可以真實地發(fā)生在每一個末端場景里——你家的廚房、辦公桌、工廠產(chǎn)線、醫(yī)院護理站——而不只是一間樣板房或數(shù)據(jù)工廠。

HOMIE支持長時間佩戴、具備穩(wěn)定的自運動追蹤與定位能力、多傳感器精準同步，以及面向真實世界任意場景的規(guī)模化部署。

從外部看，這是一套硬件采集系統(tǒng)；但從Ropedia的戰(zhàn)略來看，它更像是「物理世界百科全書」的入口層，持續(xù)把真實世界中的人類行為轉(zhuǎn)化為可被機器理解的知識單元。

真正拉開差距的，是結(jié)構(gòu)化標注能力

但是，原始經(jīng)驗并不天然等于智能數(shù)據(jù)。

這是Ropedia反復強調(diào)的核心觀點。

市面上不乏數(shù)據(jù)采集的方案——有人采了很多視頻，隨手放到網(wǎng)上，拼的是時長和體量。

但這種做法很容易淪為「又一個互聯(lián)網(wǎng)數(shù)據(jù)集」。

有數(shù)據(jù)不等于「有用的數(shù)據(jù)」。沒有高質(zhì)量、結(jié)構(gòu)化、可對齊的標注體系，海量采集只是一堆噪聲。

Ropedia真正的核心競爭力，在于它背后那套空間基礎(chǔ)模型（Spatial Foundation Model）與自動標注體系。

這套系統(tǒng)類似于特斯拉FSD的數(shù)據(jù)飛輪邏輯：

FSD最大的優(yōu)勢不在于某一版硬件有多強，而在于它能夠產(chǎn)生數(shù)據(jù)飛輪效應——車輛在路上跑的同時不斷回灌數(shù)據(jù)，持續(xù)提升模型在長尾場景下的能力。

Ropedia的數(shù)據(jù)管線也遵循同樣的思路。

它并不純依賴硬件——因為硬件迭代是慢的，哪怕以深圳速度也要三到六個月一版——而是依賴自研的空間基礎(chǔ)模型來驅(qū)動整條數(shù)據(jù)管線。

幾百上千名采集人員在外場采集的數(shù)據(jù)，一方面交付給下游客戶使用，另一方面也在閉環(huán)Ropedia自身模型的能力。

模型越強，標注質(zhì)量越高；標注質(zhì)量越高，模型又進一步提升。

這種飛輪效應，使得Ropedia的數(shù)據(jù)質(zhì)量迭代速度遠超傳統(tǒng)的硬件驅(qū)動或人力標注方式。

目前，這套系統(tǒng)已覆蓋的關(guān)鍵能力包括：空間定位與深度恢復、手—物交互追蹤、全身動作捕捉、物體與場景語義理解、任務描述與狀態(tài)變化建模，以及更多持續(xù)擴展中的結(jié)構(gòu)化維度。

換句話說，Ropedia真正交付的不是「我們拍到了很多」，而是「我們能把真實經(jīng)驗穩(wěn)定地轉(zhuǎn)譯成高質(zhì)量智能數(shù)據(jù)」。

這是它與大量無結(jié)構(gòu)采集方案之間的關(guān)鍵分水嶺。

「經(jīng)驗百科全書」如何

重新定義機器人數(shù)據(jù)采集？

站在具身智能和世界模型的前沿來看，Ropedia發(fā)布的這套Human Experience數(shù)據(jù)集，實際上觸及了一個整個行業(yè)懸而未決的根本性問題：

機器人要從什么樣的數(shù)據(jù)中學會在物理世界里行動？

回顧機器人領(lǐng)域數(shù)據(jù)采集的演進脈絡，你會發(fā)現(xiàn)它經(jīng)歷了三個清晰的階段：

第一階段是仿真數(shù)據(jù)主導。在NVIDIA Isaac、MuJoCo等仿真器中生成大量虛擬軌跡，優(yōu)勢是成本極低、可無限復制，但致命缺陷是sim-to-real gap——仿真中完美運行的策略，一旦部署到真實世界就大幅退化。

第二階段是遙操作（teleoperation）數(shù)據(jù)興起。Tesla Optimus招募大量人員在樣板房里用人體動捕設備遙控機器人執(zhí)行任務，F(xiàn)igure等公司用Vision Pro做數(shù)據(jù)采集，RT-2、ALOHA等項目也大量依賴遙操作。

這種方式的優(yōu)勢是動作數(shù)據(jù)直接來自真實機器人執(zhí)行，可以端到端訓練，但瓶頸同樣明顯——成本極高、采集不具備可擴展性，最關(guān)鍵的是，它只能在可控環(huán)境中進行，永遠無法覆蓋真實世界千變?nèi)f化的長尾場景。

你可以在Tesla的數(shù)據(jù)工廠里搭一個標準廚房，但你搭不出全世界幾十億家庭各不相同的廚房。

第三階段，也是正在發(fā)生的范式轉(zhuǎn)移，是以人為中心（human-centric）的經(jīng)驗數(shù)據(jù)。不再用機器人采集數(shù)據(jù)，而是讓人類在真實生活場景中自然行動，通過輕量化的可穿戴設備記錄第一視角的多模態(tài)信息，然后將這些人類經(jīng)驗轉(zhuǎn)化為機器可學習的結(jié)構(gòu)化數(shù)據(jù)。

這個轉(zhuǎn)變的底層邏輯，其實和自動駕駛行業(yè)的演進如出一轍。

早期Waymo的方案是在有限的城市中用昂貴的傳感器車隊采集數(shù)據(jù)，數(shù)據(jù)質(zhì)量很高但規(guī)模上不去；后來Tesla用每一輛量產(chǎn)車的攝像頭做「影子模式」，海量采集真實駕駛場景，用規(guī)模和多樣性碾壓了精采數(shù)據(jù)的稀缺性。

從「昂貴的專業(yè)采集」到「低成本、滲透式的規(guī)模化采集」，這條路徑在自動駕駛領(lǐng)域已經(jīng)被驗證過一遍了。

機器人領(lǐng)域正在重走這條路。

英偉達的例子很有說服力。

EgoScale研究表明，當?shù)谝灰暯侨祟愐曨l數(shù)據(jù)規(guī)模提升至20,854小時后，機器人策略性能呈現(xiàn)出清晰的規(guī)模化收益；與無預訓練基線相比，平均成功率提升54%。

第一視角人類數(shù)據(jù)對機器人泛化與遷移能力的作用，已經(jīng)從「輔助路線」走向「主路徑」。

這些信號匯聚起來，指向一個不可逆轉(zhuǎn)的行業(yè)共識：

如果你真想構(gòu)建能泛化到任意場景的機器人基礎(chǔ)模型，以人為中心的、來自真實世界的經(jīng)驗數(shù)據(jù)，是唯一能實現(xiàn)規(guī)模化的路徑。

而Ropedia的「經(jīng)驗百科全書」范式，恰恰在這個歷史轉(zhuǎn)折點上，給出了一套完整的答案——不只是采集人類數(shù)據(jù)，而是將人類在真實世界中的完整經(jīng)驗鏈條（感知-意圖-動作-交互-后果）結(jié)構(gòu)化為機器可讀、可訓練、可泛化的4D物理世界數(shù)據(jù)。

這是對「機器人該從什么數(shù)據(jù)中學習」這個根本問題的一次重新定義。

一個新的Physical AI玩家

作為關(guān)注Physical AI和具身智能賽道的觀察者，當我們在世界模型融資狂潮、機器人本體軍備競賽和基礎(chǔ)模型混戰(zhàn)的嘈雜聲中，梳理整個產(chǎn)業(yè)鏈的關(guān)鍵節(jié)點時，Ropedia的出現(xiàn)引起了我們的注意。

它的獨特之處，在于它不是任何一個我們熟悉的品類。

它不是模型公司——不做世界模型，不做VLA，不和LeCun的AMI Labs或李飛飛的World Labs競爭。

它也不是機器人本體公司——不造人形機器人，不和Figure、Tesla Optimus、1X、Unitree爭奪硬件份額。

Ropedia更像一家數(shù)據(jù)科學公司（Data ScienceCompany）。

在大語言模型時代，Scale AI和Surge AI的故事告訴我們一件事：數(shù)據(jù)基礎(chǔ)設施的價值，往往被低估到令人吃驚的程度。

Scale AI靠拼規(guī)模和吞吐量做到了百億美元估值，但最終Surge AI用不到十分之一的團隊、零外部融資，憑借對數(shù)據(jù)質(zhì)量近乎偏執(zhí)的追求，在營收上反超了前者。

這個故事的教訓很清楚——在AI基礎(chǔ)設施的競爭中，理解「模型到底需要什么樣的數(shù)據(jù)」，比單純的數(shù)據(jù)體量更值錢。

Ropedia走的是同樣的邏輯，但它面對的賽道更加底層，也更加關(guān)鍵。

大語言模型時代，Scale AI標注的是文本和圖像——這些數(shù)據(jù)形態(tài)是二維的、靜態(tài)的、結(jié)構(gòu)相對簡單的。

而Physical AI時代，數(shù)據(jù)是4D的——三維空間加時間加交互加后果，數(shù)據(jù)的復雜度和結(jié)構(gòu)化難度呈指數(shù)級上升。

在這個新賽道里，「拍了多少視頻」遠不如「能把真實經(jīng)驗轉(zhuǎn)化為多少高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)」重要。

這恰恰是Ropedia的核心定位：它不生產(chǎn)模型，也不生產(chǎn)機器人，它生產(chǎn)讓模型和機器人變得更聰明的「燃料」——而且是高辛烷值的、精煉過的、可以直接進入訓練管線的燃料。

它的客戶畫像也印證了這一點：北美和英國的科技大廠、明星機器人初創(chuàng)公司、視覺模型公司、空間智能公司——都是Physical AI賽道上最前沿的玩家。

它們選擇Ropedia，不是因為缺視頻，而是因為缺高質(zhì)量的結(jié)構(gòu)化經(jīng)驗數(shù)據(jù)。

一個時代的基礎(chǔ)設施

正在被重新定義

回頭來看，一條清晰的主線正在浮現(xiàn)。

過去，大模型依靠互聯(lián)網(wǎng)成長。文本互聯(lián)網(wǎng)塑造了語言智能，圖像與視頻互聯(lián)網(wǎng)推動了視覺智能。

而下一個時代，Physical AI需要的將不是另一套內(nèi)容平臺，而是一套能夠持續(xù)積累、持續(xù)組織、持續(xù)更新的人類經(jīng)驗基礎(chǔ)設施。

如果說過去的互聯(lián)網(wǎng)沉淀的是「人類說了什么、寫了什么、拍了什么」，那么屬于Physical AI的基礎(chǔ)設施，需要沉淀的是一個更加本質(zhì)的東西：人類如何在真實世界中行動、交互，并改變世界。

LeCun和李飛飛用數(shù)十億美元的融資規(guī)模，向全世界宣告了世界模型和空間智能的方向確定性。

但方向確定之后，真正的競爭焦點會迅速轉(zhuǎn)移到一個更底層的問題上——數(shù)據(jù)從哪里來？什么樣的數(shù)據(jù)才真正有用？誰能以可持續(xù)的方式大規(guī)模生產(chǎn)它？

從兩百萬條、10,000+小時Human Experience數(shù)據(jù)集出發(fā)，Ropedia正在為Physical AI建立一套可持續(xù)擴展的「經(jīng)驗百科全書」。

更長遠來看，一個令人興奮的圖景已經(jīng)隱約可見：未來，當機器人真正走進千家萬戶時，每一臺都需要被「教會」你家的洗碗機怎么用、冰箱怎么開、你的生活習慣是什么——就像你教一個新來的鐘點工熟悉環(huán)境一樣，只不過這一次你教的是AI。

這個「教」的過程，本質(zhì)上就是Human Experience的持續(xù)采集、結(jié)構(gòu)化和閉環(huán)。

它所蘊含的，是一個比今天能想象到的大得多的數(shù)據(jù)基礎(chǔ)設施市場。

當機器第一次能夠系統(tǒng)性地學習人類如何在空間中行動并改變世界，Physical AI的真正時代，才會拉開帷幕。

One more thing,

值得一提的是，這次發(fā)布所記錄下的人類雙手與運動距離總和，就已經(jīng)足夠繞地球一圈 :)

參考資料：

https://ropedia.com/blog/20251216_introducing_ropedia

為偉大思想而生！

AI+時代，互聯(lián)網(wǎng)思想（wanging0123)，

第一必讀自媒體

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.