![]()
具身智能行業最近出現了一個反常識現象:最先進的公司,正在做最笨重的事。
特斯拉把工廠產線變成 Optimus 的訓練場,Figure AI 在全球采集人類動作數據;國內北京、上海、深圳、蘇州、青島、濟南等地,也在密集建設具身智能訓練場。地方政府、科研機構、機器人企業幾乎同時入局,規模從幾千平米到上萬平米不等。
這不是行業突然迷戀重資產,而是具身智能走到今天,終于碰到了一個繞不過去的問題:機器人缺的不是演示視頻,而是真實世界里的訓練數據。
過去兩三年,行業最熱衷討論的是大模型、VLA、端到端、本體成本和量產時間表。但當機器人真正要從發布會走進工廠、倉庫、商超和家庭,問題反而變得很樸素:它能不能穩定抓起一個箱子?能不能在光線變化、地面打滑、物體擺歪的情況下繼續完成任務?能不能把一次失敗變成下一次進步?
這背后的答案,不在 PPT 里,而在訓練場里。
訓練場不是終局,也不是萬能解法。但它是具身智能從“做樣機”走向“做系統”的開始。誰能更快、更便宜、更穩定地生產高質量真機數據,誰才更接近產業化。
一、具身智能真正缺的不是模型,而是能反復生產數據的系統
具身智能行業過去一直有一個誤區:只要模型足夠大、算法足夠強,機器人自然就會變聰明。
但機器人和大語言模型不一樣。大語言模型主要在文本世界里學習,機器人必須在物理世界里摔打。互聯網數據可以告訴模型杯子是什么、門把手是什么、紙箱是什么,卻很難告訴機器人,杯子拿起來需要多大力度,門把手轉動時會產生多少阻力,紙箱搬運時重心會怎樣變化。
這就是具身智能的數據困境。
它不是簡單缺數據,而是缺真實物理交互數據。抓取、搬運、擰螺絲、開門、避障,這些任務都涉及接觸、摩擦、碰撞、材料形變、傳感器誤差和執行偏差。機器人最終不是在屏幕里完成任務,而是在真實世界里和物體發生關系。
所以具身智能的數據,大致可以分成三層。
最底層是互聯網文本和視頻數據,量大、便宜,適合讓模型獲得基礎語義理解。中間層是仿真數據,可以在虛擬環境中大規模生成,適合做冷啟動訓練。最頂層是真機數據,也就是機器人在真實場景里執行任務時產生的數據。它最貴、最慢、最難采,但也最關鍵。
訓練場的價值,就在于持續生產這類真機數據。
這件事聽起來不性感,甚至有點笨。但它決定了機器人能不能從“看起來會干活”,變成“真的能干活”。
一個很簡單的類比是,人不能只靠看游泳視頻學會游泳,機器人也不能只靠仿真數據學會進入工廠。它必須在真實環境里摔倒、糾錯、調整,再把這些失敗變成下一輪模型訓練的燃料。
這也是為什么全球頭部玩家都開始做訓練場。它們不是不知道仿真效率高,而是更清楚:機器人最終要面對的不是一個干凈的虛擬環境,而是一個混亂、粗糙、充滿誤差的真實世界。
真正的競爭,已經從“誰能做出機器人”,轉向“誰能持續讓機器人進步”。
而進步的基礎,是數據閉環。
二、訓練場不是擺幾個機器人,而是機器人時代的數據基礎設施
國內現在的具身智能訓練場,已經不只是企業自建實驗室。
從北京、上海、深圳,到蘇州、青島、濟南,各地都在把訓練場當作新一輪產業基礎設施來建設。國家隊更多是在“修考場”,負責制定標準、測試體系和行業基準;地方國資是在“鋪路”,通過訓練場吸引機器人產業鏈落地;企業是在“種地”,自己搭場景、采數據、訓模型;高校和科研機構則是在“發課本”,解決人才培養和數據孤島問題。
這套分工背后,其實是一個很清晰的產業邏輯:國家隊定規矩,地方建生態,企業產數據,高校養人才。
訓練場之所以重要,是因為它可能成為機器人時代的數據中心。
云計算出現之前,互聯網公司想做業務,往往要自己買服務器、建機房、配運維團隊。門檻高、周期長,中小團隊很難參與競爭。后來 AWS、阿里云、微軟 Azure 把算力變成服務,開發者可以按需調用,才真正推動了移動互聯網和軟件創業的爆發。
具身智能訓練場,也有類似價值。
未來一個機器人團隊,未必需要從零搭建所有真實場景,也未必需要獨立采集全部動作數據,而是可以基于公共訓練場、開源數據集和標準化測試體系,快速驗證模型能力。
這會降低行業門檻,也會改變競爭方式。
過去機器人企業拼的是誰能把整機做出來,誰能把成本打下來,誰能在發布會上做出更流暢的演示。未來更重要的,可能是誰有更穩定的數據來源、更完整的數據管線、更強的模型回流能力。
但這里也必須冷靜一點:不是所有訓練場都有價值。
訓練場不是擺幾臺機器人、搭幾個貨架、放幾條傳送帶,就自動變成產業基礎設施。很多地方如果只是為了招商、展示和項目包裝,訓練場很容易變成“高級樣板間”,看上去熱鬧,實際上產不出多少有效數據。
真正有價值的訓練場,至少要滿足三個條件。
第一,場景足夠真實。它不能只模擬理想狀態,而要覆蓋真實工廠、倉庫、商超、家庭環境里的混亂細節。
第二,數據能進入模型閉環。采集數據只是第一步,后面還要清洗、標注、對齊、訓練、驗證、回流。如果沒有后端模型能力,訓練場只是“數據堆場”。
第三,要有真實客戶場景牽引。機器人最終不是在訓練場里打工,而是在產業現場創造價值。訓練場如果脫離訂單和應用需求,就容易變成地方新基建沖動。
所以訓練場真正要比的,不是面積多大,也不是機器人數量多少,而是能不能把真實世界的復雜性,轉化成可訓練、可復用、可迭代的數據資產。
這是它和普通展示中心最大的區別。
三、下一階段的勝負,不在誰講故事更快,而在誰的數據復利更厚
現在行業里關于數據路線有很多爭論。
有人認為,具身智能不能完全依賴真實采集。真機數據成本太高、周期太長,未來具身大模型需要的數據量極其龐大,全部靠真實采集既不現實,也不可持續。所以更合理的路線,是用仿真數據和合成數據做基本盤,再用少量高質量真實數據做校準。
也有人認為,仿真可以輔助,但不能成為底座。因為機器人最終要進入真實世界,而真實世界里的接觸、摩擦、光照、遮擋、噪聲和意外情況,很難被仿真完全還原。如果過度依賴仿真,機器人可能會在虛擬環境里表現很好,一進真實場景就掉鏈子。
表面上看,這是路線之爭。
但本質上,它們都說明了一件事:行業太缺高質量數據了。
真正的矛盾不是仿真有沒有用,也不是真機是不是萬能,而是什么數據真正有效。低質量真實數據不一定有價值,高質量仿真數據也不是沒有用。未來更可能出現的路線,是仿真數據負責擴大規模,真實數據負責校準模型。機器人先在虛擬環境里完成大規模訓練,再回到真實世界中對齊、糾錯、泛化。
但無論哪條路線,真機數據都繞不過去。
因為機器人不是純軟件。它每一個動作都要經過硬件執行,每一次執行都會遇到物理世界的不確定性。手臂抓取是否穩定,步態是否平衡,傳感器是否被遮擋,末端執行器是否產生誤差,這些問題只有真機運行才能暴露。
訓練場不是仿真的替代品,而是真實世界的校準器。
它最大的價值,不是一次性生產多少數據,而是持續把模型拉回現實世界。
這也是為什么樂聚、智元、銀河通用、星海圖等企業對數據的理解不同,但都在證明同一個趨勢:具身智能已經進入數據短缺階段。有人押注仿真,有人押注真機,有人嘗試開源數據社區,有人希望通過真實部署形成閉環。路線不同,方向一致——大家都在找可持續的數據生產方式。
以樂聚為例,它在多地建設機器人訓練場,本質上做的是具身智能行業的基礎農活:搭建真實 POC 場景,讓機器人在物流、搬運、工業等場景里反復執行任務,采集多模態真機數據,再反哺模型訓練。
這件事不如大模型發布會性感,但很接近產業本質。
早期云計算公司建數據中心,自動駕駛公司搭路測車隊,AI 數據公司做標注平臺,本質上都是在做同一類事情:先把行業需要的“糧食”生產出來。
具身智能現在也是如此。
模型再先進,手里沒糧,機器人就無法真正長大。
更重要的是,數據資產是時間的函數。今天采集的數據,不只是今天可用,它會沉淀為模型能力、場景經驗、測試標準和工程壁壘。越早開始積累,越容易形成復利。等行業真正進入規模化應用階段,再回頭補數據,成本會更高,差距也更難追。
所以今天看似笨重的訓練場,可能就是未來具身智能行業最關鍵的護城河。
具身智能表面上還在卷機器人本體、卷大模型、卷發布會演示,但真正的競爭已經悄悄換了戰場。
誰能生產更多有效數據,誰就更接近真實世界。
誰更接近真實世界,誰才更有可能把機器人從視頻里的科技秀,變成工廠、倉庫、家庭里的真正勞動力。
訓練場不是終局,但它是門票。
這場競爭表面上是機器人之爭,底層其實是數據之爭。而訓練場,就是這場戰爭最早被看見的基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.