網易首頁 > 網易號 > 正文申請入駐

人形機器人還沒打工，先被送進了“補習班”

2026-05-08 18:45:35　來源: 高恒說

北京舉報

分享至

具身智能行業最近出現了一個反常識現象：最先進的公司，正在做最笨重的事。

特斯拉把工廠產線變成 Optimus 的訓練場，Figure AI 在全球采集人類動作數據；國內北京、上海、深圳、蘇州、青島、濟南等地，也在密集建設具身智能訓練場。地方政府、科研機構、機器人企業幾乎同時入局，規模從幾千平米到上萬平米不等。

這不是行業突然迷戀重資產，而是具身智能走到今天，終于碰到了一個繞不過去的問題：機器人缺的不是演示視頻，而是真實世界里的訓練數據。

過去兩三年，行業最熱衷討論的是大模型、VLA、端到端、本體成本和量產時間表。但當機器人真正要從發布會走進工廠、倉庫、商超和家庭，問題反而變得很樸素：它能不能穩定抓起一個箱子？能不能在光線變化、地面打滑、物體擺歪的情況下繼續完成任務？能不能把一次失敗變成下一次進步？

這背后的答案，不在 PPT 里，而在訓練場里。

訓練場不是終局，也不是萬能解法。但它是具身智能從“做樣機”走向“做系統”的開始。誰能更快、更便宜、更穩定地生產高質量真機數據，誰才更接近產業化。

一、具身智能真正缺的不是模型，而是能反復生產數據的系統

具身智能行業過去一直有一個誤區：只要模型足夠大、算法足夠強，機器人自然就會變聰明。

但機器人和大語言模型不一樣。大語言模型主要在文本世界里學習，機器人必須在物理世界里摔打。互聯網數據可以告訴模型杯子是什么、門把手是什么、紙箱是什么，卻很難告訴機器人，杯子拿起來需要多大力度，門把手轉動時會產生多少阻力，紙箱搬運時重心會怎樣變化。

這就是具身智能的數據困境。

它不是簡單缺數據，而是缺真實物理交互數據。抓取、搬運、擰螺絲、開門、避障，這些任務都涉及接觸、摩擦、碰撞、材料形變、傳感器誤差和執行偏差。機器人最終不是在屏幕里完成任務，而是在真實世界里和物體發生關系。

所以具身智能的數據，大致可以分成三層。

最底層是互聯網文本和視頻數據，量大、便宜，適合讓模型獲得基礎語義理解。中間層是仿真數據，可以在虛擬環境中大規模生成，適合做冷啟動訓練。最頂層是真機數據，也就是機器人在真實場景里執行任務時產生的數據。它最貴、最慢、最難采，但也最關鍵。

訓練場的價值，就在于持續生產這類真機數據。

這件事聽起來不性感，甚至有點笨。但它決定了機器人能不能從“看起來會干活”，變成“真的能干活”。

一個很簡單的類比是，人不能只靠看游泳視頻學會游泳，機器人也不能只靠仿真數據學會進入工廠。它必須在真實環境里摔倒、糾錯、調整，再把這些失敗變成下一輪模型訓練的燃料。

這也是為什么全球頭部玩家都開始做訓練場。它們不是不知道仿真效率高，而是更清楚：機器人最終要面對的不是一個干凈的虛擬環境，而是一個混亂、粗糙、充滿誤差的真實世界。

真正的競爭，已經從“誰能做出機器人”，轉向“誰能持續讓機器人進步”。

而進步的基礎，是數據閉環。

二、訓練場不是擺幾個機器人，而是機器人時代的數據基礎設施

國內現在的具身智能訓練場，已經不只是企業自建實驗室。

從北京、上海、深圳，到蘇州、青島、濟南，各地都在把訓練場當作新一輪產業基礎設施來建設。國家隊更多是在“修考場”，負責制定標準、測試體系和行業基準；地方國資是在“鋪路”，通過訓練場吸引機器人產業鏈落地；企業是在“種地”，自己搭場景、采數據、訓模型；高校和科研機構則是在“發課本”，解決人才培養和數據孤島問題。

這套分工背后，其實是一個很清晰的產業邏輯：國家隊定規矩，地方建生態，企業產數據，高校養人才。

訓練場之所以重要，是因為它可能成為機器人時代的數據中心。

云計算出現之前，互聯網公司想做業務，往往要自己買服務器、建機房、配運維團隊。門檻高、周期長，中小團隊很難參與競爭。后來 AWS、阿里云、微軟 Azure 把算力變成服務，開發者可以按需調用，才真正推動了移動互聯網和軟件創業的爆發。

具身智能訓練場，也有類似價值。

未來一個機器人團隊，未必需要從零搭建所有真實場景，也未必需要獨立采集全部動作數據，而是可以基于公共訓練場、開源數據集和標準化測試體系，快速驗證模型能力。

這會降低行業門檻，也會改變競爭方式。

過去機器人企業拼的是誰能把整機做出來，誰能把成本打下來，誰能在發布會上做出更流暢的演示。未來更重要的，可能是誰有更穩定的數據來源、更完整的數據管線、更強的模型回流能力。

但這里也必須冷靜一點：不是所有訓練場都有價值。

訓練場不是擺幾臺機器人、搭幾個貨架、放幾條傳送帶，就自動變成產業基礎設施。很多地方如果只是為了招商、展示和項目包裝，訓練場很容易變成“高級樣板間”，看上去熱鬧，實際上產不出多少有效數據。

真正有價值的訓練場，至少要滿足三個條件。

第一，場景足夠真實。它不能只模擬理想狀態，而要覆蓋真實工廠、倉庫、商超、家庭環境里的混亂細節。

第二，數據能進入模型閉環。采集數據只是第一步，后面還要清洗、標注、對齊、訓練、驗證、回流。如果沒有后端模型能力，訓練場只是“數據堆場”。

第三，要有真實客戶場景牽引。機器人最終不是在訓練場里打工，而是在產業現場創造價值。訓練場如果脫離訂單和應用需求，就容易變成地方新基建沖動。

所以訓練場真正要比的，不是面積多大，也不是機器人數量多少，而是能不能把真實世界的復雜性，轉化成可訓練、可復用、可迭代的數據資產。

這是它和普通展示中心最大的區別。

三、下一階段的勝負，不在誰講故事更快，而在誰的數據復利更厚

現在行業里關于數據路線有很多爭論。

有人認為，具身智能不能完全依賴真實采集。真機數據成本太高、周期太長，未來具身大模型需要的數據量極其龐大，全部靠真實采集既不現實，也不可持續。所以更合理的路線，是用仿真數據和合成數據做基本盤，再用少量高質量真實數據做校準。

也有人認為，仿真可以輔助，但不能成為底座。因為機器人最終要進入真實世界，而真實世界里的接觸、摩擦、光照、遮擋、噪聲和意外情況，很難被仿真完全還原。如果過度依賴仿真，機器人可能會在虛擬環境里表現很好，一進真實場景就掉鏈子。

表面上看，這是路線之爭。

但本質上，它們都說明了一件事：行業太缺高質量數據了。

真正的矛盾不是仿真有沒有用，也不是真機是不是萬能，而是什么數據真正有效。低質量真實數據不一定有價值，高質量仿真數據也不是沒有用。未來更可能出現的路線，是仿真數據負責擴大規模，真實數據負責校準模型。機器人先在虛擬環境里完成大規模訓練，再回到真實世界中對齊、糾錯、泛化。

但無論哪條路線，真機數據都繞不過去。

因為機器人不是純軟件。它每一個動作都要經過硬件執行，每一次執行都會遇到物理世界的不確定性。手臂抓取是否穩定，步態是否平衡，傳感器是否被遮擋，末端執行器是否產生誤差，這些問題只有真機運行才能暴露。

訓練場不是仿真的替代品，而是真實世界的校準器。

它最大的價值，不是一次性生產多少數據，而是持續把模型拉回現實世界。

這也是為什么樂聚、智元、銀河通用、星海圖等企業對數據的理解不同，但都在證明同一個趨勢：具身智能已經進入數據短缺階段。有人押注仿真，有人押注真機，有人嘗試開源數據社區，有人希望通過真實部署形成閉環。路線不同，方向一致——大家都在找可持續的數據生產方式。

以樂聚為例，它在多地建設機器人訓練場，本質上做的是具身智能行業的基礎農活：搭建真實 POC 場景，讓機器人在物流、搬運、工業等場景里反復執行任務，采集多模態真機數據，再反哺模型訓練。

這件事不如大模型發布會性感，但很接近產業本質。

早期云計算公司建數據中心，自動駕駛公司搭路測車隊，AI 數據公司做標注平臺，本質上都是在做同一類事情：先把行業需要的“糧食”生產出來。

具身智能現在也是如此。

模型再先進，手里沒糧，機器人就無法真正長大。

更重要的是，數據資產是時間的函數。今天采集的數據，不只是今天可用，它會沉淀為模型能力、場景經驗、測試標準和工程壁壘。越早開始積累，越容易形成復利。等行業真正進入規模化應用階段，再回頭補數據，成本會更高，差距也更難追。

所以今天看似笨重的訓練場，可能就是未來具身智能行業最關鍵的護城河。

具身智能表面上還在卷機器人本體、卷大模型、卷發布會演示，但真正的競爭已經悄悄換了戰場。

誰能生產更多有效數據，誰就更接近真實世界。

誰更接近真實世界，誰才更有可能把機器人從視頻里的科技秀，變成工廠、倉庫、家庭里的真正勞動力。

訓練場不是終局，但它是門票。

這場競爭表面上是機器人之爭，底層其實是數據之爭。而訓練場，就是這場戰爭最早被看見的基礎設施。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.