網易首頁 > 網易號 > 正文申請入駐

全球第一的具身智能模型，居然是靠”抄人類作業”練出來的

2026-04-14 00:38:10　來源: 高恒說

北京舉報

分享至

4月12日，靈初智能官宣完成新一輪融資，投資方是國投先導和京西瑞瓴，一個是硬科技賽道的頭部國資機構，一個是北京國資聯合高瓴背景發起的AI產業基金。兩天前，靈初剛發布了新一代模型Psi-R2和世界模型Psi-W0，其中Psi-R2在國際權威基準MolmoSpaces上拿下全球第一，超過了PI和英偉達GEAR。同時開源1000小時人類操作數據集。

融資、發模型、屠榜、開源，四件事擠在一周里，節奏很密。但如果只盯著這些動作本身，容易看岔。

這件事真正值得聊的，不是靈初拿了多少錢，而是資本在押注什么。

答案是一條數據路線。

具身智能眼下最大的瓶頸，不是算法不夠好，是數據不夠用。這一點行業里幾乎已經有共識了。機器人想學會干活，不能像大語言模型那樣從互聯網上白撈文本，也不像自動駕駛有多年路測數據可以吃。它的訓練素材只能從現實世界里一口一口喂。

過去幾年，主流方案是真機遙操作——人盯著屏幕遠程控制機械臂，一條一條錄軌跡。這條路在早期確實管用，但規模一上來就撐不住了。采集一小時數據動輒花幾百塊，還得搭專業動捕環境，人盯著屏幕操控的節奏也很難跟上真實生產節拍。模型越大、任務越復雜，這種供給方式就越像用水杯往游泳池里灌水。

靈初智能選了另一條路：不讓人遠程控制機器人，而是讓人直接干活，再把人的操作數據”翻譯”給機器人用。

邏輯很樸素。人類本來就每天在工廠、倉庫、流水線上完成海量精細操作，這些數據天然存在，成本極低，而且自帶真實作業的節拍和動作細節。據靈初披露，他們積累的人類操作數據總規模已經接近10萬小時，覆蓋294種場景、4821種任務。這個量級，靠遙操作恐怕再干幾年也攢不出來。

但人類數據有一個繞不過去的硬傷：人手和機械手長得不一樣。人抓一個蘋果的動作，直接映射到機械臂上，很可能就差那么一丁點就抓不起來。對手機裝配、精密插接這類任務，毫米級的誤差就能讓整個動作失效。

靈初的解法是搭了一套雙模型框架。策略模型Psi-R2負責從人類數據里學”任務該怎么做”，世界模型Psi-W0負責推演”換種做法會怎樣”。人類的操作軌跡先經過Psi-R2學習，再交給Psi-W0在機器人的視覺和動力學條件下做模擬驗證，不行就用強化學習繼續調，直到這條軌跡變成機器人真能執行的動作。相當于在模型里多了一層”夢里試錯”的空間，好的軌跡回流訓練，壞的軌跡幫助識別失敗邊界，數據飛輪就這么轉起來了。

從結果看，這條路暫時跑通了。Psi-R2預訓練完成后，只需要不到100條真機軌跡微調，就能完成手機裝配、工業包裝、紙盒折疊這些長時序高精度任務。MolmoSpaces榜單上的全球第一，也算是一個外部驗證。

當然，這條路遠談不上沒有風險。純靠第一視角視頻恢復的人手軌跡，精度只到毫米級，靈初自己也承認得靠自研外骨骼手套才能壓到亞毫米級。跨本體遷移的損耗到底有多大，在更多任務類型上能不能持續扛住，都還需要更大規模的驗證。

但我覺得這件事的意義，不在于靈初現在做到了什么程度，而在于它指出了一個方向：當遙操作數據這條路明顯到頂的時候，人類數據有可能成為具身智能下一階段的主燃料。

國投先導和京西瑞瓴這筆錢投進去，表面上投的是一家公司，實際上押的是這個判斷。如果這條路走通了，靈初占住的就不只是一個產品的身位，而是下一代具身智能訓練范式的入口。

這才是這筆融資真正值錢的地方。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.