![]()
4月12日,靈初智能官宣完成新一輪融資,投資方是國投先導和京西瑞瓴,一個是硬科技賽道的頭部國資機構,一個是北京國資聯合高瓴背景發起的AI產業基金。兩天前,靈初剛發布了新一代模型Psi-R2和世界模型Psi-W0,其中Psi-R2在國際權威基準MolmoSpaces上拿下全球第一,超過了PI和英偉達GEAR。同時開源1000小時人類操作數據集。
融資、發模型、屠榜、開源,四件事擠在一周里,節奏很密。但如果只盯著這些動作本身,容易看岔。
這件事真正值得聊的,不是靈初拿了多少錢,而是資本在押注什么。
答案是一條數據路線。
具身智能眼下最大的瓶頸,不是算法不夠好,是數據不夠用。這一點行業里幾乎已經有共識了。機器人想學會干活,不能像大語言模型那樣從互聯網上白撈文本,也不像自動駕駛有多年路測數據可以吃。它的訓練素材只能從現實世界里一口一口喂。
過去幾年,主流方案是真機遙操作——人盯著屏幕遠程控制機械臂,一條一條錄軌跡。這條路在早期確實管用,但規模一上來就撐不住了。采集一小時數據動輒花幾百塊,還得搭專業動捕環境,人盯著屏幕操控的節奏也很難跟上真實生產節拍。模型越大、任務越復雜,這種供給方式就越像用水杯往游泳池里灌水。
靈初智能選了另一條路:不讓人遠程控制機器人,而是讓人直接干活,再把人的操作數據”翻譯”給機器人用。
邏輯很樸素。人類本來就每天在工廠、倉庫、流水線上完成海量精細操作,這些數據天然存在,成本極低,而且自帶真實作業的節拍和動作細節。據靈初披露,他們積累的人類操作數據總規模已經接近10萬小時,覆蓋294種場景、4821種任務。這個量級,靠遙操作恐怕再干幾年也攢不出來。
但人類數據有一個繞不過去的硬傷:人手和機械手長得不一樣。人抓一個蘋果的動作,直接映射到機械臂上,很可能就差那么一丁點就抓不起來。對手機裝配、精密插接這類任務,毫米級的誤差就能讓整個動作失效。
靈初的解法是搭了一套雙模型框架。策略模型Psi-R2負責從人類數據里學”任務該怎么做”,世界模型Psi-W0負責推演”換種做法會怎樣”。人類的操作軌跡先經過Psi-R2學習,再交給Psi-W0在機器人的視覺和動力學條件下做模擬驗證,不行就用強化學習繼續調,直到這條軌跡變成機器人真能執行的動作。相當于在模型里多了一層”夢里試錯”的空間,好的軌跡回流訓練,壞的軌跡幫助識別失敗邊界,數據飛輪就這么轉起來了。
從結果看,這條路暫時跑通了。Psi-R2預訓練完成后,只需要不到100條真機軌跡微調,就能完成手機裝配、工業包裝、紙盒折疊這些長時序高精度任務。MolmoSpaces榜單上的全球第一,也算是一個外部驗證。
當然,這條路遠談不上沒有風險。純靠第一視角視頻恢復的人手軌跡,精度只到毫米級,靈初自己也承認得靠自研外骨骼手套才能壓到亞毫米級。跨本體遷移的損耗到底有多大,在更多任務類型上能不能持續扛住,都還需要更大規模的驗證。
但我覺得這件事的意義,不在于靈初現在做到了什么程度,而在于它指出了一個方向:當遙操作數據這條路明顯到頂的時候,人類數據有可能成為具身智能下一階段的主燃料。
國投先導和京西瑞瓴這筆錢投進去,表面上投的是一家公司,實際上押的是這個判斷。如果這條路走通了,靈初占住的就不只是一個產品的身位,而是下一代具身智能訓練范式的入口。
這才是這筆融資真正值錢的地方。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.