網易首頁 > 網易號 > 正文申請入駐

對話簡智朱雁鳴：不卷模型卷基建，具身智能核心是讀懂人的數據

2026-05-09 19:06:40　來源: AI科技評論

廣東舉報

分享至

「自動化」是具身數據行業的第一競爭力。

作者丨高景輝

編輯丨馬曉寧

2026年的具身智能賽道，熱鬧非凡。各家機器人廠商都在秀Demo、拼算力，試圖用海量數據教會機器人疊衣服、沖咖啡。但一個尷尬的現實是：我們似乎從未真正教會機器人“看懂”這個世界。

絕大多數機器人仍在模仿人類動作的表層軌跡，卻不理解為什么擰不開瓶蓋時要先擦擦手。這種認知缺失，像極了自動駕駛早期依賴高精地圖的窘境——能應付固定場景，卻處理不了充滿不確定性的真實生活。

而阻礙具身智能真正進入生活的瓶頸，是數據。沒有足夠好用的數據，機器人就無法學習和訓練，從而無法理解真實的世界。

于是，在行業集體陷入“做模型”的宏大敘事時，簡智機器人選擇去啃一根更小眾、也更苦的骨頭：具身數據基建。

“行業里不缺做模型的公司，缺的是數據，特別是從人類第一視角出發、包含思考與觸覺反饋的閉環數據?！痹诤喼菣C器人聯創朱雁鳴看來，單純靠模仿學習在物理AI里跑不通。如果給機器人喂的是缺乏因果鏈的“表演數據”，訓練出的模型往往只是機械的復讀機，一旦遭遇長程任務或意外干擾，就會瞬間崩潰。

簡智所做的，是一套關于“人”的全維度數據產品。他們自研從頭、到手、到全身的高精度數據獲取產品，深入家庭和商超做眾包，去捕捉人類不經意的力反饋、多模態感知，甚至并反向分析出其行為背后的思維鏈。

在具身智能的底層邏輯里，數據不僅是燃料，更是構建認知的“第一性原理”。當大多數玩家熱衷于“造車”時，簡智為什么篤定要去建“電池廠”？未來具身智能的核心壁壘，究竟在算法還是在于那套關乎人類行為的“說明書”？

答案，遠比我們想象的更硬核。

每一條技術路線，都有一個“CTO”

AI科技評論：先從簡智的創立開始吧，當時創立公司的初心是什么？

朱雁鳴：我們最初對具身智能行業有一種朦朧的熱情。智駕本身也是一種具身智能，但更廣義的具身智能可以做人類能做的所有事情，是對生產力的底層變革。所以我們在具身賽道中深入研究的時候，比較想去創造一些差異化的價值，這也是我們選擇細分方向時候的一條準則。

我們在2025年7月成立時，更多在復盤整個具身智能產業中有哪些空白、不足，所以不想盲目追熱點。我們細想下來行業里不缺做模型的公司，缺的是數據基建，特別是無本體或其他范式下的數據。

當時行業還沒有大規模崇尚 UMI 或 EGO 概念，更多在通過運動控制快速出demo，或是用 VLA 的方式訓練模型。但我們相信，scale up和數據驅動是智能通往終局的關鍵路徑。而對于物理AI他所需要的數據也與之前不同，文本的世界是結構化的，但我們的生活場景每時每刻都在變化，是非結構化的世界，在此之上具身需要的是逐步替代人的能力。我們需要的是從 Human Data（人類行為數據）入手，構建一套從行動到思考再到反饋的閉環數據產品和平臺。

AI科技評論：簡智核心團隊來自智駕領域，這一背景帶來了什么優勢？

朱雁鳴：主要是認知層面的優勢。泛 AI 領域里，真正實現落地的物理 AI 產品就是自動駕駛，其他 AI 落地大多停留在對話、圖像生成層面。自動駕駛是真實在路上跑、服務于人，且在技術上實現了端到端、數據飛輪架構落地，這讓我們對數據的 infra 有了深刻認知。

第一，模型算法迭代所需的數據，一定是伴隨迭代的人類真實數據。今天具身領域，最需要被突破的方向是的預訓練，讓模型具備通識、泛化且跨本體的長任務執行能力，并低成本做廣泛的落地。

在這個過程中，除了量大之外，更多是讓數據“坐標系”與“人理解世界”對齊，這樣才能更好的從行為到認知形成閉環。

而且在這個過程中，很多corner case非常有價值，比如人在操作時候收到干擾失敗，又怎么去彌補的過程，這些是商業化的必備能力，而這些數據必須通過長時間的真實世界積累，而非人為枚舉。

第二，是對數據閉環鏈路與商業閉環鏈路結合的思考。做自動駕駛時，數據成本非常低，因為每一臺上路行駛的量產車，都在持續生產數據。但具身智能完全不同，它的數據無法天然獲取，視頻只是最簡單的形式，要給模型做長期學習訓練，觸覺模態、人類思考鏈路等信息，無法單純通過安裝攝像頭獲取。這給了我們底層思考：要構建可行的數據鏈路，必須往更深處發力。智駕的數據生產基于已有的車輛，而具身數據的核心基礎，是如何擁有能讓人類在自然生活中生產全維度數據的設備。

第三，是長鏈路、高并發數據處理的經驗。做自動駕駛時，每天回流的數據級別接近幾百 T，大規模數據和行為需要長鏈路的清洗流程。這給我們的核心經驗是，數據交付除了做好硬件，更重要的是應對長鏈條、大規模交付的能力，這需要在最開始就對硬件、數據鏈條、數據加工處理方式做完整的結構化設計。

AI科技評論：簡智現在團隊大概有多少人？研發占比多少？

朱雁鳴：規模在140人左右，研發人員占比超過85%。

AI科技評論：具身數據是一個交叉領域，對此簡智在組織上有什么調整？

朱雁鳴：具身智能需要專業領域人才，更需要領域融合后的綜合性創新，數據業務也是如此。所以我們結合各技術領域優勢，每個領域預研出一條主線，這條線下的每個人都是CTO。

例如在數采設備上，涉及攝像頭、觸覺、IMU、磁編碼器等，我們有類似CTO的角色做垂線預研，橫向則由技術委員會組成，從生產加工到模態再到自動化鏈條，通過模型驅動拼出完整方案。成熟行業里，一個人很難全棧把所有事情規劃清楚，當下的具身數據領域，更需要每個領域都有創新，實現 1+1＞2 的效果。

AI科技評論：簡智現在招人一般會招哪些人？

朱雁鳴：我們第一優先級是模型方向的人才，但我們要的模型人才，不是做具身動作輸出模型的人才，而是做 data 仿真模型的人才。核心工作是將采集到的人類行為數據，通過模型加工還原成接近人類整體感受的數據格式，這件事難度很高。

我們定義的 human data，核心要素包括人的第一視角圖像、全身關節運動、手上的觸覺，以及每個動作中的力反饋，這些維度可以完整描述人類絕大多數行為。比如拿起一杯水，包含看到水、接觸水、拿起時胳膊感受到的力反饋、擰開瓶蓋的全流程。

這里的核心難點是，每個模態由不同硬件收集，各硬件有不同的特征、頻率，以及硬件本身特性導致的信息殘缺，如何把它們還原成同一時間軸、同一時空坐標系下的完整數據。單純靠人工、粗糙的時間對齊，都會影響數據質量和精度。

因此我們嘗試用數據基礎大模型（data foundation model）解決這個問題：把多模態輸入注入模型，像訓練自動駕駛端到端模型一樣，通過真值系統評測輸出與真實世界的匹配度，再根據 gap 反向優化模型能力。我們是行業內第一家不用大模型做具身動作模型，而是用模型解決數據問題的企業。

第二類核心人才，是底層硬件能力相關的人才，包括光學、嵌入式軟件、PCB 板設計，以及自研觸覺方案相關的底層研發人才。我們希望通過底層原理性創新，提升采集過程中的模態精度。上層數據和模型只能做交叉驗證、基于已采集信息提升精度，而數據的底層對錯，需要硬件質量來保證，這其中有很多圍繞人類感受的底層原理創新需要做。

AI科技評論：你們有數采工廠嗎？需要專人管理嗎？

朱雁鳴：我們采用眾包模式，數據來自真實家庭和真實場景，沒有用數采工廠方式，這是我們和其他企業不一樣的地方，也是我們認為面向終局，大規模、高效采集真實數據的最終路徑。

人的行為就是真值，

人能做出來的動作，機器人就應該能實現

AI科技評論：具身數據賽道有細分方向，有的只賣數據，有的也賣設備，簡智屬于哪種？

朱雁鳴：我們本質上是一家數據解決方案公司，但會根據不同場景提供不同方案。很多面向 C 端的模型公司，落地場景偏生活化，這類數據可以公開獲取，比如家庭機器人需要的各類家庭場景數據，我們可以通過眾包實現，直接給這類客戶提供數據方案。

另一類客戶的場景是封閉、自有場景，比如工廠產線、封閉實驗室，這類數據無法公開獲取，數據所有權本質上在場景應用方手里。針對這類客戶，我們會提供硬件設備方案和最高效的本地化部署閉環，讓他們在自有場景中完成數據采集和生產。

AI科技評論：有人認為設備是具身數據公司的核心壁壘，賣了設備別人就不買數據了，你們怎么看？

朱雁鳴：首先，數據和設備都很重要。設備是基建中的最底層，它決定了數據的模態數量、底層模態質量，設備的便捷性、成本，也決定了數據采集的規?；芰Γ也徽J為設備就是全部。

數據最終是服務于模型的，模型需要的不是單純的視頻，也不是多模態數據的簡單打包，絕大多數核心工作，都發生在采集后的數據加工處理環節。現在絕大多數模型公司，哪怕是做預訓練，都極度追求數據質量，數據質量會從底層影響模型的效果、精度、以及對因果關系的認知。

比如如果發生在餐館，人會考慮是不是避讓其他人的移動、繞開一些飯菜，如果只有動作表層的標注也是不夠的，背后都有完整的因果驅動，我們需要給模型提供串聯好全模態、稠密的COT過程，才能給模型提供有效的參考，讓它更容易學習。

另一個核心原因是規?；４笈吭O備采集的大批量數據，如何快速、高效、低成本地轉化成可訓練的 Token，才是核心難題，生產 100 臺設備和 100 萬臺設備，是完全不同的難度。

AI科技評論：剛剛提到家庭眾包，具體是一種怎樣的合作方式？

朱雁鳴：我們在眾包模式上的運作很像 C 端公司。我們自己做了一款 APP，把設備給到每個家庭，用戶通過 APP 了解采集任務，用我們的設備完成正常的家務動作即可，不需要對用戶的操作做額外的教育和約束，用戶的自然操作對模型來說反而更有價值，模型需要學習多樣化的人類行為，才能補充場景盲點，因此行為上傳后我們通過云端來識別、標注。

另外我們的設備在人機工程上也有明顯優勢，非常輕便，使用效率和人類正常干活的效率基本一致。用戶完成操作后，通過 APP 上傳采集的數據，我們基于數據回收情況給用戶結算，整個流程自然且高效。

AI科技評論：有沒有工業或商業場景的眾包？

朱雁鳴：有的。目前50%是家庭，30%是商超和工廠，10%是物流，剩下的10%是醫療、實驗室等分散場景。

AI科技評論：場景方會有隱私顧慮嗎？

朱雁鳴：這個問題我們有完善的解決方案。首先，所有數據的隱私處理，都有一套標準化流程，包括地點、人臉、對方知識產權相關的信息，都會在數據售賣前完成脫敏處理，這是數據公司的基礎義務。

第二，我們和每一個場景方、采集方合作時，都會在合作協議和費用說明里，明確標注雙方的權利歸屬，我們獲取的不是用戶的個人信息，而是其在場景下的行為和操作數據，本身不會涉及過多個人隱私數據。

AI科技評論：眾包沒有標準化流程，數據質量會不會參差不齊，給后期處理帶來壓力？

朱雁鳴：因為我們崇尚人的行為其實都是“真值”，畢竟無論什么情況，人都是可以克服困難完成任務。因此關鍵在于真值上傳后，是否有一套自動化的方式完成數據識別與處理。

我們的自動化識別，核心是把人的行為和動作做對齊，進行細致化的標注、分類，而非判定人的行為對錯。還有質檢環節，核心是對人的操作行為做分類，而非丟棄數據。我們會區分高速高效完成的動作、有干擾場景下完成的動作、失敗后完成糾錯的動作，同時對數據做顆粒度極細的原子化處理，以適配模型不同訓練階段的需求。

AI科技評論：你們的海外收入占比挺高的，你們在出海過程中有遇到哪些阻礙？

朱雁鳴：海外模型公司對數據的要求非常高，目前海外模型公司在模型訓練上的進展整體快于國內，他們對觸覺模態、訓練數據的體量規模、多樣性的要求非常嚴格，同時要求我們的迭代速度能匹配他們模型的進展。

AI科技評論：隨著數據量增加，存儲和算力會有壓力嗎？

朱雁鳴：肯定會有，但這件事我們很早就有預判，因為數據飛輪的重要因素就是“數據流轉效率”，對此我們從源頭做了三層解決方案：

第一，端側的數據壓縮與質檢。我們的每一臺設備，在采集端就具備數據質檢能力，能根據人的行為、場景的特殊情況，自動丟棄無效數據，避免無效數據占用傳輸鏈路和存儲空間。

第二，行業領先的無損壓縮能力。我們在壓縮比例和對訓練效果的影響上，做到了行業綜合最優。傳統壓縮方案很難平衡壓縮比和有效信息損失，我們可以把原生數據壓縮到原來的 2%，且壓縮后的數據解包用于模型訓練，訓練的指標和效率基本不受任何影響。

第三，自動化的數據處理速度。存儲成本主要來自兩部分，一是采集后的原生數據等待加工的暫存成本，二是加工后的成品數據存儲成本。最容易被忽略的，是原生數據等待加工的排隊存儲成本，這也是我們一定要用模型做自動化處理的核心原因。人工處理是線性增長的，只能靠加人提升效率；而模型可以實現指數級的效率提升，讓存儲成本大多只發生在成品數據上，而非中間過程。

現在行業對 EGO centric 的理解，

大多還停留在淺層的第一視角圖像

AI科技評論：你們對不同數據路線，比如仿真、互聯網視頻、遙操怎么看？

朱雁鳴：我個人認為，不同數據路線，要結合模型的訓練階段來看，它們有不同的使命和目標，但高精度、質量、完整且泛化是通用性的要求。

首先，如果想構建具備通用能力的具身基座模型，讓模型學到底層的物理環境認知能力，那么對標對象一定是人，核心是人的 EGO（自我中心）視角出發的認知。第三視角的認知，無法形成行為因果的閉環。

比如打開冰箱拿可樂，人打開冰箱看不到可樂，會先拿走擋住可樂的物品，再拿可樂。從第三視角，無法覆蓋這些行為的完整邏輯，也無法閉環人執行這些動作的因果鏈。因此，對于基座模型的預訓練階段，最重要的就是大量第一視角下，人類的閉環行為和邏輯數據。

仿真合成數據的價值會隨著兩個因素快速弱化。一是模型要解決的問題的復雜程度。合成數據最難的不是物理特性的仿真，比如絲巾、水流、頭發絲的仿真，而是無法仿真真實的交互。比如美國餐館端菜的場景，核心難點不是端菜動作，而是狹窄過道里避讓客人，客人抬胳膊的瞬間做出避讓動作，這些來自真實生活的交互場景，完全無法通過仿真模擬。隨著問題交互復雜度的上升，仿真數據的價值會快速下降。

二是長程任務的需求?，F在行業里很多具身任務都是短程的，比如疊衣服 2 分鐘就能完成，但真實的家務任務，比如拖地需要半小時，中間還要去清洗拖布，這個過程中需要持續的思考和任務拆解，長程任務的邏輯，仿真也很難模擬。因此，仿真數據只在解決拿、放等基礎動作問題時有價值，越到真實場景的復雜問題，價值越弱。

另外，仿真的幻覺是非常嚴重的問題。物理 AI 對幻覺的容忍度極低，這和語言模型完全不同。就像自動駕駛對幻覺零容忍，一旦出問題就是人命關天；機器人商業化落地也是同理，用戶不會接受機器人有概率損壞家中財物。仿真的因果本身不真實，會產生大量幻覺，讓模型誤以為錯誤的邏輯是正確的，這也是核心短板。

真機遙操數據在我看來更適合用在評測和后訓練過程中。模型訓練的完整流程，應該是通過人類數據完成預訓練，再通過精選的人類專家數據完成中間訓練，最后基于評測結果做強化學習和后訓練。真機遙操就發生在最后這個環節，基于模型前兩個階段的學習，在每個任務中的表現，找到需要強化的部分，反向驅動模型優化。與其說遙操是訓練數據，不如說它是用來發現模型 bug、反向優化的評測數據。

AI科技評論：你們現在用最多的是EGO數據嗎？

朱雁鳴：是的。Ego我們認為是最容易scale，且符合第一性原理的，因為天然和人的認知對齊。

AI科技評論：EGO 今年才火起來，但是你們去年 10 月就開始往這個方向做產品了，為什么會這么早進入EGO賽道？

朱雁鳴：一方面來自智駕經驗。智駕已進入深水區，單純增加數據量無法指數級提升指標，應用和訓練場景極度泛化。因此智駕的訓練核心已經變成了強化模型的認知能力，也就是思維鏈（COT）能力。

具身智能也一樣。遙操本質上就是最基礎的模仿學習，行業里很多 demo，都是在相同場景下錄幾百小時的人類數據，回灌給模型，讓模型以接近回放的方式復現操作。但模型學到的只是表層的軌跡，沒有真正理解動作背后的深層邏輯，比如疊衣服為什么要先拿一角，衣服一角掉了要不要撿起來。

這些深層邏輯，只有 EGO centric 的數據能提供，非 EGO 視角的訓練，缺少了對模型深層認知的監督，只能監督軌跡和圖像，無法監督模型面對問題時的解決方案，也無法獲取人類行為背后的思考邏輯。

AI科技評論：為什么行業之前沒有大規模用EGO Centric？

朱雁鳴：因為去年大家都在用 VLA。VLA 的 Backbone 是語言模型，它構建的因果是面向文本輸出的，沒有空間、重力、摩擦力，也沒有長鏈條決策?，F在大家發現 VLA 滿足不了物理世界要求，所以開始回歸到導入大量人做事的方式進行訓練。

AI科技評論：大家都在開發自己的EGO設備，會不會重復造輪子？

朱雁鳴：這涉及到EGO centric 的數據核心要求?，F在行業對 EGO centric 的理解，大多還停留在淺層的第一視角圖像，很多人頭上戴個 iPhone、掛個 GoPro 就開始采集數據，但這只是第一視角的視頻，只靠視頻無法閉環人的行為和感知，存在嚴重的信息缺失。

第一，真正的 EGO 數據，應該是多模態的，而不只是視頻這一個單一模態。人完成操作，不是只靠視覺反饋，還有手的觸覺、力反饋等感知信息，這些模態信息，無法通過單一的攝像設備完成采集。長期來看，具身模型一定需要理解觸覺，才能和人類的行為對齊，單一視覺的 EGO 數據，無法滿足模型的長期訓練需求。

第二，多模態數據對質量和精度有極高的要求。數據精度越高，AI 產生幻覺的概率就越低。因此，EGO 數據對關節精度、感知精度有天然的高要求，真正有價值、能被模型大批量學習的，是多模態、高精度的 human data，而非低質量的第一視角視頻。低質量數據訓練出來的模型，需要極高的二次調優成本，就像 OpenAI 早期用互聯網語料訓練，最后發現大量問題，只能雇傭大量人員生成高質量的人類對話數據重新訓練。

AI科技評論：那能不能用你們的手套，配合我自己的手機攝像頭采集數據？

朱雁鳴：普通消費級設備無法滿足 EGO 數據的采集需求，這里有幾個底層的技術要求。

第一，視角高精度采集，對視野有硬性要求。目前行業里有激光雷達、紅外、純視覺三條技術路線，純視覺是最合理的，因為它的魯棒性最高，也具備規?；芰Γす饫走_受硬件限制無法大規模鋪開。而純視覺方案，對攝像頭的數量和視野有明確要求。

人眼的視野是 150 度，操作時手很容易超出這個視野范圍，機器人無法像人一樣轉頭、轉動眼球，因此采集設備的視野需要遠超 150 度。我們的 EGO 采集設備做到了 270 度視野，可以完整覆蓋人手的所有動作范圍，保證因果鏈的完整。

第二，精度需要多攝像頭差分來實現。就像人的雙眼判斷距離更準確，多攝像頭的相位差，可以大幅提升定位精度。我們實測，單攝像頭的指尖精度上限最多 2 厘米，雙攝像頭可以降到 1.2 毫米，三攝像頭可以降到 0.8 毫米。因此，EGO 采集設備需要定制化的多攝像頭方案，傳統的單攝像頭手機，無法滿足精度要求。

AI科技評論：所以“原裝”的設備才是最優的解決方案？

朱雁鳴：對，因為設備是反推數據需求來設計的，如果真的這么簡單，我們也不會投入這么多成本去做自研。

AI科技評論：頭戴設備和手部設備的協同，會不會難度很高？

朱雁鳴：難度非常高。首先是通訊與時間對齊的要求，手部設備的圖像、觸覺采集有固定頻率，頭戴設備的視頻流也有單獨的采集頻率，需要把二者的時間精度對齊到 1 毫秒。如果做不到，就會出現手已經抓到物體，眼睛看到的還是上一幀畫面的延遲問題，直接影響數據的有效性。

現在我們做到了毫米級定位。我們最終要產出人在絕對空間下的絕對行為和軌跡，需要先實現頭和手的高精度相對定位，再以頭為中樞，實現頭與環境的相對定位，才能構建起手-頭-環境的完整定位體系。頭和手的相對定位，沒有直接的測量方式，只能通過多相機視覺實現，這對相機路數、云端數據處理能力都有極高的要求。同時，在野外、大型商超等大空間場景中，人在空間里的絕對定位也有很高難度，需要多傳感器組合方案才能保證數據精度。

AI科技評論：最早你們用的是“夾爪”（UMI），現在變成了手套，夾爪和手套是進化關系還是并行關系？

朱雁鳴：是并行關系，本質上是不同應用場景的適配。很多場景下，兩根手指的夾爪就足夠了，比如工業場景、基礎物流場景，只需要撿箱子、翻動物品，兩指就能滿足需求；五指結構則是面向更靈巧的操作場景。

如果從層級關系來看，五指是比兩指更上層的解決方案，更具備長期價值。如果模型基于五指數據學會了人類的基礎認知和能力，未來即便應用本體是兩指、三指結構，也不需要很高的遷移成本，這就是行業常說的跨本體遷移問題?？绫倔w遷移的底層，是模型的認知深度，以及是否形成了完整的因果閉環，而非依賴固定的硬件形式。

AI科技評論：那現在 UMI 夾爪在你們的產品體系里，定位是什么？

朱雁鳴：UMI 現在的定位，主要服務兩類需求。一類是適配特定的應用場景，比如工業場景中，只需要兩指就能完成操作，甚至需要粗壯的兩指完成重物、大零件的操作，五指反而會成為負擔，這類場景會用 UMI 方案；第二類是適配客戶的產品需求，有些客戶現階段落地的產品就是兩指類本體，反向需要兩指類的數據滿足訓練要求，我們也會提供對應的 UMI 方案。

另外，傳統 UMI 的構型，需要人操作設備完成動作，行為不自然，采集效率低，還會因為操作熟練度產生臟數據。我們現在做了新款的 Fingers 產品，構型更接近人的兩根手指，相當于從五指產品中去掉三根手指，只保留關鍵的兩根，是仿生構型，在采集效率、行為自然度上都有大幅提升。

AI科技評論：你們的客戶對高質量數據的要求有哪些？

朱雁鳴：要求大概有四點。

一是極高的多樣性要求，這一點可能反常識，即便客戶只聚焦一個應用場景，在模型訓練階段，也需要多樣的行為、空間理解能力，來提升模型的魯棒性和泛化能力。

二是完整的模態，模型訓練本質上是監督學習的過程，監督的關鍵，就是模態與結果的對齊是否完整，因此所有和動作結果相關的模態，都必須完整覆蓋，這是核心要求。

三是極致的精度，數據精度從底層決定了模型的幻覺概率，高精度的原始數據，是模型訓練效果的基礎保障。

四是完整的思維鏈，這一點目前行業還沒有廣泛討論，但它是機器人實現長程任務的關鍵數據要求。比如拖地這個長程任務，拖過的地方不需要再拖、什么程度需要清洗拖布，都沒有固定的標準，人類執行時的思考和推理過程，不會邊做邊說，在現有數據中是天然缺失的。

但這些推理過程，是讓模型理解動作背后邏輯的核心。如果只看 100 個人拖地的動作，每個人的行為是發散的，模型無法理解背后的邏輯，只能給出平均值，無法適配真實場景。因此，包含完整思維鏈的數據，是高質量數據的核心特征。

機器人廠商不會規?；瘮挡桑?/strong>

就像汽車廠商不會自己建電池廠

AI科技評論：去年很多公司喊出“百萬小時數據”目標，你覺得實現起來難不難？

朱雁鳴：非常難，因為對我們來說，這百萬背后，不是單純的堆量，而是高質量的數據集合。首先從人力角度來看，一個人一天有效產出數據的時間大概只有 5-6 小時，受體力等因素限制，無法滿負荷產出。百萬小時至少需要 20 萬人天，即便有 2000 人的運營團隊，也需要持續運營 3 個月以上，才能實現這個目標，而這只是人力層面的難度。

更關鍵的是，這背后需要配套海量的采集設備、極強的模型自動化處理能力、通暢的數據鏈路。整個流程就像漏斗，任何一個環節出問題，都會產生層層折損，最終能轉化的有效數據比例會大幅降低。

從我們的角度來看，要實現這個目標，有三個核心門檻：第一，是否有能滿足高質量數據要求的設備；第二，設備能否實現眾包規模化落地；第三，是否具備大規模數據的自動化鏈路處理能力。今年我們有信心產出超過500萬以上的高質量數據，這也是我們體系化能力建設后的快速增長能力。

現在我們有信心、也已經和其中大部分企業建立長期合作。喊口號沒有意義，關鍵要看是否真正落地了相關的設備、團隊和體系化能力。

AI科技評論：有些做模型的公司，自己也在做數據，那做數據的公司，是不是也可以自己做模型？你們未來會不會切入模型賽道？

朱雁鳴：我們對模型始終保持敬畏。一個行業的發展分為三個階段：學術階段，核心是確定實現長期目標的技術范式；產業階段，范式明確后，用工程化的方式加速落地；商業階段，面向交付、成本、商業化指標優化。

從目前來看，具身智能行業，連學術階段的問題都沒有被完整解決，現在行業里的產品，很難在某一個專職事情上做到和人一樣的水平。因此，我們現階段的核心，還是服務好模型公司，幫他們訓出更好的模型。

AI科技評論：如何看待GEN1？

朱雁鳴：至少從我的角度，我非常認可 Generalist，他們是一家非常純粹的公司。他們一直堅持用 scaling law 的方式，提升具身智能的表現，這是他們的底層驅動。

回到 GEN1 的表現，我認為有三個核心亮點。第一，實現了同一模型的多任務執行能力?，F在行業里很多公司的模型，本質上是狹義的專有模型，比如專門做疊衣服的模型，換個任務表現就會很差，但 G1 在多任務場景下的表現，已經得到了驗證。

第二，模型從多樣數據中，真正學到了人類的糾錯能力。從他們發布的視頻能看到，模型第一次執行任務失敗后，能快速根據錯誤完成糾正；面對刻意的干擾，也能及時給出解決方案，這一點非常難得。

第三，已經開始探索長程任務的實現。他們已經在嘗試 3-5 分鐘完成一個完整的復雜任務，而非同一個動作重復十幾次，這是行業里非常少有的探索，也貼合具身智能的真實落地需求。

AI科技評論： Generalist 訓練用的數據，主要也是 EGO 數據嗎？

朱雁鳴：他們現在主要還是用 UMI 夾爪，但也已經在探索ego方向，因為umi存在自己的上限，尤其是移動機器人場景，UMI 會更難適配。

AI科技評論：Generalist 與國內具身智能公司有哪些差異？

朱雁鳴：首先是理念上的差異。Generalist 與其說像一家公司，不如說更像一家科研機構，團隊只有二十幾個人，沒有商業化目標，融資也不以商業化做核心訴求，非常純粹，專注于通過底層創新迭代技術本身。而國內大多數做具身的公司，都背負著融資和商業化的壓力，很難做到這種純粹。

其次是勇氣，現階段人類數據做基座模型、大規模預訓練是需要投入非常多資源，而且存在巨大不確定性的事情。Generalist 的底層創新，核心是沒有復用任何開源模型，完全基于 UMI 的數據從零重訓，這個過程非常漫長，需要消耗大量的算力和數據，后期的消耗只會更大。

AI科技評論：未來國內數據賽道的格局會是怎樣的？

朱雁鳴：會是有頭部也有分散的生態。因為第一這個市場的盤子足夠大，沒有任何一家公司能完全吃下。第二，數據面向商業化落地時，會有大量垂類需求，數據和算法是綁定的垂類關系，不可能有一家公司的一套方案，能完美適配所有場景，一定會有企業在細分垂類里做得更適配。

因此，最終會形成的格局是：有幾家公司做成大的通用數據平臺，而在細分垂類賽道里，依然有不同的玩家，是一個多元的市場狀態。在通用場景下，行業會慢慢趨同，會出現方案、價格都有明顯優勢的頭部供應商。

AI科技評論：整機廠商未來一定要買第三方數據嗎？這種數據依賴是持續性的嗎？

朱雁鳴：本質上這是產業鏈分工的問題，不存在某個技術壁壘讓別人完全做不了，但隨著行業成熟，產業鏈分工會越來越明確，各方的邊界也會越來越清晰。

第一，數據全鏈條的復雜度，遠超語言模型和自動駕駛時代。它需要單獨的設備研發、單獨的鏈路搭建、單獨的模型和運營能力維護，而且數據的價值是長期的。機器人訓練新模型，最值錢的不是它已經會的操作數據，而是它不會的、犯錯的場景數據，這需要持續的、大規模的數據采集和處理能力。

第二，全鏈條的體系化能力，會形成效率和成本的壁壘。短期壁壘是誰能先搭建起完整的體系，提供模型公司需要的產品；長期來看，就是成本的競爭，體系越成熟、效率越高，規?；蟮某杀緝瀯菥驮矫黠@。

我經常用一個類比，數據對于機器人廠商，就像輪胎對于汽車廠。電池是每臺車的必備部件，成本也不低，但現在沒有一家汽車廠會自己建輪胎廠，核心原因就是專業的廠商，在成本、效率上都比自己做更高，從零到一自建反而得不償失。

AI科技評論：數采行業的核心競爭力是什么？

朱雁鳴：數采行業的核心競爭力有三個核心維度：

第一，自動化能力。核心是數據公司能不能構建自己的飛輪：隨著交付的數據越多，自動化能力越強，數據交付的效率越高、質量越好。這是具身時代對數據公司的核心要求，誰能先構建出以數據鏈路、模型驅動的自動化數據產線，誰就掌握了核心競爭力。

第二，硬件模態研發能力。現在大多數數采公司，都沒有專注做硬件的底層研發，要么用開源方案，要么用消費級產品拼湊，這種拼湊出來的方案，產出的數據看似可用，但 3-5 個月后就會被證偽，無法支撐模型的長期訓練。硬件模態的研發，還要兼顧低成本，只有確定了可規模化、低成本的模態方案，才能談第三個核心競爭力。

第三，真正的規?；芰?。自動化水平高、模態全、成本低，才能實現最好的規?；Ｒ幠；暮诵?，是構建敏捷的數據鏈條，實現成本的非線性增長。如果 10 萬條數據的成本，只比 1 萬條翻了一倍，而非 10 倍，才能不斷提升業務的天花板，這才是可持續的商業模式。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。F

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.