網易首頁 > 網易號 > 正文申請入駐

日薪120元全民數采誰在訓練下一個機器人保姆？

2026-05-15 23:09:10　來源: 億邦動力

北京舉報

分享至

文丨胡鏷心張睿

編輯丨張睿

【億邦原創】具身智能行業今年最重要的關鍵詞，是數據。

這個詞不僅僅出現在學術期刊最新的論文中，出現在科技公司對外宣講的PPT中，還出現在湖北某市的零工招聘信息中，出現在陜西某村鎮的一場小規模培訓中。

所謂的數據，是指如何疊衣服、如何澆花、如何做飯……等等，在人類世界中真實發生的一切信息。從這個層面來講，每一個具備行動能力的普通人，都是機器人的老師。

模型在迭代，算法在進步，看似最前沿的科技，實際上已經擴散為一項全民可參與的大型實驗。這場實驗中不僅角色眾多——機器人廠商、數據廠商、人力公司、靈活就業人員，而且變化迅速，昂貴的拍攝設備這個月剛剛發放，下個月就被手機替換了。

億邦AI深度調研了當下具身智能數據采集的現狀，既期待與技術脈搏同頻，也期待看到普通人分享行業紅利。

本文約8000字，分五部分，為了方便您的閱讀，以下是概要總結：

1. 日薪120元，全民數采潮來了

全國各地大規模招聘眾包數采員，在家庭或者戶外使用設備錄制視頻。

2. 數據！數據！數據！

具身智能行業數據饑渴，無本體采集自2026年3月起全面爆發。

3. 采集設備的“戰國時代”

數采設備歷經了三次迭代，人類第一視角視頻拍攝最受關注。

4. 毛利100%的生意

數據采集的生意毛利高，但是眾包形式也面臨很多問題。

5. 技術轉向：VLA還是世界模型？

數采眾包熱潮的背后是算法路線的更迭和資本的推動。

日薪120元，全民數采潮來了

“我要開始疊T恤了。”河北人張月頭上帶著一個電子頭環，卡著自己的蘋果手機，手上舉著兩個特制夾爪，站在臥室床前，很有儀式感地對著空氣介紹工作。

疊衣服這種事兒，平時信手拈來，但夾爪不容易控制角度，邊角總不平整，需反復嘗試。疊了四五件，她開始感到手掌有些酸脹。

疊完床上的衣服，手機里有聲音提示她換場景。這一天，張月在臥室、書房、客廳、桌子上、床上、地上、窗臺邊、開燈、自然光等不同場景疊衣服，手機還會提醒她疊不同款式不同顏色的衣服，不能拿著一件衣服反復疊。

具身智能數采助手App

張月在做的事情是具身智能數據采集。也就是說，她疊衣服的動作，通過手機攝像頭和夾爪采集為數據，經標注處理之后，會成為機器人訓練的素材，直到有一天機器人也學會疊衣服。

2026年，全國人民的目光被會武術、會跑步的機器人吸引，但是會干活對機器人來說仍然是難題，而學會干活，最大的坎是數據，那么數據從哪兒來？革命法寶，發動群眾。

30歲出頭的張月是一名全職媽媽，平時接一些零工補貼家用。3月，她從熟悉的兼職群得到了這份具身數據采集的工作：居家，每小時30元。報名之后，她參加了為期半天的培訓，內容包括下載采集軟件（一個自有App，無法上架App Store，只能現場安裝、注冊，后臺開通權限）、學習使用夾爪、按要求拍攝視頻，自己練習半小時就可以帶著設備回家了。

采集軟件里會發布各類任務，包括清潔類（掃地、拖地、擦窗、洗碗、清潔桌面/衛浴）、衣物處理（折疊、晾曬、收納、熨燙）、物品整理（擺放物品、分類歸納、取放貨物、整理書架、收拾桌面、貨架整理）、烹飪（洗菜、切菜、餐后收拾、使用廚具、做飲品、烹飪）、日常照護（開關門窗、傳遞物品、倒垃圾、澆花、寵物護理）等。隨后又新增家居裝飾、搭積木、刺繡、折紙等手工藝品。

張月每天領取任務，尋找合適的拍攝場景，打開App，一邊錄像，一邊使用夾爪做家務。按照要求，她每天拍攝不少于8小時，每段視頻不少于2分鐘，拍攝完成后批量上傳。8小時中有效時長不到一半，按照每小時30元計算，她一天的收入大約120元。

湖北人阿信記得，最早2025年11月，兼職群里開始零星出現具身智能數采的招聘信息，而到2026年3月份，數采員招聘信息井噴，有的要求到集中場地遙控操作機器人，薪資180-250元/天，有的使用可穿戴設備（頭環、夾爪等），可以居家工作，薪資120元/天+績效。

從今年3月開始，數采商通過人力外包公司在全國各地大規模招聘眾包數采員。對于還沒搞懂機器人是怎么回事的普通人來說，數據采集是一個門檻低又充滿新鮮感的工作，在低線城市，120元的日薪也還不錯。

有人說，數采招聘人員3月份到村里組織了培訓，她按照要求拍了半小時視頻提交，但是后來因為村里參與者太少，駐村的招聘人員帶著夾爪設備離開了；也有人說，培訓參加過了，卻因為夾爪數量不夠用而無法參與采集；還有人在網上呼吁給自己退休在家的媽媽一個參與前沿行業的機會。

一家人力外包公司HR美美告訴億邦AI，公司目前規劃兩期數采項目，一期以家居場景為主，二期名為“世界交互”，以戶外公共場合日常行為為主，包括騎行、散步、公園鍛煉、購物、逛街、取快遞、丟垃圾、遛狗等。“理論上所有戶外運動都可以錄制，但為了避免鏡頭抖動，不建議拍攝劇烈運動或對抗性運動。”美美提示。

錄制要求是打開聲音錄制，需錄入環境音，至少每3分鐘和環境交互一次，偶爾可以有他人入鏡，但盡量避免長時間拍攝他人，因為后期脫敏會很麻煩。

北京一家肯德基店員正在用夾爪，一邊擦桌子一邊采集數據

海外的數采也同樣熱鬧：Micro1、Scale AI等公司已經在全球招募零工人員錄制家務勞動視頻，肯尼亞、菲律賓、印度等國的工人佩戴頭戴攝像頭；DoorDash在3月推出Tasks應用，讓旗下送餐員順帶錄制家務視頻。

一場轟轟烈烈的全民數采潮拉開帷幕。

數據！數據！數據！

全民數據采集，來自于當下具身智能行業的數據饑渴。

“大的需求方都是你有多少我就買多少，你什么時候有我馬上要的狀態。”智元機器人合伙人、覓蜂科技董事長兼CEO姚卯青如是說。具身智能大腦公司、具身智能本體廠商、多模態大模型與世界模型公司，都需要數據。目前市場可采購的數據集，大約幾十萬小時，高質量的數據嚴重供不應求。

主流觀點認為，訓練泛化能力的具身大模型至少需要1000萬小時的數據，而達到智能涌現則需要100億小時的數據。就像一個人類嬰兒，從呱呱墜地到會走路、會說話、會穿衣吃飯、會做家務，真實的環境中觀察、模仿、反復練習，是習得技能的必經之路，機器人要想達到大眾設想中的、在家里像保姆一樣洗衣做飯打掃，同樣繞不開這個過程。

自動駕駛同樣經歷了數據從無到有、從少到多的過程，第一代自動駕駛數據集nuScenes獲取了經過人工標注的1000個場景，但總時長僅有5.5小時；以特斯拉為代表的車企，則通過已銷售的量產車來采集數據，這種成本更低、產量更大的方式，讓特斯拉智能輔助駕駛積累了約100億公里的行駛數據。但這個過程也用了將近10年。

顯然，與自動駕駛相比，具身智能的數據積累才剛剛起步。數據堂首席運營官何鴻凌告訴億邦AI，具身智能與自動駕駛的訓練方式是類似的，但難點在于，車可以先賣出去再積累數據、迭代算法、更新智駕能力，“具身智能不存在這個邏輯，我不可能買一個什么也不會做的機器人回去，我還需要遙操它來做。”

何鴻凌表示，就他了解到的數據需求情況看，家庭場景占80%，商超占20%，工廠占10%。原因不難理解，家務、照護、養老等長期存在的需求亟待技術進步提供新的方案，而家庭場景中任務的復雜性、多樣性以及相應的隱私安全問題，要求機器人經過更多的學習訓練。至于商超場景，目前人力成本尚可接受，短期內不具備強替代動力；而工廠已有成熟自動化方案，且任務相對標準，對具身智能數據的需求并不大。

這是一個先有雞還是先有蛋的問題：數據的積累需要機器人大規模進入家庭，而機器人達到可用程度依賴足夠的家庭場景數據訓練。

行業認可的具身智能數據可以大致分為三層：底層是互聯網視頻以及仿真合成數據；中間層是無本體數據，由數采員使用穿戴式設備，執行特定任務動作獲得；最頂層是真機數據，即工作人員遙控操作機器人獲得。這個數據金字塔從下到上，質量更好、數量更少、成本更高。

今年之前，在集中的數據采集廠里，使用各品牌的機器人本體重復各類工作任務，是主流的數據采集方式。國內已有20多個城市建立了數采廠。但是從2026年3月開始，無本體的具身智能數據采集，以野火燎原之勢全面爆發。

螞蟻數科天璣實驗室副主任朱凱表示，已有研究驗證過，具身智能訓練數據的多樣性存在一個優先級序：任務多樣性 > 操作物品多樣性 > 場景多樣性。

“我們在具身前沿模型的數據需求側看到了一個共性趨勢：海量數據需求正在朝無本體數據——也就是ego/UMI數據——集中。通用具身模型對訓練數據的配比正在朝‘90%ego+10% 真機’演變，部分更激進的團隊甚至在探索‘99%ego+1% 真機’的極端配比。”朱凱直言，“這意味著數據側的節奏決定模型側的突破節點，而ego數據的規模化供給能力，將直接決定GPT-3時刻到來的快慢。那么問題變成了：誰能以百萬乃至千萬小時的規模持續供給高質量ego數據？”

采集設備的“戰國時代”

過去兩年，機器人數采設備歷經了三次迭代：從最初的“真機遙操”——即人通過VR、手套等設備，操控某一款真機機器人，讓它學習任務；到UMI（通用操作接口，Universal Manipulation Interface）——用通用夾爪配合GoPro等相機，讓采集人員在真實場景中反復、緩慢操作，記錄任務行動軌跡；再到近兩個月爆發的“第一人稱人類視頻（Ego Centric）”，只需要通過手機或相機，記錄雙手的日常操作，就能用來訓練機器人大腦。

每一次迭代都朝著成本更低、門檻更低、采集更方便的方向，因此也讓參與者從專業人員向普通大眾擴散。

UMI路線是從2025年底開始的，海外具身智能廠商通過UMI數采先后訓練出了Generalist的GEN-0、Sunday的ACT-1等模型，初步證明這條路徑可以跑通。國內外廠商迅速跟進，形態各異的UMI設備陸續面世，夾爪、腕帶相機、手套、頭環+手機、頭環+夾爪等等。

今年3月，鹿明機器人發布了FastUMI無本體數采產品體系，涵蓋夾爪類硬件FastUMI Pro、背包形態數采設備FastUMI Go、頭戴式硬件FastUMI Ego、以及6軸協作機械臂FastUMI Touch。

鹿明在2025年通過自建數采工站，已經完成了10萬小時數據的采集，據鹿明聯合創始人趙廣智介紹，接下來，鹿明數據采集會分兩步走：第一步，2026年以與政府/產業方合作建設數采工廠方式，實現100萬小時數據產能；第二步，2027年，以眾包激勵形式，實現1000萬小時的數據產能。

圖：FastUMI Pro

4月，智元機器人孵化的具身智能數據公司覓蜂科技推出MEgo系列無本體數據采集硬件，包括多模態采集夾爪MEgo Gripper，頭戴相機+腕部相機MEgo View。覓蜂科技的目標是，2026年數據采集規模達到千萬小時，2030年前向百億小時級數據產能邁進。姚卯青的解釋稱，1萬臺設備，一天工作十多小時，產出4小時的有效數據，按照一年250個工作日，總計能夠產出1000萬小時數據。

MEgo View

然而，技術路線的變化比想象中更快。2026年3月的英偉達GTC大會上，英偉達EgoScale框架問世——用2萬小時帶動作標注的第一人稱人類視頻，對視覺-語言-動作（VLA）模型進行預訓練，再用4小時的靈巧手機器人實操數據進行輕量級中期訓練，就讓機器人學會了擰瓶蓋、疊襯衫、轉移液體等操作，成功率88%。它要講的故事是，每個人的日常工作視頻，就是機器人學習物理規律的理想教材。

UMI一度是眾包主流，但英偉達EgoScale框架開啟了采集效率更高、成本更低的新方向——Ego-Centric，參與者只需要在頭上或者胸前佩戴拍攝設備，雙手不需要額外設備，甚至連專門的拍攝設備也不需要了，只需要一部手機，以及固定手機的頭環或者胸前支架。

“特斯拉50萬+車輛在日常行駛中自動采集道路數據，實現零邊際成本的數據飛輪。我們當時在想：具身智能有沒有類似的"車隊"？答案是——人類本身。人類即Agent、手機即傳感器。”朱凱對億邦AI如是說。

由此，具身智能數據采集這項工作，從固定人員、固定場所變成固定人員、不固定場所，再變成不固定人員、不固定場所。以眾包形式開展數采，成為更經濟的選擇。

今年4月，京東云自研了可穿戴式超高清采集終端JoyEgoCam，發動京東本身10萬員工，以及外部最多50萬各行業人員，在物流、商店、家政等多種場景下“即戴即采”。京東將此稱為“人類歷史上規模最大的數據采集行動”，目標是用兩年時間，采集超過1000萬小時的基于真實場景的無本體的視頻數據。

京東云JoyEgoCam

螞蟻數科天璣實驗室團隊研發了成本更低的方案——第一人稱視頻采集框架AoE（Always-On Egocentric），通過一臺手機和一個低于20美元的頸掛式支架。“這不只是降成本，更關鍵的是，當采集者從少數專業人員變成千千萬萬的普通人，數據天然覆蓋了最廣泛的任務種類、操作習慣和場景分布，從機制上保證了對規模化預訓練最有價值的、以任務多樣性為核心的多維度多樣性。”朱凱說。

AI眼鏡更是將“ego+眾包”的數采方式發揮到極致。4月，成立僅三周的縱橫物理推出數采AI眼鏡Across（售價1699元），它不僅和普通AI眼鏡一樣具備AI對話、AI識圖、拍照錄像等常規功能，還能用于“采集數據賺金幣”，用戶錄制沖咖啡、做菜、整理家務等視頻，上傳至云端平臺，縱橫物理會根據視頻的“質量”和“稀缺性”，發布虛擬金幣，金幣可提現。5月6日他們又推出售價899的AI眼鏡，用戶采集一小時有效數據大約有十幾元收益。

某配線廠工人佩戴Across AI眼鏡日常工作，錄制的視頻通過Across App上傳到Across Cloud進行全自動視頻處理和四維深度重建，打包形成高質量具身智能數據集

在縱橫物理創始人吳楠看來，“你不能為了去做具身智能數據采集，而去專門發明一個數據采集硬件，這樣是不可持續的。”而眼鏡可以自然地融入生活，因此也能更快速的擴大采集數量。“比如說我們發動全民眾包，全球發動10萬人，每人每天采兩三個小時有效數據，那么一個月就能采100小時，10萬人就1000萬小時。有了這樣一套非常龐大的自己采集真人的數據量之后，我們會去做1:10生成式擴增，這樣今年能到1億小時，明年1:100，后年就1:1000，到后年才能達到1萬億小時。”

數采設備迭代太快了，甚至有些設備還沒來得及量產就已經落伍了。

“現在就是一個戰國時代，變化非常快，這個月的方案下個月可能就不一樣了。”何鴻凌直言。作為有十多年人工智能數據服務經驗的企業，數據堂在2025年下半年開始涉足具身智能數據采集業務，3月之前，數據堂的數采廠和場外采集還在使用夾爪，三月到四月，很多正在評估的任務都是直接用手操作。

這也就意味著，數據采集廠商在某一路線某一設備上的大量投入，很有可能在短時間內被替代。設備是否能成為主流，不僅取決于技術，更取決于能否在商業上證明其價值——即用新設備采集的數據訓練出的機器人，必須比傳統方法“聰明一倍”，才能推動大規模采用。

“我們肯定是需要充分的去調研，慎重的去做決定。說實話，一個就得看眼光，第二個還得看運氣。因為這世界確實變化太快了，有的時候運氣也是也是實力的一部分。”何鴻凌說。

毛利100%的生意

數據采集端的成本還在持續壓縮。

阿信在一個微信群接受了一個簡單的數據采集線上培訓，便開始在家按要求拍視頻。這項工作并沒有想象中那么輕松：鏡頭必須持續穩定拍攝到全部手部動作，被遮擋或動作不完整會扣除幀數（1秒3幀）。采集時長不等于有效時長，無效的原因可能是光線不夠、手移出了畫面、動作太快，甚至背景里出現了不該出現的東西。數采商還會開發一系列指令腳本，不斷提醒采集者調換物品，調換位置，調整光線。

她按照要求倒水澆花，布置場景加拍攝用了十幾分鐘，但有效時長只有十幾秒。這也是所有采集者的共識：每天拍攝時長8小時，有效時長往往不到2小時。“按照符合要求的視頻時長計算。比如倒一杯水，幾秒鐘；洗一個碗，十幾秒。十幾秒十幾秒累計，采集一天，最多能賺100塊。”阿信發現。

這是一份門檻低、自由度大的數字零工，也是一份非常消耗耐心，產出不穩定的差事，而且這份工作的酬勞還在快速貶值。

3月初，眾包價格（有效時長）為50元/小時，要求每天采集時長不低于8小時。越到近期，眾包價格越低，已經低至20元-22元/小時，每天采集時長不低于9小時。

設備層面，早期需要數采員練習使用夾爪，而且要求動作不能太快，但短短兩個月夾爪就開始被淘汰，拍攝設備也從只要蘋果手機，變成安卓手機全適配。4月底，人力公司的數據采集培訓需求里，只需一根淘寶購買的50元左右掛脖支架（人力公司報銷），下載采集軟件，就可以參與數據采集，沒有其他額外硬件需求，也不需要額外放慢速度，只要畫面清晰完整即可。

掛脖手機支架

采集成本在降低，需求熱度不減，意味著當下數據采集是一個有利可圖的生意。

有行業人士估計，付給眾包數采員的報酬，加上前期培訓、后期審核、標注、算法處理等，數采廠商的總成本大約100元/小時，而對外售價可以達到200元。也就是說，毛利高達100%。

縱橫物理更是提出在真人采集的數據基礎上用算法生成式擴增，“我們有一套自己的重建算法，能把一個十幾塊錢的成本，通過重建算法給它優化到能售價400塊錢的這樣一個價值。 ”吳楠說：“突破一個億的營收很簡單。”

雖然眾包成本夠低，但是問題也很多。何鴻凌告訴億邦AI，眾包最大的問題在于數據質量難以保證，如動作不流暢、任務理解錯誤、重復采集同一場景（如反復疊同一件衣服）等問題普遍，導致大量數據無效。而且由于采集標準復雜，前期的培訓成本高，培訓之后的流失又難以控制。

另一個問題在于人員配合度與隱私沖突，眾包采集常涉及拍攝他人或敏感環境（如家庭、商店），易引發隱私爭議；而打碼會損害數據質量，因為機器人實際運行時無法識別打碼內容。

去年9月，數據堂在保定建立了300臺機器人、8000平米的真實場景真機數采廠，但何鴻凌認為，場外數據采集、第一人稱視角是大勢所趨，數據堂的方式是雇傭有經驗的采集員，到各地租賃空置房間進行采集。

姚卯青也明確表示：“覓蜂不會大規模搞幾萬人外包或者眾包，還是以加盟方式，覓蜂先做0-1的樣板，制定流程規范標準區拿到代工廠做復制。”

有買方和賣方，就有平臺的機會，平臺的作用是統一數據標準，匹配供需，調節市場價格。就在4月份，連續三家公司推出具身智能數據交易平臺。

京東的具身智能數據交易平臺，匯聚京東自有的多模態數據資源，首批定向開放2000小時高精標注數據集，打通具身智能數據合規交易通道；覓蜂科技的物理AI數據服務平臺，聯合上電科、國家數據標委會、工信部賽迪研究院共同發起蜂巢數據共創行動；百度智能云聯合零次方、靈生、傅利葉、緯鈦科技、拓元智慧、樞途科技、松應科技等多家頭部具身智能企業，推出"具身智能數據超市（Beta版）"。

技術轉向：VLA還是世界模型？

從一線數采員角度看，數采的要求在不斷放寬。

早期兼職數采員領取專用夾爪和頭環后，廠家要求“動作必須精準，角度不能偏，速度不能快”，原因是，這些數據要直接喂給機器人模仿；但4月開始，很多數采任務只要求數采員用手機拍攝，不需要夾爪，后臺也不再苛求每一次疊衣的折痕位置，反而更在意數采員是否在不同光線、不同桌面高度、不同衣物材質下反復操作。

同樣是疊衣服，為什么以前要求“像機器人一樣標準”，現在卻鼓勵“像人一樣隨意”？答案藏在算法路線的劇烈轉向中。

過去幾年，主流的具身大腦模型使用VLA，邏輯是“照葫蘆畫瓢”——用海量機器人真機遙操作數據或者類似機器人的夾爪，訓練模型直接輸出動作指令。這種路線下，采集員必須模仿機器人的精度，因為每一個關節角度、每一毫秒的力矩都是訓練樣本的“標準答案”，而廉價的數據“噪聲太大，模型學不會”。

2025年下半年開始，另一條技術路線迅速崛起——世界模型（WAM）。它主張機器人先別急著模仿動作，而是從海量、廉價的人類第一人稱視頻里學習物理世界的因果規律：重力會讓杯子下落，衣物折疊時的褶皺如何產生，不同力度擰瓶蓋的結果有何不同。學會了這些“常識”，再只需少量真機數據微調，就能讓機器人的能力泛化到從未見過的任務。

世界模型路線對采集數據的要求截然不同：它不需要毫米級精度的關節角，反而需要大量、多樣、真實的日常操作場景，哪怕動作不夠標準、光線角度各異、環境雜亂無章——因為這些恰恰是物理世界的本來面目。

數采員手中的工具從夾爪降級為手機，從“精準示范”變為“正常記錄”，背后正是VLA與WAM兩條路線的此消彼長。

當然，真正驅動眾包熱潮轉向的，除了算法路線的更迭，還有另一股不容忽視的力量——資本與競爭的合流。

年初，具身大腦賽道融進了太多熱錢，頭部公司動輒數十億估值，錢到賬了，成果卻還沒著落。用新路線講新故事，成了最緊迫的任務。世界模型恰好提供了這樣一個出口：它夠前沿、夠顛覆，而且天然契合“海量數據+泛化能力”的敘事，能讓投資人相信明年會有更大的突破。

同時，全球范圍內的數采競賽也在倒逼行業加速——美國有DoorDash的配送員錄視頻，印度有服裝廠工人戴頭環，誰先建立起百萬小時級的數據壁壘，誰就掌握了下一輪競爭的主動權。融資節奏與全球競賽的雙重驅動，讓眾包采集從“可選項”變成了“必選項”。

但是在實際落地中，沒有哪家公司死守純VLA或純世界模型。英偉達一邊高喊“VLA已死”，一邊在自己的機器人里跑著VLA；宇樹嘴上推崇世界模型，轉身就開源了VLA模型。真正的行業玩家比的還是誰能在最短時間內用最低成本跑通數據閉環，誰能讓自己的模型在工廠、家庭、商超里穩定干活。路線之爭喊得再兇，也不耽誤大家在同一個工程泥潭里摸爬滾打。

這是2026年最真實的圖景：一場關于物理世界的軍備競賽，萬億資本競相涌入，千萬普通人被卷入其中。而所有人都在等——等具身智能的“ChatGPT時刻”在真實世界中降臨的那一天。

億邦持續追蹤報道該情報，如想了解更多與本文相關信息，請掃碼關注作者微信。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.