世界模型/机器人训练数据生意——市场规模与现状分析(以灵御智能为锚点)
受众:Justin(红杉中国 MD) 触发:灵御智能会议纪要(具身数采公司,15 亿估值融 1.5 亿) 方法:2 路并行子代理(全球 20+ 源 / 中国 23+ 源)+ 灵御纪要交叉校验 信任度标注:【公开可验证】/【公司自述】/【媒体估计】
〇、先说三个最重要的发现
1. 利益相关披露(必须先知道):红杉中国已领投智元孵化的具身数据平台「觅蜂科技」数亿元种子+天使轮(鼎晖 VGC/百度风投/云锋跟投)【公开可验证,证券时报】。觅蜂走”加盟代工厂”数采模式,和灵御的”数采工厂”几乎正面竞争——看灵御之前先理清内部 portfolio 关系。
2. 这个市场目前比叙事小得多:全球范围内没有任何权威第三方机构对”机器人训练数据市场”做过专门规模测算。最硬的一个数字是 Micro1 CEO 估计”机器人公司每年向第三方购买真实世界数据的总支出 >1 亿美元且快速增长”【公司自述,MIT Tech Review 2026-04】。中国侧同样没有独立测算。当前是一个”亿美元级”的早期市场,不是”百亿级”——所有更大的数字都是把硬件、整体具身市场或者预期混进来的。
3. 数据单价在快速通缩:海外高质量遥操数据全成本两年从 340 美元/小时跌到 118 美元/小时(-65%)【行业自述,SVRC】。中国市场价 500-1000 元/小时【媒体报道】,灵御要用 100 元/小时成本把行业卷下来。这是一个供给快速增加、价格快速下降的市场——卖数据的窗口期逻辑成立,但长期毛利逻辑存疑。
一、市场规模:能信的数字和不能信的数字
能信的(按可信度排序)
| 指标 | 数字 | 档位 |
|---|---|---|
| 全球机器人公司年度第三方数据采购总支出 | >1 亿美元/年(2026 初,快速增长) | 【公司自述】Micro1 CEO |
| 中国具身智能与机器人 2025 年融资 | 744 起 / 735 亿元 | 【公开可验证】信通院&清华报告 |
| 2025 全球机器人 VC 投资 | 94 亿美元(+41%,美中占 80%) | 【行业自述】SVRC |
| 2025 人形机器人投资总额 | >60 亿美元 | 【媒体估计】MIT TR |
| 中国已建/在建具身训练场 | 近 30 家 | 【公开可验证】信通院 |
| 全球高质量真实物理交互数据存量 | 仅约 50 万小时 | 【媒体估计】澎湃 |
| 2026 行业高质量数据缺口 | >500 万小时 | 【公司自述】觅蜂 |
不能直接引用的
- “中国具身智能市场 529.5 亿元/万亿级”——不同转载里同一数字也写作 52.95 亿,源头口径无法核实
- MarketsandMarkets “具身 AI 市场 2030 年 230 亿美元”——含硬件整机,和数据子市场是两回事
- IDC “中国具身机器人用户支出 2030 年 770 亿美元”——是整机支出不是数据
用模型公司的实际用量反推需求侧(最重要的量化锚)
| 公司/数据集 | 真机数据量 | 档位 |
|---|---|---|
| Physical Intelligence π0 | 约 1 万小时自采(7 种构型 68 任务);微调单任务 1-20 小时 | 【公开可验证,论文】 |
| Figure Helix 首版 | 约 500 小时遥操演示 | 【公司自述】 |
| 1X Redwood | >1 万小时家庭部署日志 | 【公司自述】 |
| Scale Physical AI | >10 万生产小时 | 【公司自述】 |
| 智元 AgiBot World | 100 万+条轨迹(折算小时数低于百万级) | 【公司自述+开源可验证】 |
| Open X-Embodiment | >100 万条轨迹 / 22 种本体(业界公共底料) | 【公开可验证】 |
| 自动驾驶(参照系) | 百亿小时级路测数据 | 灵御纪要口径 |
关键观察:头部模型公司现在的真机数据用量是”百~万小时”级。灵御要年产 100 万小时——比 π0 全部训练数据多两个数量级。 这是先发供给还是远超需求的产能,是这门生意的第一性问题。行业说”100 万小时出初步可用模型、1000 万小时真落地”(灵御纪要口径),如果这个共识成立,需求会指数级上来;如果模型路线走向”少量真机+大量仿真/视频”,100 万小时可能卖不掉。伯克利 Ken Goldberg 的提醒值得记:LLM 用了人类要读 10 万年的文本,机器人需要的可能更多,“达到目标需要的时间比人们想象的长”。
二、价格基准:全球 vs 中国 vs 灵御
| 口径 | 价格 | 来源档位 |
|---|---|---|
| 海外遥操数据全成本(采集+标注+打包) | 2024 初 340 美元/h → 2026.3 118 美元/h(两年 -65%) | 【行业自述】SVRC |
| 海外遥操员人力 | 离岸 22-55 美元/h;美国本土 65-120 美元/h | 【行业自述】 |
| 海外人类视频零工(非真机) | 15 美元/h(Micro1 付尼日利亚采集员) | 【公开可验证】 |
| 中国真机数据市场价 | 500-1000 元/h(≈70-140 美元);其他方式 200-500 元/h | 【媒体报道】澎湃 |
| 中国遥操综合成本 | 行业 500 元+/h;一套遥操设备 20 万+,叠人力单时可破万元 | 【媒体报道】 |
| 灵御自报 | 市场价 500 元/h、真实场景 1000 元/h、买断 3 倍+;自建成本目标 100 元/h | 【公司自述】 |
| 灵御给的对标 | 智源约 400 元/h、乐聚卖过 700-1000 元/h | 【公司转述,无公开来源】 |
三个判断: 1. 灵御的 500/1000 元市场价口径和媒体区间吻合,可信 2. 中国价格(500-1000 元≈70-140 美元)和海外当前全成本(118-136 美元)基本接轨——没有显著的中国价格洼地 3. 灵御真正的牌是 100 元/小时(≈14 美元)成本——接近海外人类视频零工价但产出是真机数据。如果成本结构真实(要拆:本体折旧 10-15 万/台 + 操作员人效 + 有效数据率 + 场地质检),这是把行业从”500 元成本线”砍到 1/5 的位置,卷死同行的逻辑成立。但智源 400 元/乐聚 700-1000 元这两个对标价是创始人转述,DD 时要报价单证据
三、玩家图谱
全球(按模式分)
自建数据飞轮的模型公司(不外卖,压缩第三方天花板) - Tesla Optimus:曾雇数据采集员(时薪 25-48 美元,动捕服+VR),2025 年中战略转向——放弃昂贵遥操,改头盔五摄像头让工厂工人日常作业中采纯视觉数据。降级路径示范:从贵的遥操转向便宜的人类视频 - Figure:自建 Helix Lab;数据=遥操演示+部署日志+互联网视频 - 1X:每台入户 NEO 都是”实时数据工厂” - Physical Intelligence:自采 1 万小时;Levine 公开主张真机数据不可或缺
第三方数采/标注服务 - Scale AI:Physical AI 数据引擎,自建实验室 >10 万生产小时 + 全球分布式采集网络;客户含 PI、Generalist、Cobot——证明头部模型公司自采之外也外购 - Micro1:50+ 国数千零工头戴 iPhone 拍家务视频,数万小时 - Encord:数据基础设施软件(标注/管理),C 轮 6000 万美元,服务 300+ 团队 - Sensei(YC,2310 万美元):<300 美元采集硬件,自称成本 1/10 - DoorDash Tasks:800 万零工拍家务视频卖给 AI 公司——零工平台跨界,边际成本近零
仿真/合成 - NVIDIA Cosmos(200 万小时视频训练)+ GR00T-Dreams(单图生成合成轨迹)——注意 NVIDIA 自己强调合成要以真机数据为种子 - DeepMind Genie 3 + SIMA 2:生成世界里自我提升,但只能维持几分钟一致性,向实体迁移未证明
中国(按模式分)
国家队/训练场(最强竞争对手,因为拿补贴+开源压价) - 北京人形创新中心(亦庄):RoboMIND 开源数据集;国内首个真实场景数采基地,100ms 低延迟”远程驾驶舱”遥操,称降低综合成本 50%——和灵御的”低延迟遥操+真实场景”卖点直接重叠 - 国地共建中心(上海张江):全国首个异构训练场(5000 平米/首期 102 台),2025 目标 1000 万条;国家数据局认证累计 100 万+条/2.5PB - 全国近 30 家训练场在建——产能在政府资金推动下快速堆起来
数采商业公司 - 觅蜂科技(智元孵化,红杉已领投):全链路数据平台,加盟代工厂模式——合作方出资建站、觅蜂派单管质量 - 海天瑞声(A 股 688787):传统标注公司里唯一明确卡位具身,与石景山训练中心共建 - 它石智航(融资 4.55 亿美元)、光轮智能(仿真合成,10 亿元)、枢途科技(互联网视频提取,自称成本 1/200)、鹿明(1 万台 UMI 背包) - 京东:自报 60 万人采集队伍、两年 1000 万小时第一视角视频目标(依托 3600+ 仓库)
本体公司自采/开源 - 智元:AgiBot World 开源百万轨迹 + 浦东数采工厂(4000 平米/近百台/日采 3-5 万条)+ DaaS 四种模式对外卖 - 乐聚:全国 14 个人形训练场里 9 个有份,目标年产 2500 万条 - 宇树王兴兴:唱反调——“数据不是最大瓶颈,模型架构才是”,看好视频/世界模型路线 - 银河通用:纯仿真合成派,GraspVLA 预训练没用任何真机动作数据,自称数百亿级合成动作数据
四、商业模式光谱和盈利结构
| 模式 | 代表 | 经济结构 |
|---|---|---|
| 卖采集服务 | Scale、Micro1、觅蜂、灵御数采工厂 | 人力套利:离岸人力 15-55 美元/h vs 数据卖价 118-136 美元/h;没有任何一家公开毛利率 |
| 卖采集设备+license | 灵御(本体 10-15 万/台)、Sensei | 设备引流,软件 license 随硬件,公网遥操订阅 |
| 数据基础设施软件 | Encord | SaaS 毛利最高,但不碰数据生产 |
| 数据交易平台 | SVRC Marketplace | 撮合抽佣,刚出现 |
| 自采自用 | Tesla/Figure/1X/PI/智元 | 数据当核心资产不外卖——头部全在自建 |
| 副产品变现 | DoorDash、京东 | 既有零工/场景网络复用,边际成本近零——对专业数采商是降维威胁 |
政府补贴格局(中国特色变量):地方政府不直接买数据,三种间接模式——①数据券/语料券(亦庄每年 1 亿元数据券、按交易额 10% 补、单主体年封顶 100 万;上海语料券最高 500 万/年;深圳训力券近 2 亿)②训练场基建(国资出地出钱)③数据集评审奖励(100-200 万一次性)。实质:给买方降价 ~10% + 给国家队建基建。第三方数采商不是补贴的大头受益者——灵御纪要里”国家和地方政府对具身数采有大量补贴、各地政府愿意投入”的说法方向对,但要看清补贴流向。
五、真机 vs 仿真 vs 世界模型:替代性之争(决定这门生意的天花板)
三派立场: - 真机不可或缺派:PI Levine(仿真到现实有盲区)、智元/乐聚/国地中心(重资产投真机) - 仿真/合成派:银河通用(零真机数据做到抓取零样本泛化)、NVIDIA(合成轨迹流水线)、光轮智能 - “数据不是瓶颈”派:宇树王兴兴(模型架构才是限制)
行业共识趋势【信通院/新华社口径】:正在形成”仿真为主、真机为补充”的混合训练模式。数据金字塔分层清楚——底层互联网/人类视频(最便宜、量最大)、中层仿真合成、顶层真机遥操(最贵最稀缺,用在最后的精调和接触丰富任务上)。
对”卖真机数据”生意的含义: 1. 真机数据的需求存在性没有争议(连 NVIDIA 的合成流水线都要真机种子),争议在用量——如果”仿真为主真机为补”成为主流,真机需求是”精调用的小量高价”而不是”百万小时的大量中价” 2. Tesla 的转向是个值得记的信号:被抛弃的是昂贵遥操,不是真实数据——降级到人类视频。遥操数采的价格如果降不到人类视频量级,会被持续往”少而精”的角落挤 3. 灵御对世界模型”2-3 年内替代不了真机”的判断和海外主流口径一致(Genie 3 只能维持几分钟一致性),短期窗口是真的;但窗口内价格通缩 65% 也是真的
六、综合评估:这门生意的投资判断框架
这是一门什么生意:当前是亿美元级、快速增长、价格快速通缩、政府补贴催熟、头部买家自建倾向明显的早期市场。本质更接近”窗口期的卖铲生意”而不是”长期高毛利数据资产生意”。
成立的逻辑: - 数据缺口真实存在(全行业存量约 50 万小时 vs 共识需求 100 万-1000 万小时) - 模型公司大多是 AI 科学家团队不做本体,外购需求真实(Scale 的客户名单证明) - 中国有独特的政府补贴+训练场基建推力,产能扩张速度全球最快 - 成本领先者能在通缩市场里活到最后(灵御 100 元/h vs 行业 500 元/h,如果属实)
不成立/要警惕的: - 需求量级未证实:头部模型公司用量百~万小时级,100 万小时年产能的消化能力是最大问号;投资人在灵御会上问的”100 万小时是否都能卖掉还是某场景 5 万小时就够了”正是要害 - 头部自建 + 副产品降维:Tesla/Figure/1X/智元自采不外购;DoorDash/京东用现成零工和场景网络免费获得采集能力 - 国家队压价:近 30 家训练场拿政府钱+开源数据(RoboMIND/AgiBot World/ActionNet 全开源),商业数采商在和”不需要赚钱的对手”竞争 - 价格通缩:两年 -65% 的海外曲线大概率在中国重演(灵御自己也说”下半年数据市场开始卷”) - 构型转换风险:数据资产绑定”轮式双臂夹爪”构型,若灵巧手/双足成为主流,存量数据资产价值要重估
给你的三个可跟踪指标: 1. 数据订单的真实成交:灵御说”动辄 1 万小时订单出现”——要看到合同、价格、验收标准(它 6 月底第一个数采工厂才建好,数据收入还是 0) 2. 海外价格曲线:SVRC 每年发 State of Robotics,跟踪 118 美元/h 这条线还往下走多快 3. 世界模型实体迁移进展:Genie/Cosmos 系一旦演示出”生成数据直接训出可部署机器人 policy”,真机数采估值逻辑要立即重算
主要来源(40+,关键列举)
全球:MIT Technology Review(零工训练人形机器人)、Scale AI 官方博客、SVRC State of Robotics 2026、Bloomberg(PI 估值)、Figure 官方(Series C/Helix)、π0 论文(arXiv 2410.24164)、Open X-Embodiment、Apple EgoDex、NVIDIA Newsroom/技术博客、DeepMind Genie 3、Encord 融资公告、YC Sensei、Tesla Careers、TechCrunch(DoorDash Tasks)、Contrary Research(1X)、Sergey Levine Substack
中国:信通院&清华《具身智能发展报告 2025》、国家数据局高质量数据集案例、北京/上海/深圳政府政策原文、证券时报(觅蜂融资/海天瑞声)、澎湃(数采生意两篇)、智元官网(AgiBot World/DaaS)、机器人大讲堂(乐聚/成本)、36氪(银河通用)、量子位(智源/傅利叶)、北京日报(亦庄数采基地)
锚点:灵御智能会议纪要(Justin 提供 PDF,26 页)