Figure 机器人工厂参观:通往 AGI 的最后一块拼图,是让 AI 触碰真实世界
Sourcery 主持人 Molly O’Shea 于 2026 年 5 月首次完整走进 Figure 位于圣何塞的机器人园区,由创始人兼 CEO Brett Adcock 全程导览。Z Potentials 做了编译。这是一篇访谈+工厂参观实录,信息密度不算特别高(有大量闲聊和重复),但几个关键工程决策和产品节点值得记。
园区概况
Figure 园区有 4 栋楼,在这里完成设计、制造、测试的全链路。园区员工约 250-300 人,公司总人数约 500 人,绝大多数是工程团队。园区里有几百台机器人。Brett 说他的目标是”让园区里机器人数量超过人类”。
公司成立还不到四年。
机器人核心参数
Figure 03 的基本数据:
- 约 40 个电动关节,每个可 360° 旋转。Brett 说可能的身体状态数是 360^40——“比宇宙中的原子数量还多”
- 重约 135 磅(约 61 公斤)
- 电池 2.25kWh,续航 4-5 小时,充电约 1 小时
- 无线充电:通过脚底感应线圈,功率 2kW,机器人自动走到充电桩,不需要插线
- 连接:5G + Wi-Fi + Bluetooth,但断网后仍可继续工作——Helix 神经网络在机身 GPU 上本地推理
- 充电桩切换流程:一台机器人电量到 10-15% 时回充电桩,另一台提前离桩,30 秒内接替工作,全天候运转
从代码到神经网络:Figure 的核心技术转向
这是全篇最重要的工程判断。Brett 非常明确地说:靠写代码控制人形机器人是一条死路。
三四年前 Figure 自己也走过代码路线——写了几十万行 C++,解倒立摆数学问题,让机器人保持平衡。但他们发现这种方式不扩展:“你不可能让一群人坐在房间里,把机器人可能遇到的整个世界都编码进去。”
约一年前,他们”strongly转向”,完全切换到神经网络路线。现在所有机器人都运行 Helix——他们内部设计的视觉-语言-动作模型(VLA, Vision-Language-Action model)。Helix 从摄像头像素出发,每秒做 50-200 次推理,输出每个关节的位置指令。Brett 打了一个类比:就像大语言模型预测下一个 token,Helix 预测的是”下一个身体姿态”。
控制器也完全切到了强化学习(RL)。在模拟器里给机器人施加各种扰动(推力、关节失效等),训练出的策略可以零样本迁移到真实机器人上。Brett 说仿真到现实的迁移成功率”非常高”。
Never Fall 项目和 Vulcan 系统
Figure 内部有一个叫 Never Fall 的项目——“我们永远、永远不想让机器人跌倒”。跌倒对他们来说是最严重的故障事件之一,因为一旦失去电力或腿部关节,机器人就会倒下。
他们开发了一个叫 Vulcan 的系统:当机器人失去腿部单个甚至多个关节时,仍然能保持站立。现场演示了”失去左膝”的场景——对膝盖做速度锁定,机器人用跛行方式继续移动。这同样是通过 RL 在模拟器里训练出来的。
几个月前,失去膝盖就意味着直接倒下。现在机器人要么继续工作,要么自己跛行离开,请求另一台机器人接替。
Brett 说了一句话:“我们最常见的错误已经不是硬件了。硬件已经变得非常可靠,现在主要是软件问题。”
家庭场景和商业定价
家庭机器人的目标是:接受一个自然语言提示(比如”clean the living room”),通过摄像头画面自主推理,完成整理房间、收拾桌子、放杯子、收拾玩具等家务。
不是远程操控。 Brett 特别强调这一点——机器人完全自主运行,依靠机身内部的 Helix 模型。机器人队列里的任何一台都能做任何工作,因为运行的是同一个单一神经网络。
家庭机器人近期不会直接出售,计划走月租模式,每月 $400-600 美元,类似汽车租赁。机器人占地约 2 英尺×2 英尺,插普通墙壁插座就能充电。
数据策略和隐私
Brett 说从现在到大规模部署,最大的阻碍是数据。
- 基础预训练和中期训练:总数据量接近一百万小时
- 后训练:数千小时级别
- 部署后希望收集真实场景数据,送入集中训练任务,然后通过 OTA 更新神经网络权重
关于隐私:承诺全部匿名化,大部分关心的是”从状态角度看机器人看到了什么”。但被问到欧洲数据隐私时,Brett 只说”必须遵守当地规则”,没有给出具体方案。
数据采集团队穿 spandex 套装做关节级别的运动追踪——“从人类身上学习”,因为机器人是人形的,需要大规模理解人类运动。
三代机器人的演化:速度 → 可靠性 → 成本
| 代 | 时间 | 重点 | 成本 |
|---|---|---|---|
| Figure 01 | 公司第一年内走路 | 速度优先,全 CNC 制造 | 几十万美元/台 |
| Figure 02 | ~50 台 | 电池从背包移到躯干,计算能力 3 倍,外骨骼承载结构 | 仍然很贵 |
| Figure 03 | 当前量产 | 减重、降本、柔性包覆、新一代触觉手 | 远低于 $10 万/台 |
02 到 03 的成本下降约 90%。
Figure 01 有一段有趣的故事:他们最早尝试了肌腱驱动手(模仿人手生物结构,把电机放在前臂里通过”肌腱”驱动手指),但很快发现这是错误的工程选择,转向了其他方案。但来不及重新设计整个前臂,就把脚部电机塞进去凑合——导致 Figure 01 的前臂看起来很奇怪(“Frankenstein forearm”),弯曲位置不在手腕而在前臂中间。Brett 说他当时很尴尬,但三年里几乎没人问过这个问题。
Figure 04:翻盖手机到 iPhone 1 的跃迁
Brett 用了非常强的措辞:
“我们现在还像人形机器人里的翻盖手机,而 Figure 04 会完全不同,可能是我们有史以来最大的一次跃迁。”
“Figure 04 可能会是我们的第一个 iPhone 1 时刻。”
Figure 04 目前处于详细设计阶段(detailed design phase),预计保持每年一代新机器人的节奏。Brett 说他本以为到 Figure 03 就接近饱和了(类似 iPhone 现在每代变化不大),但实际上 04 的变化远超预期——“等拿出来时,你会觉得它完全不同”。具体细节没有透露。
下一代高自由度手大约一个月前已经预告,拥有”接近人类水平的灵巧度”,关节数量和人手一样多。Brett 认为这对被动学习至关重要——如果人类手可以做复杂动作,机器人手也必须能映射这些动作,才能从人类数据中学习。
制造体系(BotQ)
BotQ 是 Figure 的制造工厂,在这里组装头部、电池、腿、手臂、手。
电池安全是重点——2.25kWh 锂电池包本身也是结构件(承载负荷)。内部设计了热失控管理系统:灌注聚氨酯,加入热失控排气流程。核心要求是”绝不能有火焰离开电池包”——即使单个电芯热失控,也必须控制在电池包内部。即使机器人跌倒撞到尖锐物体,也不能刺穿电芯。Brett 说 Figure 03 从未发生过机器人着火事件。
产线末端测试(EOL, End of Line):每个子系统都要通过严格测试。以头部为例:刷软件 → 摄像头校准 → 信号确认 → 异常分诊。通过后才能装到机器人身上。
老化测试(Burn-in):完整组装后的机器人连续运行几个小时,确认没有问题才放行。
2026 年 3 月创下制造纪录——“这个月造的机器人比此前整个公司历史上造的总和还多”。
BMW 合作
去年在 BMW 斯帕坦堡车身工厂部署 6 个月,机器人参与了 X3 的组装。Brett 说这是”世界上第一辆由人形机器人参与制造的汽车”。他买了前四辆,三辆放在园区,一辆在家。
AGI 论点
Brett 在访谈中多次表达一个观点:真正 AGI 最后缺失的一块,可能就是和现实环境的真实世界互动。
他的逻辑链是:机器人通过触碰世界、看到结果、在试错中学习——这也是人类智能很大一部分的来源。甚至可能出现一种情况:“我们最先在这些具身形态里实现 AGI”。
这是一个非常强的声明,但没有给出具体论证路径。
碎片但有趣的细节
- 机器人穿的衣服都是织物,可以换,客户可以定制 logo 和颜色。背后有拉链,脏了破了随时换
- Figure 03 的鞋是高帮运动鞋。Brett 说 Figure 02 的鞋像便士乐福鞋,“不能让机器人穿便士乐福鞋出来干活”
- 脚部有脚趾——对自然步态和从地面站起来很重要
- 一台带美国国旗的机器人去过白宫,参加了有第一夫人在场的活动
- 2024 年底和 Deadmau5 在科罗拉多 Red Rocks 合作演出,多台机器人在舞台上跟着音乐跳舞
- 登上过《TIME》杂志封面
- Brett 最喜欢的科幻电影是 Jodie Foster 的《Contact》
- 设计方向选择:Westworld(拟人路线)vs I, Robot(机械路线),Figure 选了 Westworld
- Brett 上一家公司 Archer Aviation 做电动垂直起降飞行器(eVTOL),有 24 个自由度。他认为飞行器和人形机器人是”足够相似的系统”——电池、电机、控制软件、嵌入式系统、传感器的组织方式类似
拧巴的地方
AGI 声明过于强烈但缺乏论证。Brett 说”真正 AGI 最后缺失的一块就是和物理世界互动”,甚至说”可能最先在具身形态里实现 AGI”。但他没有回答一个显然的反问:当前大语言模型已经在纯文本/代码/数学上展现出强大推理能力,这些能力并不依赖物理交互。“最后缺失的一块”这个说法需要更强的论据。
数据策略的隐私回答很模糊。“全部匿名化”和”必须遵守当地规则”几乎是空话。家庭场景的视觉数据天然包含大量个人信息(房间布局、个人物品、家庭成员),匿名化的具体方案和技术路径完全没提。
“靠写代码是死路”的表述过于绝对。他们自己用了几十万行 C++ 让 Figure 01 走起来,Figure 02 也在代码基础上迭代。这些代码积累对后来神经网络方案的设计显然有贡献。更准确的说法应该是”纯代码方案无法扩展到通用任务”,而不是”死路”。
成本和定价之间有巨大差距。单台成本”远低于 10 万美元”,月租 $400-600。即使按 $500/月算,6 万美元的机器人需要 10 年才能回本(还不算维护、充电、折旧)。这个商业模型的数学在访谈里完全没被追问。