← All Articles

世界模型的下半场,评测与原生模型

具身纪元 · Original

Layer 1 — 核心论点链

这篇文章在讲一件事:具身智能(embodied AI)现在的卡点不是模型不够大,也不是数据不够多,而是评测这件事本身做不动了——而世界模型可能是接下来唯一能把评测撑起来的东西。

作者一开场先把”机器人快进千家万户”的乐观叙事泼了盆冷水。Rhoda AI 演示了 1.5 小时连续金属零件打包,Generalist 能持续分拣 1 小时——这种 demo 看上去很厉害,但要真铺到家庭和工厂,迭代速度撑不住。

真正的瓶颈可能隐藏在基础设施里面,如何怎么高效评测机器人策略?如何高效地在场景中完成后训练?而这两件事今天还主要是靠人、真机和大量等待时间完成的,无法支撑大规模部署所需要的迭代速度。

接着作者搬出自动驾驶这个先例。自动驾驶七八年前就遇到过一样的问题:要证明系统比人开车安全,光靠真实路测算不过账。RAND 公司 2016 年估算过,要以 95% 置信度证明致命事故率不高于人类驾驶水平,需要约 2.75 亿英里的零事故测试;要更严格地证明显著优于人类,需要 88 亿到 110 亿英里——这在当时相当于跑几百年。所以行业被逼出闭环仿真:Waymo 的 Carcraft、NVIDIA 的 DRIVE Sim 都是这条线。但物理引擎对行人意图、复杂博弈、雨雾光线的还原有上限,再往后就走到了世界模型——Bench2Drive-R / Vista / WoTE 是学术代表,Wayve GAIA 系和 Tesla 世界模型是工业代表。自动驾驶最终把世界模型变成了评测的核心基础设施。

自动驾驶的评测演化到最后,世界模型成了核心基础设施。

回到机器人。作者先立了一个”好评测三要素”的不可能三角:准确(能反映策略真实表现)、可扩展(能跨场景跨任务广泛评)、安全(不能伤害人和设备)。然后逐条拆真机评测怎么撑不起来。

准确性这一关,硬件本身就在漂。OpenVLA-OFT 论文在 QA 部分自己承认了:

我们观察到,随着时间的推移,所有方法的性能都出现了显著下降,这是由于硬件相关的分布变化造成的(例如,腕部摄像头视角的变化以及部分机器人关节的轻微磨损,这些都会影响机器人的动力学)。

1X 在自己的 tech blog 里给了更具体的数字——同一个训练好的 policy,3 月 24 号测是 100% 成功率,5 月 16 号再测就掉到 60%。光照变了、机器人磨了,结果就完全不同。这意味着不同模型之间根本没法做公平对比。

可扩展性这一关,作者引了 Sergey Levine 后续论文的细节:OpenVLA 评测用了 4 个机器人平台、跑了 2500 多次策略回合,光是人工记录、复位场景、判定成功率这一项就消耗了 100 多小时人力。这还是单轮——做消融实验和中间检查点评测要再乘几倍。一旦目标从单一任务变成通用机器人,要面对上千种日用物品和多样指令,逐一真机测根本走不通。

安全这一关,机器人比自动驾驶更难。汽车的运动空间是二维的,且天然为人类接管设计;机器人要做大量 contact rich 的活——抓取、拧转、折叠,一旦策略失效就是物理碰撞。最尖锐的一句在这里:

评测最重要的一类输入恰恰是危险的失败案例。也就是 evaluator 本应该认真覆盖,却在真机上极不愿意触碰的边缘场景。

学界的两条探索路径——可规模化真机评测和仿真,作者各点了几个代表作。

可规模化真机这条线主要是 Sergey Levine 团队推的。AutoEval 用学习到的成功判别器自动打分、用复位策略自动还原场景,把真机评测从”研究员手动操作的同步流程”改造成”像算力集群一样可调度的异步排队服务”。RoboArena 的思路结构上和 Chatbot Arena 一样——评测员挑任务、做成对双盲对比、用聚合偏好恢复全局排名;7 所大学之间做了 612 次成对比较、4284 次评测试次。

仿真这条线更老——RLBench / Meta-World 在 2019 年就有了(100 个任务 / 50 个任务起步),到 ManiSkill 的 162 个铰接物体、LIBERO 的 130 个带语言标注任务,社区一直在堆评测集。真正的转折点是 SIMPLER 这篇论文(PI 联合创始人 Sergey Levine、Chelsea Finn 团队),它把问题重新提了一遍:

仿真器的好坏,从此由一件事决定:能不能让 A 在仿真里赢 B、在真机上也赢 B。

SIMPLER 用 Mean Maximum Rank Violation(最大排名违反度)和 Pearson 系数把这个问题量化。PolaRiS 紧接着用 2D Gaussian Splatting 把任意视频重建成 IsaacSim 场景,6 套真机对照下 Pearson 平均到 0.9 左右。但仿真还是有天花板——布料、绳索、海绵这类柔性物体的形变、精细接触摩擦力,sim-to-real gap 绕不开。

所以从 2025 年开始,社区开始用世界模型替代评测环境。文章给出了一条非常密集的时间线:

但作者在这里突然转向——世界模型解决了规模化,准确性还是个雷。问题来自训练数据。WorldEval 同一批作者后来又写了 dWorldEval,自己把上一代方案给毙了:

原有基于预训练生成模型的世界模型会乐观估计未来状态。

为什么会乐观?视频生成模型的训练数据来自 YouTube、TikTok、电影片段、网络短视频。这些数据有两个特点:第一,跟具身操作没什么关系——画面里见不到夹爪、见不到物体接触摩擦、更见不到失败的抓取;第二,商业趋势让它整体偏向画面好看——杯子总能稳稳放下、盘子总能准确递出。模型从这种数据里学到的是过度乐观的视觉直觉。

更具体的是架构问题。现有世界模型大多在视频生成骨架上加动作信号——WorldGym 用 adaptive layer norm(自适应层归一化调制),Ctrl-World 用 cross attention(交叉注意力)。两种做法本质一样:动作以辅助条件的身份进入一个视觉主导的生成模型。当动作只是条件输入,它的权重天然低于骨架里内嵌的视觉先验。给它一条会失败的动作序列,它倾向于生成看起来像成功的画面——因为这符合视觉先验,而失败场景在训练数据里稀少。

结果是一个系统性地把失败幻化为成功的评测器。

dWorldEval 给的解法是从 MMaDA(一个把文本推理、多模态理解、图像生成统一到扩散架构的模型)初始化,用掩码离散扩散把视觉、语言、动作三类信息全部离散化、放进同一序列、用单个 transformer 的自注意力统一建模。

三类信息在同一序列里平等共存,动作 token 和视觉 token 地位相同。

文章收尾比较抒情,作者把上半场归为”模型规模”、下半场归为”评测原生”,主张具身原生世界模型对评测的意义和原生模型对 policy 一样重要。

📌 金句摘抄

真正的瓶颈可能隐藏在基础设施里面,如何怎么高效评测机器人策略?如何高效地在场景中完成后训练? (开篇定调)

我们观察到,随着时间的推移,所有方法的性能都出现了显著下降,这是由于硬件相关的分布变化造成的(例如,腕部摄像头视角的变化以及部分机器人关节的轻微磨损,这些都会影响机器人的动力学)。 (OpenVLA-OFT QA 自承,作者引用)

评测最重要的一类输入恰恰是危险的失败案例。也就是 evaluator 本应该认真覆盖,却在真机上极不愿意触碰的边缘场景。 (安全维度)

仿真器的好坏,从此由一件事决定:能不能让 A 在仿真里赢 B、在真机上也赢 B。 (SIMPLER 转向)

原有基于预训练生成模型的世界模型会乐观估计未来状态。 (dWorldEval 核心论断)

结果是一个系统性地把失败幻化为成功的评测器。排名输出,过度乐观。策略明明有问题,评测器却说可以。这样的工具反倒成为了是安慰剂的角色。 (视频底座作为评测器的根本缺陷)

三类信息在同一序列里平等共存,动作 token 和视觉 token 地位相同。 (dWorldEval 架构核心)

Layer 2 — 我的标注

1. 真正值钱的是把”评测”搬到 infra 这层。 大多数人讨论机器人还在卷模型和数据,作者把瓶颈往下挪了一层——评测和后训练流水线才是迭代速度的瓶颈。这个判断和你 4-25 那份 Prana Labs 世界模型研究里”见创始人三问”的第一问(怎么评估?)说的是一回事。文章给了一组很硬的数字撑这个判断:1X 同 policy 两个月掉 40 个百分点、OpenVLA 一轮评测耗 100 小时人力——这些不是抽象的”评测有挑战”,而是真实研发节奏卡死的证据。

2. dWorldEval 这个观察很犀利,但作者位置不中立。 “视频底座学不到失败抓取所以系统性乐观”这个判断非常诚实,逻辑自洽。但 dWorldEval 和 WorldEval 是同一批作者,文章对其他派系的反驳几乎没给空间——PI 的 Ctrl-World 用 cross attention 真的就这么不行吗?智元 Genie Envisioner 的”动作头独立拆出”算不算对”动作只是条件”指控的部分回应?这些都没展开。读的时候要意识到:这是一篇对 dWorldEval / 美的路线友好的综述,不是中立扫描。

3. 自动驾驶到机器人这个类比的强度比表面看起来弱。 作者把自动驾驶的”真机不够 → 仿真 → 世界模型”路径直接搬过来推机器人会走一样的路。但自动驾驶能走通靠的是两件事——Waymo / Tesla 这种规模化路测数据 + 高频车流积累,加上车辆运动维度低、可参数化。机器人这边数据稀缺得多(所以才要从 YouTube 学),动作维度又高得多(contact rich)。这意味着用互联网视频底座做世界模型这条路,恰恰是数据稀缺逼出来的妥协,而不是自然演化的最优解——文章把它当成”路径继承”是有点把因果讲薄了。

Sources