世界模型的下半场，评测与原生模型

具身纪元 · Original

Layer 1 — 核心论点链

这篇文章在讲一件事：具身智能（embodied AI）现在的卡点不是模型不够大，也不是数据不够多，而是评测这件事本身做不动了——而世界模型可能是接下来唯一能把评测撑起来的东西。

作者一开场先把”机器人快进千家万户”的乐观叙事泼了盆冷水。Rhoda AI 演示了 1.5 小时连续金属零件打包，Generalist 能持续分拣 1 小时——这种 demo 看上去很厉害，但要真铺到家庭和工厂，迭代速度撑不住。

真正的瓶颈可能隐藏在基础设施里面，如何怎么高效评测机器人策略？如何高效地在场景中完成后训练？而这两件事今天还主要是靠人、真机和大量等待时间完成的，无法支撑大规模部署所需要的迭代速度。

接着作者搬出自动驾驶这个先例。自动驾驶七八年前就遇到过一样的问题：要证明系统比人开车安全，光靠真实路测算不过账。RAND 公司 2016 年估算过，要以 95% 置信度证明致命事故率不高于人类驾驶水平，需要约 2.75 亿英里的零事故测试；要更严格地证明显著优于人类，需要 88 亿到 110 亿英里——这在当时相当于跑几百年。所以行业被逼出闭环仿真：Waymo 的 Carcraft、NVIDIA 的 DRIVE Sim 都是这条线。但物理引擎对行人意图、复杂博弈、雨雾光线的还原有上限，再往后就走到了世界模型——Bench2Drive-R / Vista / WoTE 是学术代表，Wayve GAIA 系和 Tesla 世界模型是工业代表。自动驾驶最终把世界模型变成了评测的核心基础设施。

自动驾驶的评测演化到最后，世界模型成了核心基础设施。

回到机器人。作者先立了一个”好评测三要素”的不可能三角：准确（能反映策略真实表现）、可扩展（能跨场景跨任务广泛评）、安全（不能伤害人和设备）。然后逐条拆真机评测怎么撑不起来。

准确性这一关，硬件本身就在漂。OpenVLA-OFT 论文在 QA 部分自己承认了：

我们观察到，随着时间的推移，所有方法的性能都出现了显著下降，这是由于硬件相关的分布变化造成的（例如，腕部摄像头视角的变化以及部分机器人关节的轻微磨损，这些都会影响机器人的动力学）。

1X 在自己的 tech blog 里给了更具体的数字——同一个训练好的 policy，3 月 24 号测是 100% 成功率，5 月 16 号再测就掉到 60%。光照变了、机器人磨了，结果就完全不同。这意味着不同模型之间根本没法做公平对比。

可扩展性这一关，作者引了 Sergey Levine 后续论文的细节：OpenVLA 评测用了 4 个机器人平台、跑了 2500 多次策略回合，光是人工记录、复位场景、判定成功率这一项就消耗了 100 多小时人力。这还是单轮——做消融实验和中间检查点评测要再乘几倍。一旦目标从单一任务变成通用机器人，要面对上千种日用物品和多样指令，逐一真机测根本走不通。

安全这一关，机器人比自动驾驶更难。汽车的运动空间是二维的，且天然为人类接管设计；机器人要做大量 contact rich 的活——抓取、拧转、折叠，一旦策略失效就是物理碰撞。最尖锐的一句在这里：

评测最重要的一类输入恰恰是危险的失败案例。也就是 evaluator 本应该认真覆盖，却在真机上极不愿意触碰的边缘场景。

学界的两条探索路径——可规模化真机评测和仿真，作者各点了几个代表作。

可规模化真机这条线主要是 Sergey Levine 团队推的。AutoEval 用学习到的成功判别器自动打分、用复位策略自动还原场景，把真机评测从”研究员手动操作的同步流程”改造成”像算力集群一样可调度的异步排队服务”。RoboArena 的思路结构上和 Chatbot Arena 一样——评测员挑任务、做成对双盲对比、用聚合偏好恢复全局排名；7 所大学之间做了 612 次成对比较、4284 次评测试次。

仿真这条线更老——RLBench / Meta-World 在 2019 年就有了（100 个任务 / 50 个任务起步），到 ManiSkill 的 162 个铰接物体、LIBERO 的 130 个带语言标注任务，社区一直在堆评测集。真正的转折点是 SIMPLER 这篇论文（PI 联合创始人 Sergey Levine、Chelsea Finn 团队），它把问题重新提了一遍：

仿真器的好坏，从此由一件事决定：能不能让 A 在仿真里赢 B、在真机上也赢 B。

SIMPLER 用 Mean Maximum Rank Violation（最大排名违反度）和 Pearson 系数把这个问题量化。PolaRiS 紧接着用 2D Gaussian Splatting 把任意视频重建成 IsaacSim 场景，6 套真机对照下 Pearson 平均到 0.9 左右。但仿真还是有天花板——布料、绳索、海绵这类柔性物体的形变、精细接触摩擦力，sim-to-real gap 绕不开。

所以从 2025 年开始，社区开始用世界模型替代评测环境。文章给出了一条非常密集的时间线：

2025-05：美的具身智能团队的 WorldEval 第一个跑通——14B 图生视频底座 WAN 2.1 当评测引擎，潜动作向量经过投影加进语言嵌入，Gemini-2.0 当外部判分员。与真机的 Pearson 系数从手工仿真的 0.41 一跃到 0.94。
2025-06：DeepMind + Stanford 的 WorldGym 把世界模型从前向预测器推到环境的位置——可以重置、可以采样、可以接 GPT-4o 给奖励。
2025-08：智元的 Genie Envisioner 把同一个 2B 视频底座同时拆出三件：基础模型、动作头、仿真器。判断很明确——视频底座可以充当机器人的统一隐空间。
2025-10：PI 的 Ctrl-World 把长时一致性补长，让世界模型稳定生成 20 秒以上的多视角一致视频。用合成出的成功轨迹微调，真机成功率提升 44.7%。
Google DeepMind 用 Veo 世界模拟器做了超过 1600 次真实评测的验证对比。1X 在数千小时 NEO 真实数据上训出来的世界模型给了一个具体结论：70% 准确率的世界模型，当两个策略真实成功率相差 15 个百分点时，能以 90% 概率选出更好的那个。

但作者在这里突然转向——世界模型解决了规模化，准确性还是个雷。问题来自训练数据。WorldEval 同一批作者后来又写了 dWorldEval，自己把上一代方案给毙了：

原有基于预训练生成模型的世界模型会乐观估计未来状态。

为什么会乐观？视频生成模型的训练数据来自 YouTube、TikTok、电影片段、网络短视频。这些数据有两个特点：第一，跟具身操作没什么关系——画面里见不到夹爪、见不到物体接触摩擦、更见不到失败的抓取；第二，商业趋势让它整体偏向画面好看——杯子总能稳稳放下、盘子总能准确递出。模型从这种数据里学到的是过度乐观的视觉直觉。

更具体的是架构问题。现有世界模型大多在视频生成骨架上加动作信号——WorldGym 用 adaptive layer norm（自适应层归一化调制），Ctrl-World 用 cross attention（交叉注意力）。两种做法本质一样：动作以辅助条件的身份进入一个视觉主导的生成模型。当动作只是条件输入，它的权重天然低于骨架里内嵌的视觉先验。给它一条会失败的动作序列，它倾向于生成看起来像成功的画面——因为这符合视觉先验，而失败场景在训练数据里稀少。

结果是一个系统性地把失败幻化为成功的评测器。

dWorldEval 给的解法是从 MMaDA（一个把文本推理、多模态理解、图像生成统一到扩散架构的模型）初始化，用掩码离散扩散把视觉、语言、动作三类信息全部离散化、放进同一序列、用单个 transformer 的自注意力统一建模。

三类信息在同一序列里平等共存，动作 token 和视觉 token 地位相同。

文章收尾比较抒情，作者把上半场归为”模型规模”、下半场归为”评测原生”，主张具身原生世界模型对评测的意义和原生模型对 policy 一样重要。

📌 金句摘抄

真正的瓶颈可能隐藏在基础设施里面，如何怎么高效评测机器人策略？如何高效地在场景中完成后训练？（开篇定调）

我们观察到，随着时间的推移，所有方法的性能都出现了显著下降，这是由于硬件相关的分布变化造成的（例如，腕部摄像头视角的变化以及部分机器人关节的轻微磨损，这些都会影响机器人的动力学）。（OpenVLA-OFT QA 自承，作者引用）

评测最重要的一类输入恰恰是危险的失败案例。也就是 evaluator 本应该认真覆盖，却在真机上极不愿意触碰的边缘场景。（安全维度）

仿真器的好坏，从此由一件事决定：能不能让 A 在仿真里赢 B、在真机上也赢 B。（SIMPLER 转向）

原有基于预训练生成模型的世界模型会乐观估计未来状态。（dWorldEval 核心论断）

结果是一个系统性地把失败幻化为成功的评测器。排名输出，过度乐观。策略明明有问题，评测器却说可以。这样的工具反倒成为了是安慰剂的角色。（视频底座作为评测器的根本缺陷）

三类信息在同一序列里平等共存，动作 token 和视觉 token 地位相同。（dWorldEval 架构核心）

Layer 2 — 我的标注

1. 真正值钱的是把”评测”搬到 infra 这层。 大多数人讨论机器人还在卷模型和数据，作者把瓶颈往下挪了一层——评测和后训练流水线才是迭代速度的瓶颈。这个判断和你 4-25 那份 Prana Labs 世界模型研究里”见创始人三问”的第一问（怎么评估？）说的是一回事。文章给了一组很硬的数字撑这个判断：1X 同 policy 两个月掉 40 个百分点、OpenVLA 一轮评测耗 100 小时人力——这些不是抽象的”评测有挑战”，而是真实研发节奏卡死的证据。

2. dWorldEval 这个观察很犀利，但作者位置不中立。 “视频底座学不到失败抓取所以系统性乐观”这个判断非常诚实，逻辑自洽。但 dWorldEval 和 WorldEval 是同一批作者，文章对其他派系的反驳几乎没给空间——PI 的 Ctrl-World 用 cross attention 真的就这么不行吗？智元 Genie Envisioner 的”动作头独立拆出”算不算对”动作只是条件”指控的部分回应？这些都没展开。读的时候要意识到：这是一篇对 dWorldEval / 美的路线友好的综述，不是中立扫描。

3. 自动驾驶到机器人这个类比的强度比表面看起来弱。 作者把自动驾驶的”真机不够 → 仿真 → 世界模型”路径直接搬过来推机器人会走一样的路。但自动驾驶能走通靠的是两件事——Waymo / Tesla 这种规模化路测数据 + 高频车流积累，加上车辆运动维度低、可参数化。机器人这边数据稀缺得多（所以才要从 YouTube 学），动作维度又高得多（contact rich）。这意味着用互联网视频底座做世界模型这条路，恰恰是数据稀缺逼出来的妥协，而不是自然演化的最优解——文章把它当成”路径继承”是有点把因果讲薄了。

Sources

原文：世界模型的下半场，评测与原生模型（公众号”具身纪元”，2026-04 前后）
关联材料（你已有）：Deals/Prana Labs/世界模型-研究-2026-04-25.md、Knowledge/topics/world-model-spatial-intelligence.md