世界模型的下半场，评测与原生模型（新规则下精读 v2）

具身纪元 / Marilyn Liu · 2026-04-29 · Original

来源：微信公众号「具身纪元」/ Marilyn Liu | 2026-04-29 原文：世界模型的下半场，评测与原生模型精读日期：2026-04-29 | 模式：Standard（新版 learning skill 规则）

核心主张

机器人领域的”模型评测”——也就是怎么判断一个机器人策略好不好——正在从”真机测评”转向”世界模型评测”。但这件事必须用具身原生的世界模型来做，而不是把视频生成模型（比如训练 Sora 那类的）改造一下来当评测器。后者会系统性地把失败幻化为成功，变成安慰剂。

起点：自动驾驶 7-8 年前走过同样的路

作者一开篇就把机器人评测的问题对标到自动驾驶。

RAND 2016 年那个数字：要靠真实路测证明自动驾驶比人类司机安全，需要 88-110 亿英里的零致命事故里程。换算下来当时的车队规模要跑几百年。靠跑真车证明安全这条路根本走不通。

所以自动驾驶走出了闭环仿真这条路——“闭环”的意思是感知（看路）、决策（怎么开）、控制（油门刹车方向盘）全部在仿真里跑一遍，不是只仿一段感知就停。代表作品：Waymo 的 Carcraft、NVIDIA 的 DRIVE Sim。把真实里的一段路况参数化，再生成几千几万个变体，测试效率比真车跑高几个数量级。

但仿真有上限：物理引擎对行人意图、复杂博弈、雨雾光线的还原终归不够真。所以再往后，世界模型成了评测核心。

【世界模型 (world model) 是啥】 简化讲：一个能给定”当前状态 + 动作”就预测出”下一帧画面 / 下一个状态”的模型。视频生成是它的近亲——Sora 之类的看起来在生成有趣的视频，本质上也是在学世界的下一帧分布。自动驾驶的世界模型是把这种能力当成虚拟测试场：你的车端模型决策”右转”，世界模型告诉你右转后路上发生啥（其他车怎么动、行人怎么反应），不需要真车上路就能看到结果。

代表作品： - Wayve 的 GAIA 系列——英国自动驾驶公司 Wayve 自家的世界模型 - Tesla 的世界模型——特斯拉 FSD 团队基于自己采集的庞大行车视频训出来的 - 学术上：Bench2Drive-R / Vista / WoTE 等

文章给了一句小结：自动驾驶的评测演化到最后，世界模型成了核心基础设施。

机器人比自动驾驶处境更糟，原因有三

作者列了一个”评测三角”：好的评测要同时满足准确 + 可规模化 + 安全。机器人的真机测评在三件事上都崩。

第一，真机测评不可重复

【为什么不可重复】 机器人的策略对环境太敏感——光照变了、相机角度偏了一点、机械臂关节磨损了一点，跑出来的成功率就会差很多。

文章给了两个具体例子：

OpenVLA-OFT（一个开源的视觉-语言-动作模型，来自 Sergey Levine 团队）。在它的官网 QA 里作者自己坦言：随着时间推移，所有方法的性能都出现了显著下降，原因是”硬件相关的分布变化”——腕部摄像头视角的微小变化、机器人关节的轻微磨损这些都会影响动力学。
1X（人形机器人公司，做 NEO 那个）。同一个训练好的模型 3 月 24 号测出来 100% 成功率，到 5 月 16 号再测就降到 60%，因为机器人本身老化 + 光照变化。

这意味着今天发个 paper 说”我的策略 90% 成功率”，别的实验室复现不出来——硬件不一样、光线不一样，结果就完全不一样。没法做公平比较。

第二，真机测评不可规模化

跑一次像样的评测要烧人。文章引用 Sergey Levine 后续的论文：OpenVLA 的评测要 4 个机器人平台，跑超过 2500 次”策略回合”（一次回合 = 一次完整任务尝试），仅记录、复位场景、判断成功率这三件事就累计 100 + 小时人力。这还只是一轮评测，开发过程中要做消融实验（去掉某个组件看效果差多少）+ 多个中间 checkpoint（训练过程中的不同阶段快照）评测，这个数字要再乘几倍。

【消融实验 (ablation study)】 测试时去掉模型的某个组件（比如某层注意力 / 某个数据源 / 某个损失函数），看性能掉多少，借此判断这个组件是不是真的有用。是炼丹必备。

而机器人最终目标是通用 — 一个家用机器人要会做几千件事，要面对上千种家庭环境。靠真机一轮一轮测根本测不过来。

第三，真机测评不安全

汽车的动作空间是二维的（前后左右 + 加速度），并且天然为人类接管设计——出事时人能丝滑介入。机器人不一样——机器人要做大量 contact-rich 的工作。

【contact-rich tasks (密集接触型任务)】 需要机械臂跟物体大量物理接触的任务，比如抓取、拧转、折叠、切菜、传递重物、操刀。“接触”在物理仿真和测评里都难——力反馈、摩擦、形变都要算对。

如果策略失效，contact-rich 任务的失败可能直接产生危险——刀切到不该切的地方、重物砸下来、抓爆鸡蛋。而且评测最该认真覆盖的恰恰是这些”危险的失败案例”，但操作员在真机上最不愿意复现这些场景。这是个内置矛盾。

学界探索的两条过渡路：可规模化真机 + 仿真

在跳到世界模型之前，业界先试过两条更保守的路。

路一：让真机测评尽量自动化、规模化

代表作两个，都是 Sergey Levine 团队（这位是 UC Berkeley 教授 + Pi Robotics 联创，机器人圈最高产的一位）。

AutoEval：把”判断这一回合成功没成功” + “把场景复位回去”两件事自动化。具体做法是训练两个判别器（成功判别器 + 复位判别器）+ 一个复位策略。这样整条评测环跑起来就像算力集群一样能 24 小时排队接单——你提交一个策略，系统自己跑完，给你成功率 + 视频 + 日志。人类只在出异常时介入。

RoboArena：思路从 Chatbot Arena 借鉴来。

【Chatbot Arena】 大模型评测平台。让用户两两看两个匿名模型的输出，盲选哪个更好。最后聚合上百万次成对比较，反推出全局排名。是目前业界最公认的 LLM 排行榜方式。

RoboArena 把同样的逻辑用在机器人上——每个评测员自己挑任务、挑场景，做两两对比，再用统计方法聚合出全局排名。文章给的数据：7 所大学之间做了 612 次成对比较，跑了 4284 次评测，每个新策略只要 100 次成对比较就能在排行榜里收敛。

路二：仿真测评

仿真不是新东西。2019 年就有 RLBench、Meta-World 这样的标准任务集；后来还有 ManiSkill、LIBERO 等。

但真正的转折点是 2024 年的一篇论文 SIMPLER（也是 Sergey + Chelsea Finn 等做的）。这篇论文换了个评测仿真器好坏的 metric：

以前：仿真器画得像不像就好。 SIMPLER 之后：仿真器好不好，看它能不能预测真机排名——也就是策略 A 在仿真里赢 B、在真机上是不是也赢 B。

具体的 metric 是两个： - Mean Maximum Rank Violation（平均最大排名违反度）：一组策略在仿真里和真机里排名差了多少 - 皮尔逊相关系数 (Pearson correlation)：仿真分数和真机分数之间的相关性，1 = 完全一致，0 = 没关系

【为啥 SIMPLER 是转折点】 之前学界做仿真基本都在卷”画得像不像”——视觉真实感、物理真实感。SIMPLER 这篇论文等于一刀把问题重定义了：没人在乎像不像，在乎的是能不能用仿真预测真机里谁赢谁输。这个判断标准让整个仿真评测领域有了明确的优化目标。

之后还有 PolaRiS 这类作品——用 2D Gaussian Splatting（2D 高斯泼溅，一种用稀疏 3D 点云做场景重建的技术，比传统 NeRF 训练快很多）把任意一段视频扫描重建成 IsaacSim 里能交互的场景。文章给的数字：6 套真机+仿真的对照下，平均皮尔逊相关达 0.9。

但仿真还是有结构性天花板——布料、绳索、海绵这些柔性物体形变算不准，精细接触摩擦也算不准。这就是 sim to real gap（仿真到真实的差距）——绕不开。

世界模型作为新评测器：2025 年起的 8 个月

从 2025 年 5 月开始，整条线被点燃了。文章按时间线把主要工作串了一遍：

2025-05｜美的具身智能团队的 WorldEval——第一个把这条路跑通。技术细节： - 拿一个 14B 参数的图生视频模型 WAN 2.1 当评测引擎（WAN 是阿里通义千问出的视频生成模型） - 把策略网络里的”潜动作向量”投影成语言嵌入注入进去 - 让 Gemini-2.0 当外部判分员（看生成的视频判断成功没成功） - 跟真机分数的皮尔逊相关从手工仿真路线的 0.41 跳到 0.94

2025-06｜DeepMind + Stanford 的 WorldGym——把世界模型从”前向预测器”推到”环境”的位置。可以重置、可以采样、可以接 GPT-4o 给奖励。

2025-08｜智元的 Genie Envisioner——一个 2B 视频底座同时拆出三件：基础模型、动作头、仿真器。背后的判断很明确：视频底座可以充当机器人的统一隐空间（也就是说，机器人感知 / 动作 / 决策都可以用同一个视频生成模型来表示）。

2025-10｜Pi 的 Ctrl-World——补长时一致性，让世界模型稳定生成 20 秒以上的多视角一致视频。文章给的关键数字：用合成的成功轨迹微调，真机成功率提升 44.7%。这意味着世界模型不只是评测工具，还能反过来生成训练数据。

Google DeepMind 的 Veo 世界模拟器——做了 1600+ 次真实评测的对比验证。

1X 在 NEO 数千小时真实数据上训出的世界模型——给了一个很犀利的结论：一个准确率 70% 的世界模型，当两个策略真实成功率相差 15 个百分点时，能以 90% 概率选出更好的那个。

这是个很务实的工程数字——世界模型不需要 100% 准确，足够区分好坏就行。

这篇文章真正值钱的部分：现有世界模型路线是个安慰剂

前面这些作品作者都肯定了”方向对了”，但她紧接着抛出严厉批评：现有世界模型评测会乐观估计未来状态——也就是会把失败幻化为成功。

她给的根因是数据来源。视频生成模型预训练数据从哪来？YouTube + TikTok + 电影片段 + 网络短视频。这些数据有两个明显特点：

跟具身操作没关系——画面里见不到夹爪、见不到接触摩擦、见不到一次失败的抓取动作
商业偏向画面好看——杯子总能稳放下、盘子总能精准递出、海绵总能柔软抹过桌面

模型从这种数据里学到的是过度乐观的视觉先验 (visual prior)。

【视觉先验 (visual prior)】 视觉模型从海量图片视频学到的”画面通常应该长啥样”的隐含规律。比如它知道杯子掉地上会碎、人走路是流畅的而不是机械的，但它没见过机械臂抓鸡蛋抓爆这种 Failure Mode（失败模式），也不擅长画出来。

机器人这一行看重的恰恰相反——动作和接触关系的精确响应、控制信号的忠实表达、失败动作在画面里被诚实展示。

所以作者的判断是：机器人世界模型必须建立在机器人原生数据之上，要抛开预训练好的视频生成模型。

现有架构怎么注入动作信号 = 问题根源

为什么现有路线天生有问题？文章解释得挺细。当前世界模型大多在视频生成骨架上加动作条件。常见两种做法：

做法一：自适应层归一化调制 (Adaptive Layer Normalization, AdaLN)。 > 把动作编码成一个条件向量，再用它去调每一层视觉特征的分布。WorldGym 用的就是这个。

做法二：交叉注意力 (Cross-Attention)。 > 把动作表示成一组条件 token，让视觉 token 在生成过程中主动去读取动作信息。Ctrl-World 用的是这个。

两种本质一样：动作以”辅助条件”身份进入一个视觉主导的生成模型。

【两种 condition injection 的直觉解释】 想象一个画师在画画，然后旁边有人喊”这是抓取动作！这是放置动作！“。AdaLN 是把这些喊声写在画师每一笔的”色调指令”上，Cross-Attention 是让画师边画边听这些喊声。但画师本人已经画过几百万张漂亮画了——他的肌肉记忆里都是”画面应该流畅、动作应该到位、物体应该完好”。喊声再怎么响，也压不过画师本人的画风。

结果就是：当你给模型一条会失败的动作序列（比如”抓住杯子但夹力不够”），它倾向于生成”看起来抓住了”的画面——因为这符合它的视觉先验，而失败场景在它的训练数据里太罕见。

评测器变成安慰剂——策略明明有问题，评测器说”嗯还可以”。

dWorldEval 的解法：掩码离散扩散

WorldEval 原作者紧接着写了 dWorldEval，思路从大模型领域借鉴过来。

【背景：大模型领域的扩散统一架构】 视觉 diffusion 架构（每一步去噪并行）和语言 autoregressive 架构（一个 token 一个 token 顺序生成）训练目标 / 信息流方向 / 推理节奏都不一致。MMaDA 这个工作把文本推理 / 多模态理解 / 图像生成全部统一到同一个扩散架构下——具体方法是掩码离散扩散 (Masked Discrete Diffusion)：把每种模态都离散化成 token，然后用扩散的方式恢复被 mask 掉的 token。

dWorldEval 把视觉观测 + 语言指令 + 机器人动作三类信息全部离散化，全部放进同一个序列，用单个 transformer 的自注意力机制统一建模。

关键是地位：动作 token 和视觉 token 在序列里平等共存——没有谁是”主”谁是”辅”的关系，没有视觉先验天然占上风。这样一来，动作信号能跟视觉信号同等强度参与生成，失败场景也能被诚实展示。

文章把 dWorldEval 称为”具身原生世界模型”的开端。

拧巴的地方 / 我的怀疑

这篇文章观点犀利，但有几个地方值得带着怀疑读：

dWorldEval 的实测数据没有给。文章说原架构会”乐观估计未来状态”，dWorldEval 的解法对这个问题改进多少？文章里只讲了架构哲学，没贴对照数字（dWorldEval 在某个 benchmark 上比传统视频生成路线降低了多少 false positive？）。这是个明显的缺失，可能是出于对 dWorldEval 论文细节的尊重不抢首发，但读者会疑惑。
“机器人原生”的数据从哪来仍未解决。如果说现有路线问题在 YouTube/TikTok 数据，那”原生数据”得有量。1X 的”数千小时 NEO 数据”已经是该行业最大的私有数据集之一，但相比互联网视频是个零头。这个 bootstrap 问题文章没正面回答——是先用视频生成预训练再做”具身领域 fine-tune”，还是真的从零用机器人数据训出可比规模的模型？后者可能要好几年。
“评测器变安慰剂”的判断略激进。视频生成路线的世界模型确实会偏乐观，但 1X 给的”70% 准确率就能 90% 概率选对更好策略”——这跟”评测器是安慰剂”的判断是矛盾的。真实世界 70% 的判别力可能已经足够实用，并不需要 100% 诚实地展示失败。文章对这个张力没展开。
MMaDA 借鉴在大模型圈还属于实验性方向。掩码离散扩散把多模态统一在扩散架构下确实更优雅，但这个 paradigm 在大模型领域的工程成熟度本身还在早期（vs autoregressive 已经被 Llama / Qwen / GPT 验证过万亿 token）。把它直接搬到具身领域是双重赌注——既赌新 paradigm 在大模型领域跑通，又赌它能在具身领域 outperform 视频生成路线。

跟你已有研究的串联

这篇跟你 4-25 那份 Prana Labs 世界模型赛道速览（~/Library/CloudStorage/Dropbox/CC-files/Deals/Prana Labs/世界模型-研究-2026-04-25.md）是同一脉络的延伸。那份研究是横向地图（生成式空间智能 + 具身机器人世界模型 + 自动驾驶简略提及），这篇是纵向具体到了”评测”这个落地场景。

你那份研究里”见创始人三问”的第一问是”怎么评估？“——这篇正面回答了：当前评测范式在崩、新范式刚冒头但还不成熟。如果你以后跟世界模型方向的早期项目聊，评测路线的选择 + 是否抛开预训练视频生成 + 怎么解决具身原生数据的 bootstrap 是三个值钱的尽调问题。

信源评估

「具身纪元」公众号信号偏专业，作者 Marilyn Liu 是行业内人士（具体身份文章未披露，但行文是 insider 视角，引用一手 paper 的情况好）
引用 paper 全是真的（OpenVLA、SIMPLER、AutoEval、RoboArena、WorldEval、WorldGym、Genie Envisioner、Ctrl-World、dWorldEval、MMaDA），没有编造
弱点：对 dWorldEval 的具体数据缺失，对自家观点（评测器是安慰剂）没有给反方论证
注意：作者文末附了”加群微信”，是公众号变现常规操作，不算 red flag

sources:
  - title: "世界模型的下半场，评测与原生模型"
    url: "https://mp.weixin.qq.com/s/S4iteayvoT1ZS755JCKYKQ"
    author: "具身纪元 / Marilyn Liu"
    accessed: "2026-04-29"
source_count: 1
canonical_url: "https://mp.weixin.qq.com/s/S4iteayvoT1ZS755JCKYKQ"