世界模型的下半场,评测与原生模型(新规则下精读 v2)
来源:微信公众号「具身纪元」/ Marilyn Liu | 2026-04-29 原文:世界模型的下半场,评测与原生模型 精读日期:2026-04-29 | 模式:Standard(新版 learning skill 规则)
核心主张
机器人领域的”模型评测”——也就是怎么判断一个机器人策略好不好——正在从”真机测评”转向”世界模型评测”。但这件事必须用具身原生的世界模型来做,而不是把视频生成模型(比如训练 Sora 那类的)改造一下来当评测器。后者会系统性地把失败幻化为成功,变成安慰剂。
起点:自动驾驶 7-8 年前走过同样的路
作者一开篇就把机器人评测的问题对标到自动驾驶。
RAND 2016 年那个数字:要靠真实路测证明自动驾驶比人类司机安全,需要 88-110 亿英里的零致命事故里程。换算下来当时的车队规模要跑几百年。靠跑真车证明安全这条路根本走不通。
所以自动驾驶走出了闭环仿真这条路——“闭环”的意思是感知(看路)、决策(怎么开)、控制(油门刹车方向盘)全部在仿真里跑一遍,不是只仿一段感知就停。代表作品:Waymo 的 Carcraft、NVIDIA 的 DRIVE Sim。把真实里的一段路况参数化,再生成几千几万个变体,测试效率比真车跑高几个数量级。
但仿真有上限:物理引擎对行人意图、复杂博弈、雨雾光线的还原终归不够真。所以再往后,世界模型成了评测核心。
【世界模型 (world model) 是啥】 简化讲:一个能给定”当前状态 + 动作”就预测出”下一帧画面 / 下一个状态”的模型。视频生成是它的近亲——Sora 之类的看起来在生成有趣的视频,本质上也是在学世界的下一帧分布。自动驾驶的世界模型是把这种能力当成虚拟测试场:你的车端模型决策”右转”,世界模型告诉你右转后路上发生啥(其他车怎么动、行人怎么反应),不需要真车上路就能看到结果。
代表作品: - Wayve 的 GAIA 系列——英国自动驾驶公司 Wayve 自家的世界模型 - Tesla 的世界模型——特斯拉 FSD 团队基于自己采集的庞大行车视频训出来的 - 学术上:Bench2Drive-R / Vista / WoTE 等
文章给了一句小结:自动驾驶的评测演化到最后,世界模型成了核心基础设施。
机器人比自动驾驶处境更糟,原因有三
作者列了一个”评测三角”:好的评测要同时满足准确 + 可规模化 + 安全。机器人的真机测评在三件事上都崩。
第一,真机测评不可重复
【为什么不可重复】 机器人的策略对环境太敏感——光照变了、相机角度偏了一点、机械臂关节磨损了一点,跑出来的成功率就会差很多。
文章给了两个具体例子:
- OpenVLA-OFT(一个开源的视觉-语言-动作模型,来自 Sergey Levine 团队)。在它的官网 QA 里作者自己坦言:随着时间推移,所有方法的性能都出现了显著下降,原因是”硬件相关的分布变化”——腕部摄像头视角的微小变化、机器人关节的轻微磨损这些都会影响动力学。
- 1X(人形机器人公司,做 NEO 那个)。同一个训练好的模型 3 月 24 号测出来 100% 成功率,到 5 月 16 号再测就降到 60%,因为机器人本身老化 + 光照变化。
这意味着今天发个 paper 说”我的策略 90% 成功率”,别的实验室复现不出来——硬件不一样、光线不一样,结果就完全不一样。没法做公平比较。
第二,真机测评不可规模化
跑一次像样的评测要烧人。文章引用 Sergey Levine 后续的论文:OpenVLA 的评测要 4 个机器人平台,跑超过 2500 次”策略回合”(一次回合 = 一次完整任务尝试),仅记录、复位场景、判断成功率这三件事就累计 100 + 小时人力。这还只是一轮评测,开发过程中要做消融实验(去掉某个组件看效果差多少)+ 多个中间 checkpoint(训练过程中的不同阶段快照)评测,这个数字要再乘几倍。
【消融实验 (ablation study)】 测试时去掉模型的某个组件(比如某层注意力 / 某个数据源 / 某个损失函数),看性能掉多少,借此判断这个组件是不是真的有用。是炼丹必备。
而机器人最终目标是通用 — 一个家用机器人要会做几千件事,要面对上千种家庭环境。靠真机一轮一轮测根本测不过来。
第三,真机测评不安全
汽车的动作空间是二维的(前后左右 + 加速度),并且天然为人类接管设计——出事时人能丝滑介入。机器人不一样——机器人要做大量 contact-rich 的工作。
【contact-rich tasks (密集接触型任务)】 需要机械臂跟物体大量物理接触的任务,比如抓取、拧转、折叠、切菜、传递重物、操刀。“接触”在物理仿真和测评里都难——力反馈、摩擦、形变都要算对。
如果策略失效,contact-rich 任务的失败可能直接产生危险——刀切到不该切的地方、重物砸下来、抓爆鸡蛋。而且评测最该认真覆盖的恰恰是这些”危险的失败案例”,但操作员在真机上最不愿意复现这些场景。这是个内置矛盾。
学界探索的两条过渡路:可规模化真机 + 仿真
在跳到世界模型之前,业界先试过两条更保守的路。
路一:让真机测评尽量自动化、规模化
代表作两个,都是 Sergey Levine 团队(这位是 UC Berkeley 教授 + Pi Robotics 联创,机器人圈最高产的一位)。
AutoEval:把”判断这一回合成功没成功” + “把场景复位回去”两件事自动化。具体做法是训练两个判别器(成功判别器 + 复位判别器)+ 一个复位策略。这样整条评测环跑起来就像算力集群一样能 24 小时排队接单——你提交一个策略,系统自己跑完,给你成功率 + 视频 + 日志。人类只在出异常时介入。
RoboArena:思路从 Chatbot Arena 借鉴来。
【Chatbot Arena】 大模型评测平台。让用户两两看两个匿名模型的输出,盲选哪个更好。最后聚合上百万次成对比较,反推出全局排名。是目前业界最公认的 LLM 排行榜方式。
RoboArena 把同样的逻辑用在机器人上——每个评测员自己挑任务、挑场景,做两两对比,再用统计方法聚合出全局排名。文章给的数据:7 所大学之间做了 612 次成对比较,跑了 4284 次评测,每个新策略只要 100 次成对比较就能在排行榜里收敛。
路二:仿真测评
仿真不是新东西。2019 年就有 RLBench、Meta-World 这样的标准任务集;后来还有 ManiSkill、LIBERO 等。
但真正的转折点是 2024 年的一篇论文 SIMPLER(也是 Sergey + Chelsea Finn 等做的)。这篇论文换了个评测仿真器好坏的 metric:
以前:仿真器画得像不像就好。 SIMPLER 之后:仿真器好不好,看它能不能预测真机排名——也就是策略 A 在仿真里赢 B、在真机上是不是也赢 B。
具体的 metric 是两个: - Mean Maximum Rank Violation(平均最大排名违反度):一组策略在仿真里和真机里排名差了多少 - 皮尔逊相关系数 (Pearson correlation):仿真分数和真机分数之间的相关性,1 = 完全一致,0 = 没关系
【为啥 SIMPLER 是转折点】 之前学界做仿真基本都在卷”画得像不像”——视觉真实感、物理真实感。SIMPLER 这篇论文等于一刀把问题重定义了:没人在乎像不像,在乎的是能不能用仿真预测真机里谁赢谁输。这个判断标准让整个仿真评测领域有了明确的优化目标。
之后还有 PolaRiS 这类作品——用 2D Gaussian Splatting(2D 高斯泼溅,一种用稀疏 3D 点云做场景重建的技术,比传统 NeRF 训练快很多)把任意一段视频扫描重建成 IsaacSim 里能交互的场景。文章给的数字:6 套真机+仿真的对照下,平均皮尔逊相关达 0.9。
但仿真还是有结构性天花板——布料、绳索、海绵这些柔性物体形变算不准,精细接触摩擦也算不准。这就是 sim to real gap(仿真到真实的差距)——绕不开。
世界模型作为新评测器:2025 年起的 8 个月
从 2025 年 5 月开始,整条线被点燃了。文章按时间线把主要工作串了一遍:
2025-05|美的具身智能团队的 WorldEval——第一个把这条路跑通。技术细节: - 拿一个 14B 参数的图生视频模型 WAN 2.1 当评测引擎(WAN 是阿里通义千问出的视频生成模型) - 把策略网络里的”潜动作向量”投影成语言嵌入注入进去 - 让 Gemini-2.0 当外部判分员(看生成的视频判断成功没成功) - 跟真机分数的皮尔逊相关从手工仿真路线的 0.41 跳到 0.94
2025-06|DeepMind + Stanford 的 WorldGym——把世界模型从”前向预测器”推到”环境”的位置。可以重置、可以采样、可以接 GPT-4o 给奖励。
2025-08|智元的 Genie Envisioner——一个 2B 视频底座同时拆出三件:基础模型、动作头、仿真器。背后的判断很明确:视频底座可以充当机器人的统一隐空间(也就是说,机器人感知 / 动作 / 决策都可以用同一个视频生成模型来表示)。
2025-10|Pi 的 Ctrl-World——补长时一致性,让世界模型稳定生成 20 秒以上的多视角一致视频。文章给的关键数字:用合成的成功轨迹微调,真机成功率提升 44.7%。这意味着世界模型不只是评测工具,还能反过来生成训练数据。
Google DeepMind 的 Veo 世界模拟器——做了 1600+ 次真实评测的对比验证。
1X 在 NEO 数千小时真实数据上训出的世界模型——给了一个很犀利的结论:一个准确率 70% 的世界模型,当两个策略真实成功率相差 15 个百分点时,能以 90% 概率选出更好的那个。
这是个很务实的工程数字——世界模型不需要 100% 准确,足够区分好坏就行。
这篇文章真正值钱的部分:现有世界模型路线是个安慰剂
前面这些作品作者都肯定了”方向对了”,但她紧接着抛出严厉批评:现有世界模型评测会乐观估计未来状态——也就是会把失败幻化为成功。
她给的根因是数据来源。视频生成模型预训练数据从哪来?YouTube + TikTok + 电影片段 + 网络短视频。这些数据有两个明显特点:
- 跟具身操作没关系——画面里见不到夹爪、见不到接触摩擦、见不到一次失败的抓取动作
- 商业偏向画面好看——杯子总能稳放下、盘子总能精准递出、海绵总能柔软抹过桌面
模型从这种数据里学到的是过度乐观的视觉先验 (visual prior)。
【视觉先验 (visual prior)】 视觉模型从海量图片视频学到的”画面通常应该长啥样”的隐含规律。比如它知道杯子掉地上会碎、人走路是流畅的而不是机械的,但它没见过机械臂抓鸡蛋抓爆这种 Failure Mode(失败模式),也不擅长画出来。
机器人这一行看重的恰恰相反——动作和接触关系的精确响应、控制信号的忠实表达、失败动作在画面里被诚实展示。
所以作者的判断是:机器人世界模型必须建立在机器人原生数据之上,要抛开预训练好的视频生成模型。
现有架构怎么注入动作信号 = 问题根源
为什么现有路线天生有问题?文章解释得挺细。当前世界模型大多在视频生成骨架上加动作条件。常见两种做法:
做法一:自适应层归一化调制 (Adaptive Layer Normalization, AdaLN)。 > 把动作编码成一个条件向量,再用它去调每一层视觉特征的分布。WorldGym 用的就是这个。
做法二:交叉注意力 (Cross-Attention)。 > 把动作表示成一组条件 token,让视觉 token 在生成过程中主动去读取动作信息。Ctrl-World 用的是这个。
两种本质一样:动作以”辅助条件”身份进入一个视觉主导的生成模型。
【两种 condition injection 的直觉解释】 想象一个画师在画画,然后旁边有人喊”这是抓取动作!这是放置动作!“。AdaLN 是把这些喊声写在画师每一笔的”色调指令”上,Cross-Attention 是让画师边画边听这些喊声。但画师本人已经画过几百万张漂亮画了——他的肌肉记忆里都是”画面应该流畅、动作应该到位、物体应该完好”。喊声再怎么响,也压不过画师本人的画风。
结果就是:当你给模型一条会失败的动作序列(比如”抓住杯子但夹力不够”),它倾向于生成”看起来抓住了”的画面——因为这符合它的视觉先验,而失败场景在它的训练数据里太罕见。
评测器变成安慰剂——策略明明有问题,评测器说”嗯还可以”。
dWorldEval 的解法:掩码离散扩散
WorldEval 原作者紧接着写了 dWorldEval,思路从大模型领域借鉴过来。
【背景:大模型领域的扩散统一架构】 视觉 diffusion 架构(每一步去噪并行)和语言 autoregressive 架构(一个 token 一个 token 顺序生成)训练目标 / 信息流方向 / 推理节奏都不一致。MMaDA 这个工作把文本推理 / 多模态理解 / 图像生成全部统一到同一个扩散架构下——具体方法是掩码离散扩散 (Masked Discrete Diffusion):把每种模态都离散化成 token,然后用扩散的方式恢复被 mask 掉的 token。
dWorldEval 把视觉观测 + 语言指令 + 机器人动作三类信息全部离散化,全部放进同一个序列,用单个 transformer 的自注意力机制统一建模。
关键是地位:动作 token 和视觉 token 在序列里平等共存——没有谁是”主”谁是”辅”的关系,没有视觉先验天然占上风。这样一来,动作信号能跟视觉信号同等强度参与生成,失败场景也能被诚实展示。
文章把 dWorldEval 称为”具身原生世界模型”的开端。
拧巴的地方 / 我的怀疑
这篇文章观点犀利,但有几个地方值得带着怀疑读:
dWorldEval 的实测数据没有给。文章说原架构会”乐观估计未来状态”,dWorldEval 的解法对这个问题改进多少?文章里只讲了架构哲学,没贴对照数字(dWorldEval 在某个 benchmark 上比传统视频生成路线降低了多少 false positive?)。这是个明显的缺失,可能是出于对 dWorldEval 论文细节的尊重不抢首发,但读者会疑惑。
“机器人原生”的数据从哪来仍未解决。如果说现有路线问题在 YouTube/TikTok 数据,那”原生数据”得有量。1X 的”数千小时 NEO 数据”已经是该行业最大的私有数据集之一,但相比互联网视频是个零头。这个 bootstrap 问题文章没正面回答——是先用视频生成预训练再做”具身领域 fine-tune”,还是真的从零用机器人数据训出可比规模的模型?后者可能要好几年。
“评测器变安慰剂”的判断略激进。视频生成路线的世界模型确实会偏乐观,但 1X 给的”70% 准确率就能 90% 概率选对更好策略”——这跟”评测器是安慰剂”的判断是矛盾的。真实世界 70% 的判别力可能已经足够实用,并不需要 100% 诚实地展示失败。文章对这个张力没展开。
MMaDA 借鉴在大模型圈还属于实验性方向。掩码离散扩散把多模态统一在扩散架构下确实更优雅,但这个 paradigm 在大模型领域的工程成熟度本身还在早期(vs autoregressive 已经被 Llama / Qwen / GPT 验证过万亿 token)。把它直接搬到具身领域是双重赌注——既赌新 paradigm 在大模型领域跑通,又赌它能在具身领域 outperform 视频生成路线。
跟你已有研究的串联
这篇跟你 4-25 那份 Prana Labs
世界模型赛道速览(~/Library/CloudStorage/Dropbox/CC-files/Deals/Prana Labs/世界模型-研究-2026-04-25.md)是同一脉络的延伸。那份研究是横向地图(生成式空间智能
+ 具身机器人世界模型 +
自动驾驶简略提及),这篇是纵向具体到了”评测”这个落地场景。
你那份研究里”见创始人三问”的第一问是”怎么评估?“——这篇正面回答了:当前评测范式在崩、新范式刚冒头但还不成熟。如果你以后跟世界模型方向的早期项目聊,评测路线的选择 + 是否抛开预训练视频生成 + 怎么解决具身原生数据的 bootstrap 是三个值钱的尽调问题。
信源评估
- 「具身纪元」公众号信号偏专业,作者 Marilyn Liu 是行业内人士(具体身份文章未披露,但行文是 insider 视角,引用一手 paper 的情况好)
- 引用 paper 全是真的(OpenVLA、SIMPLER、AutoEval、RoboArena、WorldEval、WorldGym、Genie Envisioner、Ctrl-World、dWorldEval、MMaDA),没有编造
- 弱点:对 dWorldEval 的具体数据缺失,对自家观点(评测器是安慰剂)没有给反方论证
- 注意:作者文末附了”加群微信”,是公众号变现常规操作,不算 red flag
sources:
- title: "世界模型的下半场,评测与原生模型"
url: "https://mp.weixin.qq.com/s/S4iteayvoT1ZS755JCKYKQ"
author: "具身纪元 / Marilyn Liu"
accessed: "2026-04-29"
source_count: 1
canonical_url: "https://mp.weixin.qq.com/s/S4iteayvoT1ZS755JCKYKQ"