对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化

晚点 LatePost / 李安琪 · 2026-04 · Original

来源：微信公众号「晚点 LatePost」/ 李安琪 | 日期：2026-04 原文：对话小马智行楼天城精读日期：2026-04-26 | 模式：讨论精读

这篇在讲什么

Pony.ai CTO 楼天城讲他们做 Robotaxi 五六年走出的技术线，以及对当下 AI 浪潮的回应。三条主线：

L4 Robotaxi 和 L2 智驾不是一回事，L2 的积累不会帮你做 L4，模仿学习永远到不了 L4
解药是世界模型 + 强化学习；2024 年是 1.0（虚拟训练场，工程师当裁判），现在是 2.0（AI 自我诊断 + 自我进化）
AI 强到工程师没法判断它好坏之后，团队在重新定义角色——“完成 AI 交给你的任务”，最稀缺的人是会驾驭 AI 的人（Harness）

选段精读（挑了 3 段，其他略过）

段 1：用 AI 当裁判 — 图灵测试反过来了

原文：

“世界模型 1.0 的出现，是大家接受了要像博士导师一样给模型创造条件。但这个阶段，裁判仍然是人……有段时间人为判断反而车开得更差了，原因是当 AI 司机的水平显著超越人之后，人类司机已经不足以判断它开的好不好了。”

“图灵测试本来是让人盲测区分人和 AI……但如果 AI 变得比人更强大了怎么办？世界模型 2.0 也是这个概念，人不能区分 AI 的驾驶能力好坏了，那就用 AI 来区分。”

楼讲的是一个具体的工程困境：AI 司机水平已经过了人的天花板，再让人来评分会把模型评退步。所以 1.0 → 2.0 的核心切换不是技术加层，是评估权的让渡——把”什么算开得好”这个判断也交给 AI。

这件事不是自动驾驶独有。LLM eval 现在面临同构问题：当一个 model 在某些任务上比标注员强，标注员的偏好数据就在拖后腿。Anthropic 用 RLAIF（AI feedback 替代人类 feedback）、Constitutional AI 走的是同一类解。Pony 把它做到了车端的物理 AI 上。

楼接着把它讲成了一个组织哲学问题——“完成 AI 交给你的任务”。这是把”AI 当裁判”从评估闭环扩展到任务分配闭环。

段 2：intention 层 vs language 层 — 物理 AI 不需要语言中间件

原文：

“L（Language）是真实世界的东西，而 I（intention）是虚拟世界的东西。在当前算力下，用 I（intention）是最好的，没有之一。”

“假如说现实世界有 4 种可能，无论概率高低，模型就始终都考虑 4 种可能下我都会是安全的，而不是在 4 种可能中选 1 个概率最大得来输出动作。”

楼把 VLA（Vision-Language-Action）里的 L 拆掉，换成 I（intention，意图）。VLA 是当下车端模型的主流叙事，小鹏 VLA 2.0 也开始去 L 中间层了。

楼的论证有两层： - 工程层：intention 是无标注的虚拟世界产物，可以无限生成；language 必须从真实世界采集，规模和清洁度都受限 - 行为层：intention 让车端模型在多重宇宙里同时为所有可能性保持安全，而不是赌单一最大概率。这是博弈论意义上的 maximin 行为

把 language 当中间表征塞进物理 AI 是 LLM 时代的惯性。楼指出：如果你的输出是物理动作不是文字，把信号绕道经过语言层是冗余的——人开车也不在脑子里翻译成”我要左转因为前面有障碍”。

段 3：Harness — AI 用得越久越退化的悖论

原文：

“我们要的是训练马的能力……但这种驾驭 AI 的能力是在几年前、在还没有 AI 的时候训练出来的。如果工作第一天就开始用 AI，我可能永远不会用这个东西。”

“我也在一些高校上课，发现学生考试成绩都是直线下降，因为大家做作业基本都拿 AI 做……我写 code 也有这种感受，用 AI 久了之后就不如原来了。”

“AI 用的好不好的人之间，原来差距可能是 120% 到 180% 的区别，但今天可能是 100 倍和负 200 倍的差别。”

楼承认了 AI native 一代面临的能力陷阱：会用 AI 的能力依赖于”曾经不会用 AI 时积累的判断力”。这是一个有时间窗口的问题——上一代工程师可以无痛迁移，下一代工程师没有”前 AI 时代经验”作为锚。

100x 与 -200x 这个区间是夸张表达，但他想说的不是数字本身：AI 把高手和不会用的人之间的产出差距从倍数级拉到了量级。在以前，差的工程师还能 50% 跟得上好的；现在差的可能在产出负价值（写出错但跑得通的代码、引入隐蔽 bug）。

楼自己的应对是：AI coding 重度使用，但有意识地”思考让 AI 怎么一步步做”，不让自己从 driver 滑成 passenger。

其他段（略读）

L4 vs L2 路线分歧：核心论点是”L4 必须把 corner case 当一等公民，L2 默认人来兜底”。Pony 的世界模型对 corner case 训练频率做精细配比（太高学生模型畏手畏脚，太低学生模型鲁莽）
scaling law 在 L4 不管用：Pony 的判断不是”scaling law 错”，而是”L4 关心的指标（接管率/事故率）对 corner case 极敏感，corner case 不会因为 scale 自动变好”。L2 可以靠 scaling，因为 capability 阈值低 + 司机兜底
20 城计划 + 卡车业务：Robotaxi 不需要做百城，做好关键城市就行；卡车（Robotruck）有安全员状态下已经单车盈利，编队是长期商业模式
特斯拉 Robotaxi 评价：楼直接说”数量没起来，事故率也没比人开车好多少”。冷静且有数据支撑的同行评论
终局：用世界模型理解微观物理（量子干涉、玻色子）——“我一直坚持，我们的世界是个虚拟世界”。这段是访谈最 sci-fi 的部分，楼自己也说”我不知道我有没有机会能 touch 到它”

直说几个拧巴的地方

AI 当裁判的可靠性边界：楼用”AI 远比人好”一句带过，但这是循环论证——AI 当裁判的前提是已经知道 AI 比人好，可”AI 比人好”本身正是裁判要回答的问题。Pony 实际靠的是 1 万小时统计 + 真实路上接管率反推，这个反馈链条没在文中说清
“L2 积累不帮 L4”略激进：传感器供应链、车规级量产、整车工程，这些 L2 厂商有积累；楼说的是模型层面，但读者容易扩大解读
intention vs language 的长期判断：楼自己承认”基于长期算力我说不准 intention 能不能活到最后”。访谈整体偏 Pony 视角的胜利叙事

Discussion 补充（2026-04-26）

讨论范围：段 3 退化论 + 段 2 intention vs language。讨论后 discussion_added: 2026-04-26。

段 3｜退化论的展开

讨论中把楼那段压缩信息拆成 4 层：

技能萎缩（atrophy） — 长期不练的肌肉会缩。GPS/计算器类比。最浅一层
判断力依赖于”曾经亲手做过” — 评估 AI 输出的能力来自亲手踩过坑的经验。Harness 比喻的本意：马鞍是给会骑马的人设计的
“-200x” 的真意 — 不是产出少，是产出有毒。会跑通但有 bug 的代码、看似合理但事实错的论证、隐蔽技术债。AI 把”看起来在产出”和”实际有价值”之间的相关性破坏了
时间窗口问题 — 楼自己（80后/90初）享受 pre-AI + AI 双重红利；AI native 一代没有”前 AI 时代”可练基本功。开放问题

Justin 的回应

Justin 认同楼的观点，并精确指出最关键的非对称：

“AI 变强了之后，很多人就失去了获取这部分能力的机会。”

并保持开放：教育/培训会不会转过来，他说不好。“剧烈变革的时代”。

Claude 的延伸

历史对比：印刷术/计算器/搜索引擎都给了新的能力上限（老技能弱了但新天花板高了）；AI 不一样，它替代了那个原本会练出判断力的过程。判断力是涌现的，不是教出来的——必须自己踩坑、被打脸、撤回设计才能长出来
重训路径的两种方案：
- 机构方案：刻意”禁用 AI”训练阶段（像数学课禁计算器）。问题：必须靠考试/学位的强制性，进职场就崩了
- 市场方案：靠失败反馈淘汰用废的人。问题：反馈很慢，可能要一代人撞墙才形成共识
当下大家都在裸泳，只是潮还没退。可能要十年以上才能稳定下来”哪些必须自己练、哪些可以全交 AI”

段 2｜intention vs language 的”偷换概念”

在讨论中提出：楼讲 L 没用、I 才对，但他在偷换概念。

VLA 里 L 名义上是”语言中间表征”，但实际功能是借用 LLM 预训练学到的世界常识当桥梁
消防车例子：VLA 借 LLM 知道”消防车要让”是免费的；Pony 的 simulator 必须先被工程师告知”消防车存在 + 让路规则”才能生成训练场景
所以楼的真正主张不是”L 没用”，而是“借 LLM 常识”是冗余的——这是更大的 bet
Pony 这条路要赢，前提是 simulator 能 enumerate 所有需要的世界常识（消防车/校车/葬礼/抗议/节假日/跨地域规范）。这是个很重的工程负担
楼访谈里没把这层讲透。诚实承认”基于长期算力我说不准 I 能不能活到最后”，但没把这个 bet 的具体代价说清

Justin 没明确表态此段，主动收尾”就这样吧”。

没触发的升级

讨论中没出现 Lens 定义的强信号（矛盾消解 / 新模式 / 升维认知 / 反例 / 概念关联）需要写进 mental-models.md。Justin 对退化论的回应是确认而非新模式命名；intention vs language 段的”L 偷换概念”分析是 Claude 的 own observation 而非 Justin 命名的可复用框架。不触发 mental-models 回写。

升级 research 建议

讨论中没出现”用户核心问题没被回答 / 反面观点缺失 / 关键证据没看到”的明确知识盲区。Pony 的世界模型 2.0 的具体技术细节、世界模型赛道整体格局，Justin 已有 Prana Labs 那条线的 research 笔记可参考。不建议升级 research。

信源评估

晚点 LatePost 是国内一手访谈类媒体优质账号，李安琪是其自动驾驶口主笔。访谈类型为长对谈、CTO 直接开口，信息密度高
利益相关：访谈对象是 Pony 高层，整体偏正面叙事；对竞品的判断需要交叉验证
没有 Pony 内部数据披露（接管率、事故率、Robotaxi 单量），所有量化判断都是定性

延伸阅读建议

同主题横向地图：参考 ~/Library/CloudStorage/Dropbox/CC-files/Deals/Prana Labs/世界模型-研究-2026-04-25.md（投资视角的世界模型赛道速览）
概念配套：~/CC/Knowledge/topics/world-model-spatial-intelligence.md（生成式空间智能 + 具身机器人世界模型）

sources:
  - title: "对话小马智行楼天城：驯服脱缰的野马，让 AI 自我进化"
    url: "https://mp.weixin.qq.com/s/flCEiSiAhDuEbdRUd_S6qw"
    author: "晚点 LatePost / 李安琪"
    accessed: "2026-04-26"
source_count: 1
canonical_url: "https://mp.weixin.qq.com/s/flCEiSiAhDuEbdRUd_S6qw"
citation_block: v1
discussion_added: "2026-04-26"