← All Articles

工程技术:在智能体优先的世界中利用 Codex

OpenAI Engineering / Ryan Lopopolo · 2026-03-11 · Original

来源: OpenAI Engineering / Ryan Lopopolo | 日期: 2026-02-11 原文: 工程技术:在智能体优先的世界中利用 Codex 精读日期: 2026-03-11

一句话总结

OpenAI 内部团队用 Codex 从零构建了一个百万行代码的产品(人类零行代码),核心发现是:工程师的价值从”写代码”转移到了”设计让 agent 能成功的环境”。

核心内容

实验设定与成果

3 名工程师,5 个月,从空 Git 仓库开始,所有代码由 Codex 生成——包括应用逻辑、测试、CI、文档、内部工具、可观测性配置。核心纪律:不手动编写代码

指标 数据
代码量 ~100 万行
PR 数量 ~1,500 个
团队规模 3→7 人
人均日 PR 3.5 个(扩到 7 人后更高)
效率估算 手写的 ~1/10 时间
用户 数百名内测用户,含日活高级用户

工程师角色重定义

人类不写代码后,工作重心转向系统、架构和杠杆。早期进展慢不是 agent 不行,而是环境规范不够明确——agent 缺乏完成高级目标所需的工具和抽象层。

工作模式变为深度优先:拆解目标 → 提示 agent 构建模块 → 用模块解锁更复杂任务。当事情不顺,解法不再是”再努力一点”,而是”还缺什么能力,怎么让它对 agent 清晰可读?”

AGENTS.md:地图而非百科全书

一个大型 AGENTS.md 失败的四个原因:

  1. 情境是稀缺资源 — 巨大指令文件挤掉了任务和代码的空间
  2. 过多指导反而无效 — 当一切都”重要”时,一切都不重要
  3. 立即腐烂 — 庞杂手册变成陈旧规则的坟场
  4. 难以核实 — 单个 blob 无法机械检查覆盖率和新鲜度

正确做法:~100 行的 AGENTS.md 当目录,指向 docs/ 下的结构化知识库。包括设计文档(带索引和验证状态)、执行计划(活跃/已完成/技术债)、架构文档、产品规格等。实现渐进式披露:agent 从小而稳定的切入点开始,被指导下一步去哪看。

用 linter 和 CI 严格验证知识库的更新状况。一个定期运行的”doc-gardening” agent 扫描过时文档并发修复 PR。

Agent 看不到的就不存在

存在 Google Docs、Slack 聊天、人脑中的知识对 agent 不可见。那次让团队在架构上达成一致的 Slack 讨论?如果 agent 发现不了,就像迟了三个月入职的新员工。解法:所有重要信息必须以 Markdown 形式编码到仓库中。

让应用对 agent 可读

用约束而非微观管理

通过强制执行不变量保持连贯性,而非管具体实现。例如要求”在边界处解析数据形状”,但不规定用什么库(agent 偏好 Zod)。

严格的分层架构:Types → Config → Repo → Service → Runtime → UI。横切关注点通过单一 Providers 接口进入。自定义 linter(Codex 生成)和结构测试机械化执行,错误信息里嵌入修复指令。

关键洞察:“对人类觉得迂腐的规则,对 agent 是乘法器——一旦编码,立即应用于所有地方。”

同时明确不限制的地方:在边界内允许 agent 自主选择解决方案。生成的代码不总符合人类风格偏好,但只要正确、可维护、对未来 agent 可读,就算达标。

吞吐量改变合并理念

PR 生命周期短,尽量减少阻塞合并门。偶发测试失败通过后续重跑解决而非无限期阻碍。在 agent 吞吐量远超人类注意力的系统中,纠错成本低,等待成本高

Agent 已能端到端工作

给定一个提示,agent 可以:验证现状 → 复现 bug → 录视频 → 实施修复 → 验证修复 → 录第二个视频 → 开 PR → 响应反馈 → 修构建 → 合并。仅需要人类判断时才上报。

熵与垃圾回收

Agent 会复现仓库中已有的模式——包括不好的。最初每周五人工清理”AI 残渣”——不可扩展。改为将”黄金原则”编码到仓库,定期跑后台 Codex 任务扫描偏差、更新质量评分、发重构 PR。大多数一分钟内审完自动合并。

类比:技术债是高息贷款,小额持续偿还比积累后痛苦清算好得多。

金句摘录

Justin 视角

对投资判断的参考价值

  1. “Agent-native 工程”正在形成新范式 — 这不是用 AI 辅助写代码,而是从零重建软件工程方法论。投 AI infra/devtool 赛道时,要看项目是在”增强人类写代码”还是在”构建 agent 能成功的环境”,后者是更大的范式转移。

  2. 开发者工具市场将重塑 — 文中提到 agent 偏好”枯燥技术”(API 稳定、训练集表现好),甚至宁可自己重写也不用不透明的上游库。这意味着 npm 生态里大量”方便人类”的包可能被 agent-native 替代品取代。新的 devtool 投资逻辑:对 agent 可读性 > 对人类易用性

  3. 可观测性赛道利好 — agent 需要比人类更丰富的运行时反馈(日志、指标、追踪),而且是程序化消费而非看 dashboard。Datadog/Grafana 类产品需要 agent-first 的 API 层。

与当前工作的关联

可行动的 takeaway

延伸阅读