← All Articles

Karpathy × Sarah Guo: Skill Issue — Code Agents, AutoResearch, and the Loopy Era of AI 精读

No Priors (Sarah Guo & Elad Gil) × Andrej Karpathy · Original

Justin 关注点:loopy era 框架 / autoresearch 定位 / program.md 范式。全篇 ~15k words,按这三个主轴挑段讲,其他跳过。

一句话总览

Karpathy 自 2025 年 12 月起几乎不手写代码,进入”16 小时/天 express will to agents”状态。他把当前 AI 工具使用问题全归因为 “skill issue”——能力已到位,是人不会串。autoresearch 是他对”如何把自己从 loop 里移除”这个元问题的最小可跑答案;program.md 是他对”研究组织的可编程化”的第一次尝试。

Segment 1: 人类瓶颈的三次切换

原文:

“what is your token throughput and what token throughput do you command? … we had at least 10 years where in many engineering tasks people just didn’t feel compute bound … now that you have this big capability jump you’re like oh actually it’s not my ability to access the compute anymore—I’m the binding constraint. It’s a skill issue.”

三次跳:打字速度 → 订阅/算力 → 自己

Karpathy 类比他 PhD 时期的 GPU utilization anxiety:GPU 没跑满就焦虑。现在这个焦虑迁移到 token:订阅额度没用完 = 没有最大化 token throughput = 自己拖了系统后腿。

“Skill issue” 这个词不是口嗨。精确含义是:所有 agent 失败的第一归因都应该是”我没配好”(agents.md 写得不够好 / memory tool 没装对 / parallelization 没搞懂),而不是”模型不行”。这个态度把失败责任锚定在自己身上,推动人持续迭代工作方式。

Peter Steinbach(OpenClaw 作者)那个照片他反复提——一个人面对多屏、每屏跑一个 codex agent、每个 agent 20 分钟完成一个任务、10 个 repo 轮转。这是 Karpathy 眼中的”mastery”画面:人不是 coder 了,是 agent orchestra 的指挥。

Segment 2: AutoResearch — 两个 decade 被一晚打脸

核心实验:Karpathy 用自己调了 2 年多、手工跑过数千次实验的 nanochat repo,扔给 autoresearch 跑一晚。

“I have two decades of ‘oh I’ve trained this model thousands of times’ … I thought it was fairly well tuned and then I let auto research go for overnight and it came back with tunings that I didn’t see. I did forget the weight decay on the value embeddings and my Adam betas were not sufficiently tuned—and these things jointly interact.”

具体两个发现:

  1. value embeddings 忘了加 weight decay(人的 oversight)
  2. Adam betas 和 weight decay 耦合——改一个另一个要跟着动

第二点是关键。人类研究者一次只调一个旋钮(脑子装不下联合分布),agent 可以承受”笨办法穷举联合变量”的摩擦成本。这不是 agent 比人聪明,是 agent 不怕做重复劳动。

适用边界他自己说得很清楚:

“this is extremely well suited to anything that has objective metrics that are easy to evaluate … if you can’t evaluate then you can’t auto research it.”

Fit 的:CUDA kernel 重写(行为不变、只要更快)、超参搜索、材料科学(periodic.com 的例子)、folding proteins。 不 fit 的:任何需要主观判断的任务——“这个 agent memory 方案好不好”没 metric 就没法 autoresearch。

Segment 3: Program.md = 研究组织的可编程化

这段是 Karpathy 明着说的 mental model 升级,对搭 skill 系统的人最直接:

“every research organization is described by program MD. A research organization is a set of markdown files that describe all the roles and how the whole thing connects … you can imagine having a better research organization. Maybe they do fewer stand-ups in the morning because they’re useless. And this is all just code.”

翻译一下他的断言:

Sarah Guo 追问:“谁来写比你更好的 program.md?”Karpathy 给的机制:

“Let people write different program MDs. For same hardware, where do you get most improvement? Take all that data and give it to the model and say write a better program MD.”

这是 meta-optimization 的具体实现:

他最后的”onion layers”总结:LLM → agent → Claude-like entity → 多 Claude → 对 Claude 的指令 → 对指令的优化。每多一层就把上一层当成 primitive,不再重新设计。这是”everything is skill issue, and skills are infinite”的完整形式。

Segment 4: Untrusted Pool + FLOPS 当货币

愿景部分——SETI@home / folding@home 模式推广到 autoresearch:

“lots of companies could have their own things they care about, and if you have compute capacity you could contribute … maybe you care about cancer … instead of donating money to an institution you could purchase compute and join the auto research pool for that project … It’s almost like dollars is the thing everyone cares about, but is FLOP the thing that actually everyone cares about in the future?”

机制:任何”难找、易验证”的问题都能开放给不可信算力池

他把这个和 blockchain 类比了一下,但明确说”不想把类比推太远”——核心是”expensive to search, cheap to verify” 这类问题的天然 fit。

最后那句自己没想透的话值得记:“不是 dollars 是 flops”。当 compute 比 cash 稀缺,稀缺资源决定权力结构。这不是预言,是 Karpathy 在承认自己看不清。

一处拧巴(作者没解决的矛盾)

Sarah Guo 直接问:“你认为 autoresearch 这么重要,Noam Brown 那种人就该去 OpenAI 做——你自己为什么不?”

Karpathy 的回答分三段,自相矛盾:

  1. frontier lab 内部 alignment 有问题:财务激励让你不能完全自由说话,“there are certain things you can’t say”
  2. 马上反转:在外面我的 judgment 会不可避免地 drift,因为接触不到 frontier 真实在发生什么
  3. 结论摆烂:理想方式是”来回跳”

这不是 mental model,是没解决的心理斗争。但对外部观察者(投资人、分析师、独立研究者)有用的是——他亲口承认”在 frontier lab 外的人会丢失 frontier 信号”。任何靠 cold observation 做 AI 判断的角色都有这个结构性问题。他这里承认得比绝大多数离职员工诚实。

其他值得一提但没展开的点

对 Justin 的净增量

跟第一轮我给的判断对上了(program.md 范式复用 + 投研信号),再加两块:

1. Skill 二阶化是真实机会

你现在的 .claude/skills/ 是一阶——告诉 agent 怎么做事。Karpathy 提示二阶空间存在:让 agent 改进 skill 文档本身

具体可做的是:任何跑过 N 次、有 log 可比的 skill(比如 research hub / deep-read),理论上可以:

不急做,但作为 mental model 留着。下次你发现某个 skill 调着调着越改越乱时,考虑跳到 meta 层做对照实验。

2. 投研信号(比第一轮更具体)

Karpathy 刚离职 OpenAI,他亲口说 frontier lab 正在做的事是”把 researcher 移出 loop”。这比估值故事更可信——他知道内部在做什么,又没到泄密程度。含义:

Discussion 触发点(可选)

如果想继续聊,几个方向可以挖:

  1. Karpathy 说 “speciation 没发生是因为 fine-tune 科学不成熟”——这个论断对不对?Apple、Adept、Cohere 等做领域模型的失败案例支撑这个论断吗?
  2. program.md 二阶优化的实际路径——你愿不愿意拿自己 skill 系统做个小实验?
  3. “在 lab 外 judgment 会 drift” 这个诚实承认,对投资方意味着什么?有没有办法减轻这个信号衰减?