The Era of Agent:拾象 AGI 投资洞察
拾象(海外独角兽)的最新 AGI 报告,写作于 2026 年 4 月。覆盖四个板块:Coding Agent 成为最强共识、AI Labs 进入组织文化竞争、Agent Playbook(新经济分类法)、硅谷前沿趋势(Robotics + Neo Labs)。
本文是公众号版概览,完整报告需下载 PDF,公众号版已经覆盖核心论点和框架。
一、Coding Agent 是科技史上增速最快的新物种
数字:AI Coding 的 ARR 预计 2026 年突破 1000 亿美元
拾象给出的判断是:Coding Agent 不是 chat 的产品升级,而是一个全新物种。他们用了一个类比——chat 像今日头条(信息流分发),Coding Agent 像抖音(把刺激和沉浸做到极致)。Chat 让智能可以交互,Agent 则是通过多轮、长程任务把刺激放大。
Anthropic 将凭借 Claude Code 的势能在今年年中追平 OpenAI 的 ARR。 这是一个很强的判断——如果属实,意味着 Anthropic 用一款 coding 产品就追上了 OpenAI 多年的 C 端积累。
Opus 4.5 的发布被认为是关键拐点。拾象说它”虽然发布时没引起特别多讨论”,但本质是一个类似 GPT-3 到 GPT-4 的跨代际模型——让大众真正从 chat 模式切换到 agent 模式。
为什么所有 AI Labs 都要下注 Coding
拾象给了四个原因,每个都值得展开:
1. 数字世界的任务几乎都可以用代码表达和实现。 如果代码能覆盖白领在电脑上的绝大多数操作,那做好 Coding Agent = 白领工作大规模自动化,无需等新范式突破。
2. Coding 能力提升让 AI Labs 直接受益。 Anthropic 在 Opus 4.6 的博客里提到,Coding Agent 辅助下,AI Labs 自身的产品和模型开发都在明显加速。这形成了一个自我强化的循环——做好 Coding Agent → AI Labs 自己变快 → 做出更好的 Coding Agent。
3. “知识工作大规模自动化”已经在 AI Labs 内部实现,甚至成为竞争工具。 没有领先的 Coding model = 没有领先的 GPU,研发和生产力系统都会系统性落后。
4. Coding 的反馈回路是所有 AI 任务中最短、最清晰的。 用户会持续追问直到问题解决,每一步交互都自然产生可用于训练的信号。天然飞轮。
拾象的总结:Coding Agent 一旦真正跑通,AGI 的 90% 已基本实现。
做好 Coding 没有技术秘密
拾象做了一个有意思的评分框架——把”做好 Coding”的难度按 1-10 分打分:
- 低于 4 分 → 任何 Lab 都能做到,Anthropic 的领先会被迅速抹平
- 高于 8 分 → Anthropic 一家独大,类似台积电、波音或 NVIDIA
他们的判断是:真正的难度不在技术 know-how,而在组织与战略。
Anthropic 不掌握别人不知道的”秘密配方”,核心壁垒就是把数据做到极致。但极少有 AI Lab 能组织数百位顶尖研究员共同去做数据这种”脏活”——因为每个 Lab 里最聪明的人都想做自己的研究,成为”下一个 Ilya”。Anthropic 的独特之处是两位创始人从 Day 1 就把”数据决定一切”写入组织基因,首席科学家 Jared Kaplan 亲自主导数据质量评估。
不过拾象也提醒:随着 OpenAI 开始在 Coding 上投入资源,ChatGPT 在 C 端积累的用户影响力很可能也会向高价值任务延伸,形成反向覆盖。开发者社区的反馈已经出现了——“CodeX 明显更聪明,而 Claude Code 要更加好用”。
二、AI Labs 进入战略与组织文化竞争
硅谷 LLM 格局更新
第一梯队不变:Anthropic、OpenAI、Google(Gemini)。变化在第二梯队:
xAI 从竞赛掉队。 根本问题是战略摇摆——多模态、chat、搜索、Coding 多线并进,每条都不够聚焦。2026 年初核心人才开始流失。拾象预判 xAI 大概率变为 SpaceX/X/Tesla 的智能基建,而非在公开市场竞争。
报告写作于 4 月,文末备注了一条 5 月 7 日的重大更新:Elon Musk 宣布 xAI 解散,SpaceXAI 与 Anthropic 签署协议,将向 Anthropic 提供 Colossus 1 的 AI 超算服务。 这验证了拾象的预判方向。
Meta 通过大规模收购和密集人才引进全力冲击第一梯队,但短期差距仍在。
Neo Labs 成为新力量,但站上牌桌、进入第一梯队属低概率事件——范式未验证 + 资本和 GPU 供给已被头部垄断。
模型终局:新一代 OS
拾象把模型公司的本质定位为争夺新一代操作系统的位置。参考 OS 竞争格局——Android(46%)、Windows(30%)、iOS(~20%)、微信(类 OS 超级 App)——OS 是一个典型的少数赢家占据核心入口的市场。今天最领先的模型公司一定是 Agent 时代的 OS。
御三家组织战略复盘
这部分拾象写得信息密度最高,逐一拆:
Anthropic:战略聚焦的胜利
- 两年前就 all in Coding,但这个方向不是 Day 1 想清楚的——是 C 端窗口关闭 + 2024 年夏天 Sonnet 3.5 获得强反馈后,在摸索中收敛形成的
- 典型 top-down 决策结构。确定 all in Coding 后就放弃了 C 端和多模态,避开与 OpenAI、Google 的正面竞争
- 在所有 AI Labs 中对预训练(pre-training)的信仰最坚定。外界说预训练撞墙时他们继续做;外界神化强化学习时他们不过度拔高。拾象认为这和两位创始人的物理学家背景有关——从观测和规律出发,不执着发明新架构,把 Transformer 的 scale 做好
- 产品判断:Cursor 爆火后内部讨论过是否做 IDE,最终判断 IDE 是阶段性产品形态,终端才是最终形态,由此诞生了 Claude Code。背后原则是”模型能力在指数级增长,产品必须面向 AGI 设计,而非面向当下工作流的固化形态”
- 组织文化:AGI-native 公司,员工几乎全员信奉 AGI 会实现。人才稳定性显著高于 OpenAI。Dario 每一到两周做内部分享,信息透明但外泄很少。过去几年对外承诺的目标几乎全部实现,且常常超额完成
OpenAI:正在被市场低估
- ChatGPT 周活用户接近 10 亿,付费订阅超过 5000 万
- 过去两次模型范式创新(GPT-4、o1/o3 reasoning)均由 OpenAI 引领
- GPT 5.5 已带来明显能力升级,CodeX 用户规模和开发者口碑在提升
- 真正的问题是战略误判:长期重视 C 端流量,没有及时意识到 Coding
才是主线
- 依赖 ChatGPT 高流量产品,倾向用小模型服务大部分请求,预训练规模未持续 scale
- Sam Altman 非技术出身,对技术路线取舍的判断精度不如 Anthropic
- 内部同时推进的项目一度高达约 300 个
- 推崇 0→1 突破但对 1→10 打磨投入不足,产品口碑更接近微软,Anthropic 更接近苹果
- 研究员倾向做突破性的事,数据清洗等基础工作动力不足
- 但 OpenAI 最强生命力恰恰来自自下而上的探索文化:一两位研究员押中正确方向就可能带来范式跃迁——“这是 Anthropic 今天的积累未必能抵御的风险”
Google:最稳定的追随者,但也最慢
- Gemini 3 证明了不是 AI loser,股价翻倍,MAU 追上来了。但 C 端增长不持续,截至 2 月增速降到 13%
- 根本问题也是战略失误:C 端和多模态放最高优先级,Coding 被严重忽视
- 组织问题没有本质改变——自下而上文化 + 运转摩擦
- 但长期可能最能穿越周期:自有 TPU 极为充裕,去风险用的集群规模就已超过头部 AI Labs 的正式训练集群;可以并行两到三条技术路线。即便最坏情况也能退守到类似 NVIDIA 的生态角色
三、Agent Playbook:放弃 To B / To C 的旧地图
新分类法:To Human vs To Agent
拾象提出一个重要的概念重构——市场坐标系不应该再用 To B / To C,而应该用 To Human / To Agent 来划分。
理由是 AI 工具的普及顺序已经变了:个人先付费 → 公司 IT 预算随后追入,同一款产品同时服务”个人工作流”和”组织工作流”,To B 和 To C 的传统边界已经模糊。这些 AI 工具的统一特征是 To Prosumer(为知识工作者设计)。
更关键的变化是:Agent 自身正在成为数字世界新的消费者与生产者。
市场正在为 agent 重构基础设施: - Stripe 为 agent 提供身份与支付中枢 - Anthropic 通过 MCP、Skills、computer use 设计 agent 的访问策略——GUI 和浏览器被转化为 CLI 或 API,软件的操作权被交给 agent - Cloudflare 为文档系统嵌入 markdown 版本提示和 llms.txt 这类 agent 原生的索引文件
Agent 已经开始以独立主体身份进入经济系统:Cloudflare 上周宣布允许 agent 直接创建账号、开通付费订阅、注册域名、拿到 API token 部署代码——这是 agent 第一次以独立客户身份进入云服务商的客户体系。叠加此前的 pay-per-crawl(对 AI 爬虫单独定价收费),agent 既是付费客户,也是被独立计费的流量主体。
Agent = Model + Harness
Harness 这个词在 Q1 被大量讨论,本质和 Agent 相关。Agent = Model + Harness——除模型本身外的所有工程封装都归为 Harness。
以 Claude Code 为例,核心运行机制 Agent Loop 只有几十行代码,可拆解为 11 步,重点在第 5-8 步:Agent 接到任务后进入循环判断——判断需要做什么、需要什么上下文、是否要调用工具,直到判断任务完成。实现逻辑非常简单,但正是这个机制让 agent 从处理 1 分钟任务跨越到处理 20 分钟、2 小时乃至更长时间跨度的任务。
目前 Model 层的机会基本被 Anthropic、Kimi、字节等头部公司锁定,但 Runtime 层以及如何把 Harness 和 Context 做得更好,仍有大量空间。
设计哲学的根本转变
Harness 流行的背后是 Agent 设计哲学的根本性转变——本质是对模型的信任度之争。
两年前 LangChain 为代表的主流方案用大量规则逻辑做控制,通过 chain 把任务串起来,本质是不信任模型能力、用规则兜底。Anthropic 的 Harness 理念恰恰相反——充分信任模型,把 Harness 做到极简。
Anthropic 的商业模式随之发生结构性转变。Managed Agents 是 Anthropic 第一次把 Harness 做成托管型产品:开发者定义一个 agent 只需指定模型、工具、指令,放入 Anthropic 托管环境,通过 session 执行任务、通过 events 回传状态。
这意味着 Anthropic 正从一家按量收费的 API 公司,向 Agent 云公司 或 Agent OS 进化——从前卖 token,现在卖 Runtime。用户既可以让 Claude Code 在本地跑,也可以让 agent 在云端运行,session 管理与状态都留在 Anthropic,用户粘性远高于单纯的 API 调用。
四、硅谷前沿趋势
Robotics:2026 年是机器人数据 Scaling 大年
拾象判断:和 LLM 不同,Robotics 目前路线还没收敛。在”GPT-3 时刻”到来之前,今天大量创新尝试最终会被抹平。
数据金字塔框架(底层到顶层,对应 LLM 训练的不同阶段):
1. Egocentric data(第一人称视角数据)= 对应 LLM 的预训练。 成本最低、最易规模化。机器人通过第一人称视角视频学习物理光影与物体交互。Google Robotics 和 NVIDIA 都在主推这个方向。NVIDIA Research 的 EgoScale 论文报告:在 20,854 小时带动作标签的第一视角人类视频上预训练 VLA 模型,在灵巧操作的人类到机器人迁移中观察到数据规模与验证损失之间的 log-linear scaling law。
2. UMI 数据(Universal Manipulation Interface)= 对应 SFT。 成本和规模化程度介于 egocentric 和真机数据之间,可迁移性优于真机数据,但硬件构型必须与部署机器人完全一致。代表公司:Sunday、Generalist。
3. Teleop 真机数据 = 对应 SFT。 历史最久,直接绑定具体硬件,是训练底层控制和具身能力的关键。NVIDIA EgoScale 中真正的真机数据只有 4 小时——但因为有前两层强先验做支撑,已经足够支持复杂灵巧任务,甚至实现一次任务适应(one-shot task adaptation)。
4. World Model = 对应强化学习。 相比传统仿真到真实(sim-to-real),world model 支持无限复杂度与多样性,但极度消耗算力。本质是用算力换真实世界交互。最终方向是 world model 与 sim-to-real 结合构建强化学习环境。
拾象强调:目前没有任何一家公司能确定最优配比。egocentric data 的 scaling 也还没到出现 scaling law 的阶段。Generalist 发布过相关 scaling 工作,但模型参数仅在 7B-14B 范围,距离 LLM 那种数据、参数、算力三者协同放大的成熟阶段还有相当长距离。
Hardware is All You Need
过去硅谷普遍奉行 AI first,但近期越来越多公司和研究员意识到:AI 落地必须依靠硬件。对机器人公司而言,AI first 和硬件 first 本质是同一件事——硬件不只是部署载体,更直接决定能否高质量规模化产生数据,进而影响模型训练与落地效果。
美国公司也普遍意识到自身在硬件环节的短板:核心零部件选型、系统架构、原型迭代、供应链响应速度都不是强项。
拾象认为这对华人创业者是一个结构性机会:依托对中国供应链的理解和对美国机器人行业需求的熟悉,有可能打造出机器人领域的”台积电”——承接核心模组的选型设计与全流程迭代。
一个具体案例:灵巧手数据至今没有任何公司实现规模化采集,根本原因是硬件不成熟。如果市场出现像宇树机器狗一样稳定、成本足够低的灵巧手产品,灵巧手数据自然会成为主要数据类型。
技术路径:从 VLA 转向 World Action Model(WAM)
拾象给了四个原因解释为什么行业正从 VLA(Vision-Language-Action model,视觉-语言-动作模型)转向 WAM(World Action Model,世界动作模型):
- 灵巧运动不需要语言。 Physical intelligence 才是机器人的本质需求。WAM 以世界模型而非语言作为主干架构,更符合第一性原理
- 数据成本。 VLA 依赖带动作标签的数据,采集成本高。WAM 可直接学习视频数据,把视频作为世界演化的监督信号
- 泛化能力差异。 VLA 擅长语义泛化但容易过拟合在见过的任务上(换个光线或材质就可能失败);WAM 更擅长理解不同材质、位置、遮挡条件下动作对世界的影响
- 长程任务。 机器人任务天然是多步、需要路径选择与失败恢复的长任务。VLA 倾向于单轮决策,WAM 能够”想象未来状态再选动作”
相关论文称,WAM 在新任务和新环境上的泛化能力比最先进的 VLA 可提升超过 2 倍。
但拾象对”world model × 机器人”方向的创业公司相对保守——因为 OpenAI、Google、NVIDIA 都已明确自研 world model 用于机器人,且 world model 极度消耗算力,头部 Lab 在这个方向上优势更大。
Neo Labs:两条路线
路线 1:追寻下一个范式。 代表是前 OpenAI reasoning 负责人 Jerry Tworek 创立的 Core Automation(2026 年 1 月)。核心目标是打造最自动化的 AI research lab,技术路线主打 Continual Learning(持续学习)——模型在交互中持续进步、数据效率要高、需要新架构、预训练到后训练的算法要统一。拾象认为今天最明确的、值得 all-in 的新范式就是 Continual Learning,虽然还没有明确技术路线。最大风险是创新窗口是否还打开着。但 2026 年有一个边际变化:Anthropic 和 OpenAI 把大量精力投入 Coding 竞争,下一范式的资源投入被挤压,客观上为创业公司留出一些空间。
路线 2:专注高价值垂直领域。 这是硅谷基金目前更偏好的方向。同样是明星团队,但有明确要解决的高价值问题,且与头部三家形成差异化。芯片设计、AI for Science、高温超导材料等方向的潜在回报,或许远高于”覆盖面广但有大量免费用户”的大众场景。
PDF 完整版增量内容(公众号版未覆盖)
以下内容来自完整版 PDF(37 页幻灯片),公众号版缺失或仅一笔带过。
关键数据图表
模型发布间隔压缩图(p4):OpenAI 从 GPT-5(间隔 850 天)压缩到 GPT-5.5(12 天),Anthropic 从 Opus 4(444 天)压缩到 Sonnet 4.6(12 天)。两家最新发布的实际数据点都落在对数线性趋势线之下——加速仍在持续。
ARR 对比图(p6):截至 2026 年 2 月,Anthropic ARR $30B vs OpenAI $16B(注意图表数据与公众号文字有差异)。Anthropic 两次 ARR 快速增长都和模型 Coding 能力跃迁直接相关。Anthropic 在 2025Q3-Q4 季度增速一度超过 100%。
AI Coding ARR 图(p5):2026 年 3 月约 $25B,年底预测 $100B。计算方式:Anthropic ARR × 65% + OpenAI ARR × 50%。对标 Google Cloud 花了 18 年才到 $65B。
头部公司 ARR 一览表(p36):
| 公司 | 类别 | ARR ($M) |
|---|---|---|
| Anthropic | Foundation Model | 30,000 |
| OpenAI | Foundation Model | 25,000 |
| Claude Code | Coding Agent | 2,500 |
| Cursor | Coding Agent | 2,000 |
| Perplexity | AI Search | 450 |
| Lovable | Coding Agent | 400 |
| ElevenLabs | Voice | 330 |
| Replit | Coding Agent | 253 |
| Genspark | General Agent | 200 |
| Glean | Enterprise Search | 200 |
| Harvey | Legal | 190 |
| Sierra | Customer Support | 150 |
| OpenEvidence | Healthcare | 100 |
| Manus | General Agent | 100 |
| Corgi | InsurTech | 77 |
Claude Code 单独拆出来 ARR 就有 $2.5B——作为 2025 年才成立的产品线。
Anthropic 详细里程碑(p11)
PDF 给了 Anthropic 从 2024 到 2026 的完整时间线:
- 2024.03 Claude 3 发布,首次进入前沿模型竞争
- 2024.06 Sonnet 3.5 开始在 Coding 领域建立影响力(HumanEval 92%,Cursor/bolt.new 默认选 Claude)
- 2024.10 SWE-bench SOTA,49% 超越 o1-preview,开发者偏好全面转向
- 2025.02 Claude Code 研究预览,命令行 Agent 首发,3.7 Sonnet 同步推出
- 2025.05 Claude 4 正式发布(Opus 4 + Sonnet 4),Claude Code GA
- 2026.03 $25B+ ARR,Coding 市场份额 54%,14 个月收入 ×14,每用户 $211/月 vs OpenAI $25/月
拾象的一线观察补充了几个公众号没提到的点:
- PM 驱动的模型-产品协同设计——Claude Code、Skills、MCP 都是 PM 提出的,不是 researcher。CPO 和 PM 团队的产品精细度领先 OpenAI 约两个层次
- 极高工作强度——“在这家公司工作一天等于外面一年”,每日 PR 产出是其他公司 10 倍,两天一版本,训练周期从 4-5 个月压缩到 2 个月
OpenAI 详细分析(p12)
PDF 比公众号多了几个尖锐判断:
- 核心矛盾是”高 ego,没人做脏活”——招的都是鄙视链高的人,背景好、心气高。每个人想搞大新闻,0→1 做完就扔,不愿意改进迭代。Sora、Voice model 做完就扔在那里了
- ChatGPT 缺”产品灵魂”——没人知道 PM 是谁。积极转折是新产品负责人 Fiji 统管所有产品线含 Codex
- Sam Altman = VC 思维的 CEO——VC 出身,FOMO 驱动,别人做什么他就做什么。执行力强在”觉得重要的事停掉所有会议只做这件”
- 战略聚焦是被逼的——3 个月前还不觉得 Coding 那么大,看到 Claude Code 爆发才把 Code 和 RL 升为第一优先级。这个转向是被 Anthropic 倒逼的
Google 详细分析(p14)
公众号没提到的几个具体数据和内部细节:
- Gemini MAU 850M vs ChatGPT WAU 900M。但企业端付费 MAU +40% QoQ,API 16B tokens/min(+60%)
- Arena Elo 前四家(Anthropic/xAI/Google/OpenAI)分差仅 22 分——技术无差异化时 Google 的分发优势最突出
- 内部工具限制的荒谬:整个 Google 只有 coding 组能用 Claude,其他人必须用自家模型——直接影响绩效
- “印度化”困境:第三代职业经理人文化,内部 politics 严重,前两年内部打架用了 3 年才追上来。关键位置被能力较弱的人填充。优秀的中国工程师流失
Part 04:通缩、就业与投资(p16-18)——公众号完全缺失
这是一个全新章节,公众号版完全没有。
AI 就业冲击已经显现: - Big Tech 新招中 Junior 工程师占比从 2019 年的 32% 下降到 2026Q1 的 7% - 50%-78% 的初级岗位已不复存在 - 一线声音:“标注可能是人类最后的工作” - 顶尖 AI researcher 都在说两年内会失业,而且是认真的 - 80% 硅谷白领工作将被自动化 - 美国应届生失业率:计算机工程专业 7.5%,CS 6.1%,科技行业整体 5.8%,全体应届生均值 3.6%——技术专业是全体均值的 2 倍
企业预算从软件许可转向 AI 算力——增长率剪刀差已经打开: - 传统 SaaS/软件许可支出增长率从 2020 年的 22% 下降到 2025 年的 4% - 企业 AI/Token/算力支出增长率从 2020 年的 20% 上升到 2025 年的 76% - 每 1 美元 AI 支出会挤占约 $0.6 传统软件预算
SaaS is Dead: - IGV(软件指数)vs NDX(纳斯达克 100)差值 -20 个百分点 - 软件股跌幅远超整体科技板块
Part 05:For Agents——AI-native 机会(p19-21)——公众号仅提了概念
PDF 给了一个非常具体的”软件被改造”对照表:
| For Human | → | For Agent |
|---|---|---|
| PowerPoint | → | HTML |
| Word | → | Markdown |
| Excel | → | XML / JSON |
| GUI / Browser | → | CLI / API |
| App Store | → | Skills |
| 搜索引擎 | → | Chatbot |
拾象的判断:用 DAU 给 Agent 时代的公司估值 = 1995 年用门店数量给亚马逊估值。
LLM + Agents = New OS 的架构图(p15)把 Agent 定位在 OS 层和 Applications 层的交界——Agent 既是 OS 的执行引擎,也是应用层的核心载体。底层从 CPU+内存变成 GPU+内存+互联(NVLink/InfiniBand)。
三层创新机会(p21): 1. Context——站住白领工作空间的入口。Skills 技能市场、MCP Server 生态、行业知识库(法律、医疗、金融)、Context Engineering 工具链。Context 层天然开放,就像 App Store 的应用不归 Apple 独占 2. Runtime——让 Agent 基础设施更可扩展。gVisor、GPU serverless、Snapshot/Fork 快速克隆、Durable Execution 持久执行。Modal($1.1B 估值)是典型案例 3. Vertical——在垂直领域打造行业最佳实践。投某领域 Agent = 投 Model 之外的 Vertical Harness。领域知识 + 行业工作流 + 合规约束——通用 Harness 无法覆盖的深度,模型公司吃不到,这是最持久的壁垒
Agent Loop 详细对比图(p23)
PDF 给了 Claude Code 和 OpenClaw 的四层对比:
| 层 | Claude Code | OpenClaw |
|---|---|---|
| MODEL | Claude Sonnet/Opus,自有模型深度绑定 | GPT-4o/Gemini/DeepSeek,模型无关 |
| HARNESS | 薄 Loop,信任模型自主决策,权限分级 + Hook 生命周期 | Gateway 网关 + Skill 插件,消息路由 + 多 Channel 调度 |
| CONTEXT | CLAUDE.md + MCP + Skills,Auto-compaction 上下文管理 | SKILL.md + MEMORY.md,Heartbeat 定时 + 向量检索 |
| RUNTIME | 本地终端 + gVisor 沙箱,自建隔离执行环境 | Node.js 直连宿主机,无沙箱,不自建 Runtime |
Vertical Agents 深度分析(p32-35)——公众号完全缺失
赛道逻辑的根本性翻转:
| 过去:效率工具(SaaS/Copilot) | 现在:数字员工(Labor Replacement) |
|---|---|
| 卖 IT/Marketing 软件预算的钱(百亿/千亿级市场) | 赚企业人力成本 headcount 的钱(万亿级市场) |
| 按坐席(SaaS)收费,提效 20-50% | 按结果收费,直接替代高薪智力岗位 |
选赛道的新标准:不再是”软件预算有多大”,而是”资深从业者年薪多少,AI 能替代几个”。
三个案例极有信息量:
Serval(估值 $1B)——颠覆 ServiceNow。不再按 IT 坐席收费,定位”全员 AI 操作界面”。客户甚至开始停止招聘初级 IT 人员。TAM 从百亿 IT 工具市场跳到千亿级 headcount 市场。
Corgi(估值 $1.3B,ARR $77M)——不卖工具给保险公司,自己直接拿牌照做保险。秒级核保解锁 97%,嵌入式零成本分销。花了 $35M 买保险牌照,获得 2-3 年空窗期壁垒。
OpenEvidence(估值 $12B,ARR $150M)——医疗 Agent 标杆。渗透超过 40% 的美国医生,免费提供给医生使用,真正赚制药商的高溢价广告费(CPM 达 $70-1000+)。
Enterprise Agents 的”不可能三角”护城河(p35):
I. 监管壁垒 > 技术壁垒——在医疗、保险、金融、法律等高合规行业,拿到牌照和审计认证是先发者的绝对壁垒。Corgi 花 $35M 买牌照 = 2-3 年空窗期
结果反馈数据 > 输入量——Copilot 无法积累结果数据。只有 Labor Replacement 模式(对结果负责)才能获取”企业意图 → 动作 → 成功与否”的完整反馈飞轮
系统深度集成 > 功能广度——打入企业底层逻辑(类似早期 Palantir 的 FDE 驻场模式)。一旦业务逻辑以代码形式沉淀进 Agent,原有的 ServiceNow 等巨头系统退化为”无脑数据库”,客户极难迁移
竞争拐点——SOP → Agent 的降维打击风险: 新部署范式是:导入企业 SOP 文档 → Claude 理解 → 自动生成 Agent 并部署(周期从数周缩短到半天)。纯做”套壳”或轻量工作流的应用层公司,极易被基础大模型公司”顺手干掉”。
Voice Agent 赛道混战:Retell(infra)、Decagon(客服)、Sierra(企服)、ElevenLabs(模型)四层公司撞在同一战场。此时 Sales 能力与社交圈/文化契合度的重要性已等同于甚至大于技术。
Neo Labs 详细信息(p30-31)
路线 1 追寻新范式的时间线对照图显示了一个规律:每次 OpenAI 的范式飞跃都伴随核心团队出走创建新 Lab——
- GPT-3(2020.05,pre-training 范式确立)→ Dario Amodei 带 GPT-2/3 团队 14 人创立 Anthropic(2020.12-2021.01)
- GPT-4o(2024.05,多模态+实时语音范式跃迁)→ Ilya Sutskever 创立 SSI(2024.06)
- o1(2024.09,RL reasoning 范式)→ Mira Murati 带 ChatGPT/4o/post-training 团队创立 Thinking Machines(2024.09-2025.02)
2026 年及以后的 Neo Labs 列表:Isara AI(前 OpenAI safety 团队)、Core Automation(JT,前 OpenAI Research VP)、Flapping Airplanes(Stanford 年轻研究力量)、Humans&(前 xAI + 早期 Googler)、PeIneffable Intelligence(AlphaGo/AlphaZero 团队)
Jerry Tworek / Core Automation 的四个核心命题(p31): 1. Objective:如何定义足够好的目标函数——要 non-trivial,能持续产生学习信号,不依赖大量人工标注和静态数据 2. Memory:记忆是核心但遗忘同样重要——有效系统需要选择性记忆(selective memory)、动态更新 + 上下文过滤 3. Attention:从自我参照转向环境交互——当前 attention 围绕自身,未来要转向环境交互系统 4. System Design:没有唯一正确的系统设计——AI 系统设计进入工程探索阶段
硅谷 Tier1 VC 投资分布(p37)
Tier1 VC 的投资逻辑是:押注 AI 能替代高薪专业人力、深入核心系统的场景。
前五大赛道(按 deal 数):Healthcare(38)、FinTech(27)、Business Operations(22)、CloudTech & DevOps(20)、Cybersecurity(19)——都是高合规、高客单价、工作流复杂的行业。
代表公司:Healthcare(Devoted、Pomelo Care、OpenEvidence)、FinTech(Stripe、Anchorage Digital、Pennylane)、Business Ops(Odoo、LEGORA、Profound)、CloudTech(Replit、Temporal、nexthop.ai)、Cybersecurity(Cyera、Upwind、Cloaked)
拧巴和存疑的地方
1. “Coding Agent 一旦跑通,AGI 的 90% 已基本实现”——这个比例太随意。 Coding 再强也只覆盖数字世界的任务编码,物理世界的感知、操作、社会互动等维度在这个”90%“里完全没被计入。文章自己后面还写了大段 Robotics 路线未收敛、数据不足的内容,跟这个 90% 自相矛盾。
2. Anthropic ARR 追平 OpenAI 的时间线缺少数据支撑。 文章说”今年年中追平”,但没有给出双方当前 ARR 的具体数字,也没有给出增速曲线。考虑到 OpenAI 有 ChatGPT Plus/Team/Enterprise + API 多条收入线,“年中追平”是一个需要很强假设的预测。
3. xAI 解散的备注和正文叙述有张力。 正文写的是”xAI 大概率变为 SpaceX 等的智能基建”,但备注说的是”xAI 解散,SpaceXAI 与 Anthropic 签协议提供超算服务”。解散 ≠ 变为智能基建,更像是被拆解。而且 Colossus 1 给 Anthropic 用是一个非常重大的信号——意味着 Elon 事实上选择了 Anthropic 作为 AI 合作伙伴而非自己做,但报告对此没有展开分析。
4. “做好 Coding 没有技术秘密”和 Anthropic 的实际壁垒描述矛盾。 一方面说没有秘密配方、难度不在技术,另一方面说 Jared Kaplan 亲自做数据质量评估、全员做脏活的组织能力是壁垒。如果数据工作真的没有技术含量,那组织执行力壁垒也不会太持久——因为其他公司也可以通过组织变革来追赶。拾象自己也说了 OpenAI 一旦投入资源就会追上来。所以这里的壁垒更像是 12-18 个月的时间窗口,而非结构性壁垒。
5. 机器人数据金字塔框架有启发性但论证不够硬。 把 egocentric data 对标预训练、UMI 对标 SFT、world model 对标 RL,是一个整齐的类比,但类比不等于论证。LLM 的预训练-SFT-RL 是一套经过验证的完整方法论,机器人数据的各层之间是否存在类似的”预训练给 SFT 打底”的迁移关系,目前只有 EgoScale 一篇论文作为证据,样本量太小。