Anthropic Managed Agents:从模型提供商到 Agent 基础设施平台
来源: 综合研究(Anthropic 官方博客 + 工程博客 + MODEL + 宝玉AI + HN/Twitter 社区讨论) 精读日期: 2026-04-09
一句话总结
Anthropic 发布 Managed Agents,从卖 token 转向卖 Agent 运行基础设施,本质是用模型领先优势撬动平台锁定——短期逻辑清晰,长期能否形成 Apple 式闭合飞轮取决于模型领先窗口期和数据网络效应能否建立。
核心内容
产品定位:填补断层
Anthropic 产品线此前有明显断层:消费端有 claude.ai / Claude Code,开发端有 Messages API。但企业要做一个长时间运行、能自主调用工具的 Agent,需要自己搭沙箱、做状态管理、处理权限、写错误恢复——这些基础设施工作可能比 Agent 业务逻辑本身还重。
Managed Agents 填的就是这个空:你定义 Agent 的任务、工具和约束,Anthropic 负责跑。
架构:大脑与双手解耦
核心设计哲学借鉴操作系统的虚拟化思路——“接口比实现活得久”。三层虚拟化:
| 组件 | 角色 | 关键设计 |
|---|---|---|
| Session | 追加写入的事件日志,Agent 的”持久记忆” | 独立于 harness 之外;context window 只是 session 的视图,不是 session 本身 |
| Harness (Brain) | 编排循环:调用 Claude → 路由 tool call | 无状态牲畜,崩溃后 wake(sessionId) 即恢复;内置 prompt
caching、compaction |
| Sandbox (Hands) | 代码执行容器 | 牲畜模式——挂了换一个;通过
execute(name, input) → string 与 harness 通信 |
“从宠物到牲畜” 是关键转变。早期所有组件在一个容器里(宠物),解耦后每个组件都是可替换的牲畜。harness 不知道 sandbox 是容器、手机还是宝可梦模拟器——只要符合接口就行。
性能提升显著:解耦后 p50 TTFT 降约 60%,p95 降超 90%。
安全边界也因此变干净:凭证永不进入 sandbox,Git token 在初始化时写入 remote,OAuth token 存 vault 通过 proxy 调用。
Harness 归厂商做的底层逻辑
有评论者指出:本地 harness 是徒劳的,因为模型迭代会把问题本身解决,针对旧模型局限设计的 harness 会过时。模型的局限性厂家最清楚。
工程博客给了一个具体例子:Sonnet 4.5 快到上下文限制时会”焦虑”(context anxiety),草草结束任务。Anthropic 在 harness 里加了上下文重置来应对。但 Opus 4.5 出来后,这个行为消失了,重置变成了多余的负担。
这解释了为什么 Managed Agents 被设计成 meta-harness——不绑定具体 harness 实现,只对 Claude 需要的接口形状做假设。harness 编码的是”模型做不到什么”的假设,而这些假设会过时。
早期客户
| 客户 | 用法 | 亮点 |
|---|---|---|
| Notion | 用户在 Notion 内把任务分配给 Agent,几十个并行跑 | 用户不离开 Notion |
| Sentry | Seer 找 bug → Claude 写补丁 → 开 PR | 几周上线 vs 原估几个月 |
| Rakuten | 工程/产品/销售/市场/财务/HR 各部署专项 Agent | 每个一周内部署 |
| Atlassian | Jira 内直接分配任务给 Agent | 深度嵌入现有工作流 |
| General Legal | Agent 根据用户提问临时写工具来查数据 | 开发时间缩短 10 倍 |
定价
- Token:标准 API 价格(如 Opus 4.6: $5/$25 per MTok)
- Session 运行时:$0.08/小时,按毫秒计,仅 running 状态计费
- Web 搜索:$10/千次
- 示例:1 小时 Opus coding session ≈ $0.70,运行时费占比约 11%
可用状态
- Public Beta,所有 API 账户默认开通
- SDK:Python / TypeScript / Java / Go / Ruby / PHP
- 专用 CLI 工具
ant - 多 Agent 协同、高级记忆、自评估迭代仍在 research preview
商业时间线
三天三个动作:
- 4/4 封杀 OpenClaw 订阅通道(收紧第三方 Agent 薅羊毛)
- 4/7 发布 Mythos(展示最强模型能力)
- 4/8 发布 Managed Agents(推出自家 Agent 基础设施平台)
商业闭环形成。
社区反应
整体偏谨慎——认可技术方向,对锁定效应高度警惕。
正面:
- 架构设计(brain/hands 解耦)获技术社区好评
- 对缺少 DevOps 能力的团队有真实价值——“数天而非数月”上生产
- 定价对轻度使用合理
负面:
- 模型锁定是头号问题——HN 上反复出现。“最佳 agent 应混合不同模型”、“锁定单一模型提供商是 deal breaker”
- 平台化动机被质疑——“Anthropic 想从 token 管道变成平台,为 IPO 拉估值”
- 可靠性信任不足——“每天用 Claude Code,但让客户依赖 Anthropic 软件是大忌”
- HN 代表性评论:“我们还在 agent 框架的 pre-PHP 时代。锁定任何框架都是输的策略。”
投资观察与思考
1. Apple 模式类比:封闭生态 + 高端客户 = 不成比例的利润
Managed Agents 的竞争策略更像 Apple 而非 AWS:
- AWS 是模型无关的通用基础设施——不 care 你跑什么代码
- Managed Agents 绑定 Claude——更像 Apple 的硬件 + OS + 生态三层绑定
Apple 类比成立的关键:iPhone 全球份额约 27%,但拿走智能手机行业约 85% 的利润。如果 Claude 在 Agent 场景保持模型领先,即使未来开源 / 竞品 Agent 框架占更大份额,Anthropic 仍可能吃掉 Agent 基建市场的大部分利润。
2. 三级火箭:模型领先 → 规模效应 → 网络效应
Anthropic 的演进路径:
- 模型领先撬动 Harness 领先——模型能力断档吸引头部企业客户,同时通过 Agent 行为数据(非业务数据)优化 Harness,形成”模型好 → 用户多 → Harness 更好 → 更难走”的飞轮
- 从单 Agent 到多 Agent 协同——企业的 Agent 生态在平台上搭建后,Agent 之间的协作和能力分发产生规模效应
- 整体使用场景的迁移成本形成网络效应——不是某一个功能锁住你,而是工作流、配置、集成的总和。单个都能迁,但全部迁移的摩擦力太大
数据飞轮的关键:企业不会把业务数据给 Anthropic,但 Anthropic 能拿到 Agent 行为数据——哪些 tool call 模式成功率高、什么任务分解策略更有效。这是 meta-data 飞轮,类似 Apple 的隐私飞轮——不看你的数据,但通过使用模式优化产品。
3. OS 类比:模型 = 芯片,Harness = iOS,Managed Agents = App Store
| Apple | Anthropic |
|---|---|
| 芯片(A/M 系列) | Claude 模型 |
| iOS / macOS | Harness 层(编排规范、API 接口) |
| App Store | Managed Agents(分发、运行、计费) |
| 开发者用 Swift + UIKit | 开发者用 SDK + MCP + YAML 定义 Agent |
App Store 不只是分发渠道,它定义了”什么是一个合格的 app”。Managed Agents 通过 Harness 接口设计、tool call 规范、权限模型,实际上在定义”什么是一个合格的 Agent”。
推论:通用 Agent 框架(LangChain、Manus、GenSpark)的处境像跨平台开发框架(React Native、Flutter)——能用,但永远不如原生体验好。通用 Harness 越做越会被模型厂商吃掉。
4. Harness 归属权:短期归厂商,长期看模型成熟度
- 当前阶段厂商有信息优势:模型迭代快,每代”怪癖”不同,第三方框架永远在追
- 长期若模型成熟:Harness 处理的”模型怪癖”减少,差异化转移到业务编排层,模型无关框架的价值上升
- 关键判断:模型能力什么时候”够用”?还有 3-5 年剧烈迭代期 → 厂商赢;1-2 年趋同 → 开放框架赢
5. “Agent 吃 SaaS”是分化的
| 命运 | 特征 | 例子 |
|---|---|---|
| 成为 Agent 的宿主(赢家) | 离核心数据和工作流近,Agent 嵌入后用户更粘 | Notion、Jira、Asana |
| 被 Agent 替代(输家) | 提供的价值可被通用 Agent 复制,无独占数据或网络效应 | 简单客服工具、模板化 BI |
| 变成 Agent 的工具 | 核心能力被 Agent 调用,但定价权被平台层抽走 | Sentry |
WSJ 报道投资者对传统 SaaS 股价越来越谨慎。关键在于谁能在 Agent 大跃进中优先圈住用户和数据,形成网络效应和数据飞轮——这是机会与挑战并存的竞争。
6. 从 token 经济到 session-hour 经济
$0.08/session-hour 当前对收入贡献很小(占比约 11%),更像是战略定价:
- 建立”为 Agent 运行时付费”的心智模型
- 预留提价空间
- Token 在变便宜(过去两年降 10-100 倍),Agent 运行时长在增加(从分钟到小时到 7×24)——两条曲线会让运行时占比自然上升
- 类似 AWS 早期 S3 存储费很便宜,后来随数据累积成了稳定大头
7. Agent 层的投资机会
三个值得关注的方向:
有数据壁垒的垂直 Agent
- 关键判断标准:数据是否”用着用着会变厚”?Agent 每处理一个任务都在积累领域知识 → 有 compound effect → 有壁垒
- 潜力赛道:法律(判例库)、医疗(病历 + 合规)、金融合规/审计、供应链
多 Agent 协作平台
- 网络效应入口:如果 Agent 之间能互相发现、互相调用,平台方就是 Agent 时代的”互联网交换中心”
- 风险:大厂可能自己做(Anthropic Orchestration、Google A2A)
- 独立公司需找到大厂之间的中立位置,类似 Twilio 在运营商之间做通信中间层
Agent Infra
- 可观测性:Agent 跑了 200 个 tool call,哪步出了问题?= Agent 时代的 Datadog
- 安全/治理:Agent 有权限访问 GitHub/Jira/Slack,谁来审计?最先有企业付费意愿
- 评测/质量:自动化 benchmark + 人工抽检。最晚成熟,因为”好 Agent”的标准还在形成中
Open Questions
- 模型领先窗口期够不够长? 如果 Google/OpenAI 在 6 个月内追平,第一级火箭还没拉够客户就熄火了
- 应用层能否出现抖音级的超级 Agent? Agent 场景更像工具而非网络——面向任务而非面向人的连接,双边网络效应不易形成。除非 Agent-to-Agent 协作催生新的网络拓扑
- Agent-to-Agent 网络效应何时出现? 多 Agent 协同目前还在 research preview,离生产级落地有距离
- 锁定层到底够不够厚? 单看 Harness 是工程实现,不是黑科技。但工作流 + 配置 + 集成的总和可能形成足够的迁移摩擦
- Agent 基建会像云计算一样被几家大厂垄断吗? 历史经验说”大概率是”,但 Agent 生态的模型绑定特性可能导致更碎片化的格局
延伸阅读
- Claude Managed Agents 产品公告
- Anthropic 工程博客:Scaling Managed Agents
- Claude Managed Agents API 文档
- MindStudio: Anthropic vs OpenAI vs Google 三方 Agent 策略对比
- 此前精读:Harness is the New Dataset——Harness 6 组件 + 7 Tricks + 创业公司机会
- 此前精读:OpenAI Harness Engineering——百万行代码零人工的实验