Anthropic Managed Agents：从模型提供商到 Agent 基础设施平台

综合研究（Anthropic 官方博客 + 工程博客 + MODEL + 宝玉AI + HN/Twitter 社区讨论） · 2026-04-09

来源: 综合研究（Anthropic 官方博客 + 工程博客 + MODEL + 宝玉AI + HN/Twitter 社区讨论）精读日期: 2026-04-09

一句话总结

Anthropic 发布 Managed Agents，从卖 token 转向卖 Agent 运行基础设施，本质是用模型领先优势撬动平台锁定——短期逻辑清晰，长期能否形成 Apple 式闭合飞轮取决于模型领先窗口期和数据网络效应能否建立。

核心内容

产品定位：填补断层

Anthropic 产品线此前有明显断层：消费端有 claude.ai / Claude Code，开发端有 Messages API。但企业要做一个长时间运行、能自主调用工具的 Agent，需要自己搭沙箱、做状态管理、处理权限、写错误恢复——这些基础设施工作可能比 Agent 业务逻辑本身还重。

Managed Agents 填的就是这个空：你定义 Agent 的任务、工具和约束，Anthropic 负责跑。

架构：大脑与双手解耦

核心设计哲学借鉴操作系统的虚拟化思路——“接口比实现活得久”。三层虚拟化：

组件	角色	关键设计
Session	追加写入的事件日志，Agent 的”持久记忆”	独立于 harness 之外；context window 只是 session 的视图，不是 session 本身
Harness (Brain)	编排循环：调用 Claude → 路由 tool call	无状态牲畜，崩溃后 `wake(sessionId)` 即恢复；内置 prompt caching、compaction
Sandbox (Hands)	代码执行容器	牲畜模式——挂了换一个；通过 `execute(name, input) → string` 与 harness 通信

“从宠物到牲畜” 是关键转变。早期所有组件在一个容器里（宠物），解耦后每个组件都是可替换的牲畜。harness 不知道 sandbox 是容器、手机还是宝可梦模拟器——只要符合接口就行。

性能提升显著：解耦后 p50 TTFT 降约 60%，p95 降超 90%。

安全边界也因此变干净：凭证永不进入 sandbox，Git token 在初始化时写入 remote，OAuth token 存 vault 通过 proxy 调用。

Harness 归厂商做的底层逻辑

有评论者指出：本地 harness 是徒劳的，因为模型迭代会把问题本身解决，针对旧模型局限设计的 harness 会过时。模型的局限性厂家最清楚。

工程博客给了一个具体例子：Sonnet 4.5 快到上下文限制时会”焦虑”（context anxiety），草草结束任务。Anthropic 在 harness 里加了上下文重置来应对。但 Opus 4.5 出来后，这个行为消失了，重置变成了多余的负担。

这解释了为什么 Managed Agents 被设计成 meta-harness——不绑定具体 harness 实现，只对 Claude 需要的接口形状做假设。harness 编码的是”模型做不到什么”的假设，而这些假设会过时。

早期客户

客户	用法	亮点
Notion	用户在 Notion 内把任务分配给 Agent，几十个并行跑	用户不离开 Notion
Sentry	Seer 找 bug → Claude 写补丁 → 开 PR	几周上线 vs 原估几个月
Rakuten	工程/产品/销售/市场/财务/HR 各部署专项 Agent	每个一周内部署
Atlassian	Jira 内直接分配任务给 Agent	深度嵌入现有工作流
General Legal	Agent 根据用户提问临时写工具来查数据	开发时间缩短 10 倍

定价

Token：标准 API 价格（如 Opus 4.6: $5/$25 per MTok）
Session 运行时：$0.08/小时，按毫秒计，仅 running 状态计费
Web 搜索：$10/千次
示例：1 小时 Opus coding session ≈ $0.70，运行时费占比约 11%

可用状态

Public Beta，所有 API 账户默认开通
SDK：Python / TypeScript / Java / Go / Ruby / PHP
专用 CLI 工具 ant
多 Agent 协同、高级记忆、自评估迭代仍在 research preview

商业时间线

三天三个动作：

4/4 封杀 OpenClaw 订阅通道（收紧第三方 Agent 薅羊毛）
4/7 发布 Mythos（展示最强模型能力）
4/8 发布 Managed Agents（推出自家 Agent 基础设施平台）

商业闭环形成。

社区反应

整体偏谨慎——认可技术方向，对锁定效应高度警惕。

正面：

架构设计（brain/hands 解耦）获技术社区好评
对缺少 DevOps 能力的团队有真实价值——“数天而非数月”上生产
定价对轻度使用合理

负面：

模型锁定是头号问题——HN 上反复出现。“最佳 agent 应混合不同模型”、“锁定单一模型提供商是 deal breaker”
平台化动机被质疑——“Anthropic 想从 token 管道变成平台，为 IPO 拉估值”
可靠性信任不足——“每天用 Claude Code，但让客户依赖 Anthropic 软件是大忌”
HN 代表性评论：“我们还在 agent 框架的 pre-PHP 时代。锁定任何框架都是输的策略。”

投资观察与思考

1. Apple 模式类比：封闭生态 + 高端客户 = 不成比例的利润

Managed Agents 的竞争策略更像 Apple 而非 AWS：

AWS 是模型无关的通用基础设施——不 care 你跑什么代码
Managed Agents 绑定 Claude——更像 Apple 的硬件 + OS + 生态三层绑定

Apple 类比成立的关键：iPhone 全球份额约 27%，但拿走智能手机行业约 85% 的利润。如果 Claude 在 Agent 场景保持模型领先，即使未来开源 / 竞品 Agent 框架占更大份额，Anthropic 仍可能吃掉 Agent 基建市场的大部分利润。

2. 三级火箭：模型领先 → 规模效应 → 网络效应

Anthropic 的演进路径：

模型领先撬动 Harness 领先——模型能力断档吸引头部企业客户，同时通过 Agent 行为数据（非业务数据）优化 Harness，形成”模型好 → 用户多 → Harness 更好 → 更难走”的飞轮
从单 Agent 到多 Agent 协同——企业的 Agent 生态在平台上搭建后，Agent 之间的协作和能力分发产生规模效应
整体使用场景的迁移成本形成网络效应——不是某一个功能锁住你，而是工作流、配置、集成的总和。单个都能迁，但全部迁移的摩擦力太大

数据飞轮的关键：企业不会把业务数据给 Anthropic，但 Anthropic 能拿到 Agent 行为数据——哪些 tool call 模式成功率高、什么任务分解策略更有效。这是 meta-data 飞轮，类似 Apple 的隐私飞轮——不看你的数据，但通过使用模式优化产品。

3. OS 类比：模型 = 芯片，Harness = iOS，Managed Agents = App Store

Apple	Anthropic
芯片（A/M 系列）	Claude 模型
iOS / macOS	Harness 层（编排规范、API 接口）
App Store	Managed Agents（分发、运行、计费）
开发者用 Swift + UIKit	开发者用 SDK + MCP + YAML 定义 Agent

App Store 不只是分发渠道，它定义了”什么是一个合格的 app”。Managed Agents 通过 Harness 接口设计、tool call 规范、权限模型，实际上在定义”什么是一个合格的 Agent”。

推论：通用 Agent 框架（LangChain、Manus、GenSpark）的处境像跨平台开发框架（React Native、Flutter）——能用，但永远不如原生体验好。通用 Harness 越做越会被模型厂商吃掉。

4. Harness 归属权：短期归厂商，长期看模型成熟度

当前阶段厂商有信息优势：模型迭代快，每代”怪癖”不同，第三方框架永远在追
长期若模型成熟：Harness 处理的”模型怪癖”减少，差异化转移到业务编排层，模型无关框架的价值上升
关键判断：模型能力什么时候”够用”？还有 3-5 年剧烈迭代期 → 厂商赢；1-2 年趋同 → 开放框架赢

5. “Agent 吃 SaaS”是分化的

命运	特征	例子
成为 Agent 的宿主（赢家）	离核心数据和工作流近，Agent 嵌入后用户更粘	Notion、Jira、Asana
被 Agent 替代（输家）	提供的价值可被通用 Agent 复制，无独占数据或网络效应	简单客服工具、模板化 BI
变成 Agent 的工具	核心能力被 Agent 调用，但定价权被平台层抽走	Sentry

WSJ 报道投资者对传统 SaaS 股价越来越谨慎。关键在于谁能在 Agent 大跃进中优先圈住用户和数据，形成网络效应和数据飞轮——这是机会与挑战并存的竞争。

6. 从 token 经济到 session-hour 经济

$0.08/session-hour 当前对收入贡献很小（占比约 11%），更像是战略定价：

建立”为 Agent 运行时付费”的心智模型
预留提价空间
Token 在变便宜（过去两年降 10-100 倍），Agent 运行时长在增加（从分钟到小时到 7×24）——两条曲线会让运行时占比自然上升
类似 AWS 早期 S3 存储费很便宜，后来随数据累积成了稳定大头

7. Agent 层的投资机会

三个值得关注的方向：

有数据壁垒的垂直 Agent

关键判断标准：数据是否”用着用着会变厚”？Agent 每处理一个任务都在积累领域知识 → 有 compound effect → 有壁垒
潜力赛道：法律（判例库）、医疗（病历 + 合规）、金融合规/审计、供应链

多 Agent 协作平台

网络效应入口：如果 Agent 之间能互相发现、互相调用，平台方就是 Agent 时代的”互联网交换中心”
风险：大厂可能自己做（Anthropic Orchestration、Google A2A）
独立公司需找到大厂之间的中立位置，类似 Twilio 在运营商之间做通信中间层

Agent Infra

可观测性：Agent 跑了 200 个 tool call，哪步出了问题？= Agent 时代的 Datadog
安全/治理：Agent 有权限访问 GitHub/Jira/Slack，谁来审计？最先有企业付费意愿
评测/质量：自动化 benchmark + 人工抽检。最晚成熟，因为”好 Agent”的标准还在形成中

Open Questions

模型领先窗口期够不够长？ 如果 Google/OpenAI 在 6 个月内追平，第一级火箭还没拉够客户就熄火了
应用层能否出现抖音级的超级 Agent？ Agent 场景更像工具而非网络——面向任务而非面向人的连接，双边网络效应不易形成。除非 Agent-to-Agent 协作催生新的网络拓扑
Agent-to-Agent 网络效应何时出现？ 多 Agent 协同目前还在 research preview，离生产级落地有距离
锁定层到底够不够厚？ 单看 Harness 是工程实现，不是黑科技。但工作流 + 配置 + 集成的总和可能形成足够的迁移摩擦
Agent 基建会像云计算一样被几家大厂垄断吗？ 历史经验说”大概率是”，但 Agent 生态的模型绑定特性可能导致更碎片化的格局