Kimi K2.6 开源:一个人,和他的 300 Agents
Whole Picture
Kimi 昨天(2026-04-21)开源 K2.6,作者赛博禅心把这次发布拆成三件事并用同一根母题串起来——“点兵,多多益善”:任务层的 AgentSwarm、社交层的 Claw 群组、模型内部的 Attention Residuals。三者对应群体智能的三个同构切面:并行分工 / 多实体协作 / 深度加权。benchmark 对外战绩是 HLE、DeepSearchQA、SWE-Bench Pro 跑赢 GPT-5.4 / Opus 4.6 / Gemini 3.1 Pro 三家旗舰;内部 Claw-bench 比 K2.5 涨 10%;Agent 场景对标 Opus 4.6 但价格是 1/8。
这篇的可读点在结构:三件看似无关的发布被硬塞进一个”点兵”的隐喻框架,意外有说服力——它提示了一件事:群体智能不是只在 agent 层发生,它从模型内部就在发生。
重点段落解读
1. Agent 集群(AgentSwarm)—— 任务层点兵
“一次跑完,一整套产物同时出。Kimi 给这套起名 AgentSwarm,一次能拉 100 个不同专长的分身。分身用的都是 K2.6 底座,挂不同的 Skill 就分化出不同的专长。”
结构:一个 Coordinator + N 个同底座但不同 Skill 的 subagent。K2.6 相比 K2.5 代码能力 +20%、任务步骤数 -35%。
作者给的例子是让 Kimi 给 Dario Amodei 做画册:Coordinator 拆 9 阶段,研究子 agent 扒公开资料,排版子 agent 出 PDF,做表子 agent 整理决策节点 Excel,写稿子 agent 用第一人称写《Dear 2008》。同时跑完,产出 80 页 PPT。
Skill 的定位很关键:不是一段 prompt,而是”给 AI 的工作说明书”——把一份认可的产物(20 年前高盛并购白皮书、某篇研报)喂给 Kimi,20 分钟后你有一个可挂载的”高盛并购方法论 Skill”。
“集群解决产能,Skill 解决标准”
这句话是全文最紧的一句。它把 Anthropic 这一年的 Skill 机制(本质是 prompt 打包 + 工具选择经验)抽象成了一个“标准化的专业身份”概念。
→ 类比:Unix 的 --help +
manpage,把能力做成可查可调的文档;Skill
做的就是把”工作流”做成可挂载的资产。
2. Claw 群组 —— 社交层点兵
“建群入口,Kimi 自己来当群聊协调员……把自己的龙虾、朋友的龙虾、阿里腾讯 MiniMax 别家模型的龙虾都拉进来。”
从 agent 内部协作升级到跨用户、跨厂商的多 agent 群聊:
- 单群最多 50 个成员,人虾混编
- 跨厂商(阿里 / 腾讯 / MiniMax)—— 如属实,这是第一个公开的”跨 LLM 厂商的 agent 联邦”尝试
- 订阅额度跟着虾流转:朋友的 Pro 虾进你群,能力跟着过来
- 专家训过的虾可以”租给”付费用户
“AI 到这一步第一次有了社交关系”
作者给了一个金融场景锚点:新闻抛进群,审计虾挑风险、风控虾算回撤、分析师虾拉历史对比——用户最后决定听哪一只。
这是对抗 / 信息不对称 / 涌现的引入——AgentSwarm 是并行分工(没对抗),Claw 群组是多实体博弈。
→ 跨领域类比:传统金融 IC 会议的”多角色投票” / 阿西莫夫机器人三定律无法解决的”多机器人互相制衡”问题。
3. Attention Residuals(AttnRes)—— 模型内部点兵
论文链接:https://arxiv.org/abs/2603.15031
结构性改造:把 2015 年何恺明提出的残差连接(每层输出等权相加)改成每层自己学一组可学习权重,用 softmax 归一。
为什么重要:
- 默认残差的问题:第 30 层拿到的是前 29 层一锅端的总和,分不出哪层关键、哪层噪声
- Dilution 副作用:PreNorm 架构下,深层要让信号不被覆盖只能把输出幅度写大 → 各层输出数值量级随深度线性上涨,已在多个开源模型观察到
- AttnRes 做法:每层学一个分布,告诉自己前 N 层里哪些该多听。Dilution 消失,深层输出量级有界,反向梯度分布更均匀
工程折中(Block AttnRes):
- 理论最优:每层注意到前面所有层。大规模分布式训练下通信量爆炸(O(Ld))
- 实际:打 8 个 block,只传 block 级表示,通信量降到 O(Nd)
- 效果:同算力下验证 loss 等价基线的 1.25× 算力
- 已合进 Kimi Linear 48B / 3B 激活模型,1.4T token 训练,下游全面涨点
作者把这个概念提炼为 “sequence-depth duality”:
- 时间维度:Transformer 替代 RNN(把序列建模从递归改成注意力)
- 深度维度:AttnRes 替代残差(把深度建模从等权加和改成注意力加权)
- 两步同构。
这是本文里最硬的一段。
4. 群体智能的三层同构
“任务层的点兵是 Agent 集群,社交层的点兵是 Claw 群组,模型内部的点兵是 AttnRes。” “群体智能的关键词落在智能上:每个兵长什么样、该派去哪,模型得看得清。”
这个母题贯穿全文。三层的共同结构:
| 层 | 成员 | 协调机制 | 关键问题 |
|---|---|---|---|
| 任务层 | subagent | Coordinator 派活 | 拆什么 / 派给谁 |
| 社交层 | 跨用户跨厂商 agent | 群聊协调员 | 听谁的 / 如何涌现 |
| 模型内部 | 各层 | 可学习权重 softmax | 深层听前面哪些层 |
核心洞察:智能的成色不在于兵多,而在于分辨力——能不能区分每个兵的专长、贡献、置信度。
亮点 / 槽点 / 矛盾
亮点:
- “集群解决产能,Skill 解决标准”—— 把 Anthropic Skill 机制的哲学说清楚了
- sequence-depth duality —— 一个可迁移的心智模型
- 把三件事合并到群体智能母题的结构感
槽点 / 需要警惕:
- 全部转述官方口径,没有独立 benchmark 验证
- Claw 群组的跨厂商联邦部分描述乐观,工程/商业可行性存疑(阿里腾讯真的会让自己的 agent 进 Kimi 群?)
- Dario Amodei 画册的例子是作者自己跑的 demo,产出质量没附图验证
- arXiv ID
2603.15031看起来是未来 ID(2026.03 投的)—— 需确认
矛盾点 / 值得继续挖:
- Agent 数量上限:文案说”300 Agents”但正文说”一次拉 100 个分身” → 究竟上限是多少?
- 并行 vs 多实体博弈的边界:AgentSwarm(并行无对抗)和 Claw 群组(多实体博弈)在什么场景各自胜出?
- AttnRes 是否会推广:是否只适合 Kimi Linear 架构,还是能成为新基建?
Discussion 补充(2026-04-21)
讨论主线:Q1 Skill 哲学地位 → Q2 三层同构真伪(转成查证 Coordinator 是算法还是工程)→ 未进 Q3。
1. Skill 不是单样本能倒推的(Justin 观点)
讨论 Q1 时,Justin 纠正了我对”一份作品 = 一个岗位 Skill”的乐观描述:
- 单样本 → 单 Skill 是伪命题。Skill 是”活的”——同样输入能产出多种结果,单一产物只能抓到其中一次选择的投影
- 多样本 → 抽象 Skill 才靠谱
- 无论哪条路,人 review 都不能省
- 证据:Justin 自己的 wiki 就是 LLM 自动抽取的,“勉强可用”——这是对 Kimi”扔一份产物 20 分钟出 Skill”话术的现实检验
可命名观察 —— “单样本 ≠ 模式”:技术侧对应 few-shot → pattern 的采样不足;业务侧对应”听一个客户改产品”vs”听 10 个再动”;训练侧对应为什么 Kimi AttnRes 要用 sequence-depth duality(权重也要大量样本才学得到)。三个领域同一模式。未独立命名进 mental-models,可能太基础;留在此作为观察。
2. Coordinator 调度:算法 vs 工程(核心更新)
Q2 讨论中 Justin 问”Coordinator 调度到底是算法问题还是工程问题”。查证后发现两条路线分叉明显:
Claude Code / Anthropic:工程路线。Task tool 子 agent 就是另一个 CC 实例(禁止再派子 agent),调度全靠 description matching + system reminder + prompt engineering。Anthropic 没发过任何 RL 训练调度策略的论文。 证据:Jannes Klaas 通过 Claude Code Proxy 抓包反向分析(https://jannesklaas.github.io/ai/2025/07/20/claude-code-agent-design.html) + Anthropic 官方 sub-agents 文档
Kimi K2.5 / K2.6
AgentSwarm:算法路线。方法叫
PARL(Parallel-Agent RL): - 冻结 sub-agent,只训 orchestrator - Reward
三项:r_perf(任务成败,主信号)+
r_parallel(激励真的 spawn)+ r_finish(惩罚乱
spawn 骗 reward);辅助 reward 训练末期退火到 0 - “Critical steps” =
最长并行链,激励平衡负载而非盲目并发 - K2.6 把 sub-agent 扩到
300、步数扩到 4000(标题”300 Agents”的来源)
证据:Phil Schmid 拆解 https://www.philschmid.de/kimi-composer-context(他读的是 K2.5 官方 paper,技术细节 paper 级精确)——二手可信但未独立验证
学术侧旁证:算法路线已形成小 cluster: - Puppeteer Orchestrator(arXiv 2505.19591, NeurIPS 2025,清华+上交+腾讯,REINFORCE 训练中心化 orchestrator) - NVIDIA Orchestrator-8B(2025) - MAGRPO(arXiv 2508.04652)
3. 这改写了 Q2 的判断 + Justin 的警惕
讨论前我判断”三层同构是修辞压结构”——错了,至少在 Kimi 这侧站得住脚:AgentSwarm 和 AttnRes 确实都是”学出来的注意力分配”,是同构的。但套到 Claude Code 上不成立——CC 只有 AgentSwarm 层且是工程实现。
所以文章的三层同构母题在 Kimi 生态内部自洽,跨厂商就断了。作者不是纯修辞,但隐含”所有 Agent Swarm 都是这样”的误导。
Justin 的警惕(2026-04-21):“不确定是不是吹牛”。合理。证据链诚实分层: - ✅ 学术路线真实存在(Puppeteer NeurIPS 2025 等平行工作)—— 高可信 - ✅ Kimi K2.5 PARL paper 真实—— 基于 Phil 二手拆解引用,高可信 - ⚠️ K2.6 产品真的跑的是 PARL—— 中可信。中国 AI 厂商常见的 marketing 话术是”paper 成果 = 产品能力”,技术存在 ≠ 产品真在用。K2.6 生产环境可能混了启发式 + RL 两层,不是纯 RL - ⚠️ 宣传用词警惕:看到”300 agents / 4000 steps”这类数字时,问”是 benchmark 跑分还是日常可复现”
4. 新增 mental model —— 编排路径之争
讨论产出、Justin 命名的可复用判断框架:多 agent 系统的
Coordinator 调度有”工程路线 vs
算法路线”两条分叉。详细条目已写入
~/.claude/memory/mental-models.md,含 Anthropic / Kimi /
学术侧应用场景锚点 + 判断钩子(看到”我们 agent 能做
X”时问”编排策略是学出来的还是写出来的”)。
5. Q3 跨厂商 agent 联邦 + portfolio 公司 Slock 的竞争风险
Justin 校正了三条:
- 租虾经济不算 Kimi big upside——理由是模型迭代会持续折旧 agent 租金,App Store 能吃 10 年但 agent 每代重训,租赁市场永远在追模型,never 沉淀。这是”滑梯市场”,不是沉淀性资产
- 跨厂商协同必然普世——不是单厂商博弈,会像 HTTP / OAuth 一样变成基础设施,不构成任何一家的差异化壁垒
- Kimi 做 agent 租赁对 portfolio 公司 Slock 存在竞争风险
Slock 定位回顾(基于
~/CC/Work/Deals/slock/Slock-One-Page-Memo.md):AI agent 版
Slack,本地 daemon 跨厂商调度多家 CLI agent(Claude Code / Codex / Kimi
CLI / Nous Hermes),builder 产品定位,$60M pre 机构轮。Founder Richard
Chien 是 Kimi CLI 核心作者——前 Kimi 员工做的产品和 Kimi 新
feature 正面竞争,结构性戏剧感强。
Kimi Claw 群组对 Slock 的影响分层:
- 短期 6-12 月正面:Kimi 做市场教育,Slock 多对比锚点(“中心化 vs 本地 / 倾向厂商 vs 中立”故事更好讲),投资人易理解
- 中期 12-24 月风险:Kimi 品牌 + 免费入口 + Pro 升级路径 = 超低 PLG 成本,吃掉大众心智;Slock 的独享赛道窗口可能从 12-18 月压缩到 6 个月内必须出现差异化信号
- 长期 24+ 月真威胁非 Kimi:Anthropic Claude Team、OpenAI agent 群聊、Slack / Teams 加 agent first-class 才是致命级;Bull vs Bear 文档里 Trickle CEO 已警示的”薄壁垒”
一个扎心的反问:Richard 对”做得薄容易被抄”的答案是“数据飞轮”。但如果数据飞轮是护城河,Kimi 的数据规模一定大于 Slock,这条论据套在 Kimi 身上反而更强。Slock 真正的护城河应该是 Kimi 结构性做不到的三样:自托管合规 + 中立协议身份 + builder 社群 / 开源心智。
6. 新增 mental model —— 基础设施厂商的中立税
本次讨论最重的产出。由 Q3 抽象、Claude 命名(和 mental-models.md 已有的”留人税”同构):
核心:基础设施厂商(云 / 模型 / 设计工具 / 通信协议)向上延伸做平台时,撞上结构性问题——永远偏向自家生态。如果赛道对中立性本身有定价能力,3P 有稳固护城河,厂商被”中立税”征收;如果赛道核心价值在 bundling / 深度集成 / 默认值 / C 端无感处,厂商 bundling 会压死 3P。
四条决定性变量(同时起效、判断时逐条过):
- 中立性是否产品价值(跨厂商调度是真需求吗)
- 用户是否有锁定焦虑(B2B 有、C 端无)
- 底层是否 commodify(已稳 vs 仍在变化)
- Bundling 能否稀释定价(厂商能否免费塞进已有订阅)
应用锚点:Snowflake vs Redshift(3P 赢)/ Slack vs Teams(厂商赢大众、3P 守 niche)/ Figma vs Adobe(3P 赢)/ Cursor vs Claude Code(未决)/ Slock vs Kimi Claw(未决,四条占三条站得住,唯一危险是 bundling)。
对 Slock 的具体推论:四条变量里占三条(中立性付费 + 企业合规 + builder 定位),唯一危险是第 4 条 bundling——Kimi 若把 Claw 群组塞进 Pro 免费送,会直接压死 Slock 的 free / $20 档。定价防御应该往 $200 档倾斜,用团队 / 合规属性隔开大众流量,别和 Kimi Pro 正面碰 C 端免费入口。
详细条目已写入
~/.claude/memory/mental-models.md,含四条变量判断钩子 + 5
个横切应用案例。
7. 未展开 / 可升级
- Slock DD 层面的实际 ARR、活跃度、留存曲线 —— 不在 learning hub 范畴,属于投资 DD
- Richard 本人对”Kimi 动作是时间压缩信号”的反应和应对 plan —— 建议 Justin 下次和 Richard 对话时直接问
- Claw 群组机制性细节(跨厂商调用协议、Pro 订阅流转的技术实现、与 MCP 的关系)官方未公开,这是后续可升级 research 的明显 knowledge gap
citation_block 追加:discussion_added: "2026-04-21"