Kimi K2.6 开源：一个人，和他的 300 Agents

赛博禅心 · Original

Whole Picture

Kimi 昨天（2026-04-21）开源 K2.6，作者赛博禅心把这次发布拆成三件事并用同一根母题串起来——“点兵，多多益善”：任务层的 AgentSwarm、社交层的 Claw 群组、模型内部的 Attention Residuals。三者对应群体智能的三个同构切面：并行分工 / 多实体协作 / 深度加权。benchmark 对外战绩是 HLE、DeepSearchQA、SWE-Bench Pro 跑赢 GPT-5.4 / Opus 4.6 / Gemini 3.1 Pro 三家旗舰；内部 Claw-bench 比 K2.5 涨 10%；Agent 场景对标 Opus 4.6 但价格是 1/8。

这篇的可读点在结构：三件看似无关的发布被硬塞进一个”点兵”的隐喻框架，意外有说服力——它提示了一件事：群体智能不是只在 agent 层发生，它从模型内部就在发生。

重点段落解读

1. Agent 集群（AgentSwarm）—— 任务层点兵

“一次跑完，一整套产物同时出。Kimi 给这套起名 AgentSwarm，一次能拉 100 个不同专长的分身。分身用的都是 K2.6 底座，挂不同的 Skill 就分化出不同的专长。”

结构：一个 Coordinator + N 个同底座但不同 Skill 的 subagent。K2.6 相比 K2.5 代码能力 +20%、任务步骤数 -35%。

作者给的例子是让 Kimi 给 Dario Amodei 做画册：Coordinator 拆 9 阶段，研究子 agent 扒公开资料，排版子 agent 出 PDF，做表子 agent 整理决策节点 Excel，写稿子 agent 用第一人称写《Dear 2008》。同时跑完，产出 80 页 PPT。

Skill 的定位很关键：不是一段 prompt，而是”给 AI 的工作说明书”——把一份认可的产物（20 年前高盛并购白皮书、某篇研报）喂给 Kimi，20 分钟后你有一个可挂载的”高盛并购方法论 Skill”。

“集群解决产能，Skill 解决标准”

这句话是全文最紧的一句。它把 Anthropic 这一年的 Skill 机制（本质是 prompt 打包 + 工具选择经验）抽象成了一个“标准化的专业身份”概念。

→ 类比：Unix 的 --help + manpage，把能力做成可查可调的文档；Skill 做的就是把”工作流”做成可挂载的资产。

2. Claw 群组 —— 社交层点兵

“建群入口，Kimi 自己来当群聊协调员……把自己的龙虾、朋友的龙虾、阿里腾讯 MiniMax 别家模型的龙虾都拉进来。”

从 agent 内部协作升级到跨用户、跨厂商的多 agent 群聊：

单群最多 50 个成员，人虾混编
跨厂商（阿里 / 腾讯 / MiniMax）—— 如属实，这是第一个公开的”跨 LLM 厂商的 agent 联邦”尝试
订阅额度跟着虾流转：朋友的 Pro 虾进你群，能力跟着过来
专家训过的虾可以”租给”付费用户

“AI 到这一步第一次有了社交关系”

作者给了一个金融场景锚点：新闻抛进群，审计虾挑风险、风控虾算回撤、分析师虾拉历史对比——用户最后决定听哪一只。

这是对抗 / 信息不对称 / 涌现的引入——AgentSwarm 是并行分工（没对抗），Claw 群组是多实体博弈。

→ 跨领域类比：传统金融 IC 会议的”多角色投票” / 阿西莫夫机器人三定律无法解决的”多机器人互相制衡”问题。

3. Attention Residuals（AttnRes）—— 模型内部点兵

论文链接：https://arxiv.org/abs/2603.15031

结构性改造：把 2015 年何恺明提出的残差连接（每层输出等权相加）改成每层自己学一组可学习权重，用 softmax 归一。

为什么重要：

默认残差的问题：第 30 层拿到的是前 29 层一锅端的总和，分不出哪层关键、哪层噪声
Dilution 副作用：PreNorm 架构下，深层要让信号不被覆盖只能把输出幅度写大 → 各层输出数值量级随深度线性上涨，已在多个开源模型观察到
AttnRes 做法：每层学一个分布，告诉自己前 N 层里哪些该多听。Dilution 消失，深层输出量级有界，反向梯度分布更均匀

工程折中（Block AttnRes）：

理论最优：每层注意到前面所有层。大规模分布式训练下通信量爆炸（O(Ld)）
实际：打 8 个 block，只传 block 级表示，通信量降到 O(Nd)
效果：同算力下验证 loss 等价基线的 1.25× 算力
已合进 Kimi Linear 48B / 3B 激活模型，1.4T token 训练，下游全面涨点

作者把这个概念提炼为 “sequence-depth duality”：

时间维度：Transformer 替代 RNN（把序列建模从递归改成注意力）
深度维度：AttnRes 替代残差（把深度建模从等权加和改成注意力加权）
两步同构。

这是本文里最硬的一段。

4. 群体智能的三层同构

“任务层的点兵是 Agent 集群，社交层的点兵是 Claw 群组，模型内部的点兵是 AttnRes。” “群体智能的关键词落在智能上：每个兵长什么样、该派去哪，模型得看得清。”

这个母题贯穿全文。三层的共同结构：

层	成员	协调机制	关键问题
任务层	subagent	Coordinator 派活	拆什么 / 派给谁
社交层	跨用户跨厂商 agent	群聊协调员	听谁的 / 如何涌现
模型内部	各层	可学习权重 softmax	深层听前面哪些层

核心洞察：智能的成色不在于兵多，而在于分辨力——能不能区分每个兵的专长、贡献、置信度。

亮点 / 槽点 / 矛盾

亮点：

“集群解决产能，Skill 解决标准”—— 把 Anthropic Skill 机制的哲学说清楚了
sequence-depth duality —— 一个可迁移的心智模型
把三件事合并到群体智能母题的结构感

槽点 / 需要警惕：

全部转述官方口径，没有独立 benchmark 验证
Claw 群组的跨厂商联邦部分描述乐观，工程/商业可行性存疑（阿里腾讯真的会让自己的 agent 进 Kimi 群？）
Dario Amodei 画册的例子是作者自己跑的 demo，产出质量没附图验证
arXiv ID 2603.15031 看起来是未来 ID（2026.03 投的）—— 需确认

矛盾点 / 值得继续挖：

Agent 数量上限：文案说”300 Agents”但正文说”一次拉 100 个分身” → 究竟上限是多少？
并行 vs 多实体博弈的边界：AgentSwarm（并行无对抗）和 Claw 群组（多实体博弈）在什么场景各自胜出？
AttnRes 是否会推广：是否只适合 Kimi Linear 架构，还是能成为新基建？

Discussion 补充（2026-04-21）

讨论主线：Q1 Skill 哲学地位 → Q2 三层同构真伪（转成查证 Coordinator 是算法还是工程）→ 未进 Q3。

1. Skill 不是单样本能倒推的（Justin 观点）

讨论 Q1 时，Justin 纠正了我对”一份作品 = 一个岗位 Skill”的乐观描述：

单样本 → 单 Skill 是伪命题。Skill 是”活的”——同样输入能产出多种结果，单一产物只能抓到其中一次选择的投影
多样本 → 抽象 Skill 才靠谱
无论哪条路，人 review 都不能省
证据：Justin 自己的 wiki 就是 LLM 自动抽取的，“勉强可用”——这是对 Kimi”扔一份产物 20 分钟出 Skill”话术的现实检验

可命名观察 —— “单样本 ≠ 模式”：技术侧对应 few-shot → pattern 的采样不足；业务侧对应”听一个客户改产品”vs”听 10 个再动”；训练侧对应为什么 Kimi AttnRes 要用 sequence-depth duality（权重也要大量样本才学得到）。三个领域同一模式。未独立命名进 mental-models，可能太基础；留在此作为观察。

2. Coordinator 调度：算法 vs 工程（核心更新）

Q2 讨论中 Justin 问”Coordinator 调度到底是算法问题还是工程问题”。查证后发现两条路线分叉明显：

Claude Code / Anthropic：工程路线。Task tool 子 agent 就是另一个 CC 实例（禁止再派子 agent），调度全靠 description matching + system reminder + prompt engineering。Anthropic 没发过任何 RL 训练调度策略的论文。 证据：Jannes Klaas 通过 Claude Code Proxy 抓包反向分析（https://jannesklaas.github.io/ai/2025/07/20/claude-code-agent-design.html） + Anthropic 官方 sub-agents 文档

Kimi K2.5 / K2.6 AgentSwarm：算法路线。方法叫 PARL（Parallel-Agent RL）： - 冻结 sub-agent，只训 orchestrator - Reward 三项：r_perf（任务成败，主信号）+ r_parallel（激励真的 spawn）+ r_finish（惩罚乱 spawn 骗 reward）；辅助 reward 训练末期退火到 0 - “Critical steps” = 最长并行链，激励平衡负载而非盲目并发 - K2.6 把 sub-agent 扩到 300、步数扩到 4000（标题”300 Agents”的来源）

证据：Phil Schmid 拆解 https://www.philschmid.de/kimi-composer-context（他读的是 K2.5 官方 paper，技术细节 paper 级精确）——二手可信但未独立验证

学术侧旁证：算法路线已形成小 cluster： - Puppeteer Orchestrator（arXiv 2505.19591, NeurIPS 2025，清华+上交+腾讯，REINFORCE 训练中心化 orchestrator） - NVIDIA Orchestrator-8B（2025） - MAGRPO（arXiv 2508.04652）

3. 这改写了 Q2 的判断 + Justin 的警惕

讨论前我判断”三层同构是修辞压结构”——错了，至少在 Kimi 这侧站得住脚：AgentSwarm 和 AttnRes 确实都是”学出来的注意力分配”，是同构的。但套到 Claude Code 上不成立——CC 只有 AgentSwarm 层且是工程实现。

所以文章的三层同构母题在 Kimi 生态内部自洽，跨厂商就断了。作者不是纯修辞，但隐含”所有 Agent Swarm 都是这样”的误导。

Justin 的警惕（2026-04-21）：“不确定是不是吹牛”。合理。证据链诚实分层： - ✅ 学术路线真实存在（Puppeteer NeurIPS 2025 等平行工作）—— 高可信 - ✅ Kimi K2.5 PARL paper 真实—— 基于 Phil 二手拆解引用，高可信 - ⚠️ K2.6 产品真的跑的是 PARL—— 中可信。中国 AI 厂商常见的 marketing 话术是”paper 成果 = 产品能力”，技术存在 ≠ 产品真在用。K2.6 生产环境可能混了启发式 + RL 两层，不是纯 RL - ⚠️ 宣传用词警惕：看到”300 agents / 4000 steps”这类数字时，问”是 benchmark 跑分还是日常可复现”

4. 新增 mental model —— 编排路径之争

讨论产出、Justin 命名的可复用判断框架：多 agent 系统的 Coordinator 调度有”工程路线 vs 算法路线”两条分叉。详细条目已写入 ~/.claude/memory/mental-models.md，含 Anthropic / Kimi / 学术侧应用场景锚点 + 判断钩子（看到”我们 agent 能做 X”时问”编排策略是学出来的还是写出来的”）。

5. Q3 跨厂商 agent 联邦 + portfolio 公司 Slock 的竞争风险

Justin 校正了三条：

租虾经济不算 Kimi big upside——理由是模型迭代会持续折旧 agent 租金，App Store 能吃 10 年但 agent 每代重训，租赁市场永远在追模型，never 沉淀。这是”滑梯市场”，不是沉淀性资产
跨厂商协同必然普世——不是单厂商博弈，会像 HTTP / OAuth 一样变成基础设施，不构成任何一家的差异化壁垒
Kimi 做 agent 租赁对 portfolio 公司 Slock 存在竞争风险

Slock 定位回顾（基于 ~/CC/Work/Deals/slock/Slock-One-Page-Memo.md）：AI agent 版 Slack，本地 daemon 跨厂商调度多家 CLI agent（Claude Code / Codex / Kimi CLI / Nous Hermes），builder 产品定位，$60M pre 机构轮。Founder Richard Chien 是 Kimi CLI 核心作者——前 Kimi 员工做的产品和 Kimi 新 feature 正面竞争，结构性戏剧感强。

Kimi Claw 群组对 Slock 的影响分层：

短期 6-12 月正面：Kimi 做市场教育，Slock 多对比锚点（“中心化 vs 本地 / 倾向厂商 vs 中立”故事更好讲），投资人易理解
中期 12-24 月风险：Kimi 品牌 + 免费入口 + Pro 升级路径 = 超低 PLG 成本，吃掉大众心智；Slock 的独享赛道窗口可能从 12-18 月压缩到 6 个月内必须出现差异化信号
长期 24+ 月真威胁非 Kimi：Anthropic Claude Team、OpenAI agent 群聊、Slack / Teams 加 agent first-class 才是致命级；Bull vs Bear 文档里 Trickle CEO 已警示的”薄壁垒”

一个扎心的反问：Richard 对”做得薄容易被抄”的答案是“数据飞轮”。但如果数据飞轮是护城河，Kimi 的数据规模一定大于 Slock，这条论据套在 Kimi 身上反而更强。Slock 真正的护城河应该是 Kimi 结构性做不到的三样：自托管合规 + 中立协议身份 + builder 社群 / 开源心智。

6. 新增 mental model —— 基础设施厂商的中立税

本次讨论最重的产出。由 Q3 抽象、Claude 命名（和 mental-models.md 已有的”留人税”同构）：

核心：基础设施厂商（云 / 模型 / 设计工具 / 通信协议）向上延伸做平台时，撞上结构性问题——永远偏向自家生态。如果赛道对中立性本身有定价能力，3P 有稳固护城河，厂商被”中立税”征收；如果赛道核心价值在 bundling / 深度集成 / 默认值 / C 端无感处，厂商 bundling 会压死 3P。

四条决定性变量（同时起效、判断时逐条过）：

中立性是否产品价值（跨厂商调度是真需求吗）
用户是否有锁定焦虑（B2B 有、C 端无）
底层是否 commodify（已稳 vs 仍在变化）
Bundling 能否稀释定价（厂商能否免费塞进已有订阅）

应用锚点：Snowflake vs Redshift（3P 赢）/ Slack vs Teams（厂商赢大众、3P 守 niche）/ Figma vs Adobe（3P 赢）/ Cursor vs Claude Code（未决）/ Slock vs Kimi Claw（未决，四条占三条站得住，唯一危险是 bundling）。

对 Slock 的具体推论：四条变量里占三条（中立性付费 + 企业合规 + builder 定位），唯一危险是第 4 条 bundling——Kimi 若把 Claw 群组塞进 Pro 免费送，会直接压死 Slock 的 free / $20 档。定价防御应该往 $200 档倾斜，用团队 / 合规属性隔开大众流量，别和 Kimi Pro 正面碰 C 端免费入口。

详细条目已写入 ~/.claude/memory/mental-models.md，含四条变量判断钩子 + 5 个横切应用案例。

7. 未展开 / 可升级

Slock DD 层面的实际 ARR、活跃度、留存曲线 —— 不在 learning hub 范畴，属于投资 DD
Richard 本人对”Kimi 动作是时间压缩信号”的反应和应对 plan —— 建议 Justin 下次和 Richard 对话时直接问
Claw 群组机制性细节（跨厂商调用协议、Pro 订阅流转的技术实现、与 MCP 的关系）官方未公开，这是后续可升级 research 的明显 knowledge gap

citation_block 追加：discussion_added: "2026-04-21"