← All Articles

Kimi K2.6 开源:一个人,和他的 300 Agents

赛博禅心 · Original

Whole Picture

Kimi 昨天(2026-04-21)开源 K2.6,作者赛博禅心把这次发布拆成三件事并用同一根母题串起来——“点兵,多多益善”:任务层的 AgentSwarm、社交层的 Claw 群组、模型内部的 Attention Residuals。三者对应群体智能的三个同构切面:并行分工 / 多实体协作 / 深度加权。benchmark 对外战绩是 HLE、DeepSearchQA、SWE-Bench Pro 跑赢 GPT-5.4 / Opus 4.6 / Gemini 3.1 Pro 三家旗舰;内部 Claw-bench 比 K2.5 涨 10%;Agent 场景对标 Opus 4.6 但价格是 1/8。

这篇的可读点在结构:三件看似无关的发布被硬塞进一个”点兵”的隐喻框架,意外有说服力——它提示了一件事:群体智能不是只在 agent 层发生,它从模型内部就在发生。

重点段落解读

1. Agent 集群(AgentSwarm)—— 任务层点兵

“一次跑完,一整套产物同时出。Kimi 给这套起名 AgentSwarm,一次能拉 100 个不同专长的分身。分身用的都是 K2.6 底座,挂不同的 Skill 就分化出不同的专长。”

结构:一个 Coordinator + N 个同底座但不同 Skill 的 subagent。K2.6 相比 K2.5 代码能力 +20%、任务步骤数 -35%。

作者给的例子是让 Kimi 给 Dario Amodei 做画册:Coordinator 拆 9 阶段,研究子 agent 扒公开资料,排版子 agent 出 PDF,做表子 agent 整理决策节点 Excel,写稿子 agent 用第一人称写《Dear 2008》。同时跑完,产出 80 页 PPT。

Skill 的定位很关键:不是一段 prompt,而是”给 AI 的工作说明书”——把一份认可的产物(20 年前高盛并购白皮书、某篇研报)喂给 Kimi,20 分钟后你有一个可挂载的”高盛并购方法论 Skill”。

“集群解决产能,Skill 解决标准”

这句话是全文最紧的一句。它把 Anthropic 这一年的 Skill 机制(本质是 prompt 打包 + 工具选择经验)抽象成了一个“标准化的专业身份”概念。

→ 类比:Unix 的 --help + manpage,把能力做成可查可调的文档;Skill 做的就是把”工作流”做成可挂载的资产。

2. Claw 群组 —— 社交层点兵

“建群入口,Kimi 自己来当群聊协调员……把自己的龙虾、朋友的龙虾、阿里腾讯 MiniMax 别家模型的龙虾都拉进来。”

从 agent 内部协作升级到跨用户、跨厂商的多 agent 群聊

“AI 到这一步第一次有了社交关系”

作者给了一个金融场景锚点:新闻抛进群,审计虾挑风险、风控虾算回撤、分析师虾拉历史对比——用户最后决定听哪一只。

这是对抗 / 信息不对称 / 涌现的引入——AgentSwarm 是并行分工(没对抗),Claw 群组是多实体博弈。

→ 跨领域类比:传统金融 IC 会议的”多角色投票” / 阿西莫夫机器人三定律无法解决的”多机器人互相制衡”问题。

3. Attention Residuals(AttnRes)—— 模型内部点兵

论文链接:https://arxiv.org/abs/2603.15031

结构性改造:把 2015 年何恺明提出的残差连接(每层输出等权相加)改成每层自己学一组可学习权重,用 softmax 归一。

为什么重要

工程折中(Block AttnRes)

作者把这个概念提炼为 “sequence-depth duality”

这是本文里最硬的一段。

4. 群体智能的三层同构

“任务层的点兵是 Agent 集群,社交层的点兵是 Claw 群组,模型内部的点兵是 AttnRes。” “群体智能的关键词落在智能上:每个兵长什么样、该派去哪,模型得看得清。”

这个母题贯穿全文。三层的共同结构:

成员 协调机制 关键问题
任务层 subagent Coordinator 派活 拆什么 / 派给谁
社交层 跨用户跨厂商 agent 群聊协调员 听谁的 / 如何涌现
模型内部 各层 可学习权重 softmax 深层听前面哪些层

核心洞察:智能的成色不在于兵多,而在于分辨力——能不能区分每个兵的专长、贡献、置信度。

亮点 / 槽点 / 矛盾

亮点

槽点 / 需要警惕

矛盾点 / 值得继续挖

Discussion 补充(2026-04-21)

讨论主线:Q1 Skill 哲学地位 → Q2 三层同构真伪(转成查证 Coordinator 是算法还是工程)→ 未进 Q3。

1. Skill 不是单样本能倒推的(Justin 观点)

讨论 Q1 时,Justin 纠正了我对”一份作品 = 一个岗位 Skill”的乐观描述:

可命名观察 —— “单样本 ≠ 模式”:技术侧对应 few-shot → pattern 的采样不足;业务侧对应”听一个客户改产品”vs”听 10 个再动”;训练侧对应为什么 Kimi AttnRes 要用 sequence-depth duality(权重也要大量样本才学得到)。三个领域同一模式。未独立命名进 mental-models,可能太基础;留在此作为观察。

2. Coordinator 调度:算法 vs 工程(核心更新)

Q2 讨论中 Justin 问”Coordinator 调度到底是算法问题还是工程问题”。查证后发现两条路线分叉明显

Claude Code / Anthropic工程路线。Task tool 子 agent 就是另一个 CC 实例(禁止再派子 agent),调度全靠 description matching + system reminder + prompt engineering。Anthropic 没发过任何 RL 训练调度策略的论文。 证据:Jannes Klaas 通过 Claude Code Proxy 抓包反向分析(https://jannesklaas.github.io/ai/2025/07/20/claude-code-agent-design.html) + Anthropic 官方 sub-agents 文档

Kimi K2.5 / K2.6 AgentSwarm算法路线。方法叫 PARL(Parallel-Agent RL): - 冻结 sub-agent,只训 orchestrator - Reward 三项:r_perf(任务成败,主信号)+ r_parallel(激励真的 spawn)+ r_finish(惩罚乱 spawn 骗 reward);辅助 reward 训练末期退火到 0 - “Critical steps” = 最长并行链,激励平衡负载而非盲目并发 - K2.6 把 sub-agent 扩到 300、步数扩到 4000(标题”300 Agents”的来源)

证据:Phil Schmid 拆解 https://www.philschmid.de/kimi-composer-context(他读的是 K2.5 官方 paper,技术细节 paper 级精确)——二手可信但未独立验证

学术侧旁证:算法路线已形成小 cluster: - Puppeteer Orchestrator(arXiv 2505.19591, NeurIPS 2025,清华+上交+腾讯,REINFORCE 训练中心化 orchestrator) - NVIDIA Orchestrator-8B(2025) - MAGRPO(arXiv 2508.04652)

3. 这改写了 Q2 的判断 + Justin 的警惕

讨论前我判断”三层同构是修辞压结构”——错了,至少在 Kimi 这侧站得住脚:AgentSwarm 和 AttnRes 确实都是”学出来的注意力分配”,是同构的。但套到 Claude Code 上不成立——CC 只有 AgentSwarm 层且是工程实现。

所以文章的三层同构母题在 Kimi 生态内部自洽,跨厂商就断了。作者不是纯修辞,但隐含”所有 Agent Swarm 都是这样”的误导。

Justin 的警惕(2026-04-21):“不确定是不是吹牛”。合理。证据链诚实分层: - ✅ 学术路线真实存在(Puppeteer NeurIPS 2025 等平行工作)—— 高可信 - ✅ Kimi K2.5 PARL paper 真实—— 基于 Phil 二手拆解引用,高可信 - ⚠️ K2.6 产品真的跑的是 PARL—— 中可信。中国 AI 厂商常见的 marketing 话术是”paper 成果 = 产品能力”,技术存在 ≠ 产品真在用。K2.6 生产环境可能混了启发式 + RL 两层,不是纯 RL - ⚠️ 宣传用词警惕:看到”300 agents / 4000 steps”这类数字时,问”是 benchmark 跑分还是日常可复现”

4. 新增 mental model —— 编排路径之争

讨论产出、Justin 命名的可复用判断框架:多 agent 系统的 Coordinator 调度有”工程路线 vs 算法路线”两条分叉。详细条目已写入 ~/.claude/memory/mental-models.md,含 Anthropic / Kimi / 学术侧应用场景锚点 + 判断钩子(看到”我们 agent 能做 X”时问”编排策略是学出来的还是写出来的”)。

5. Q3 跨厂商 agent 联邦 + portfolio 公司 Slock 的竞争风险

Justin 校正了三条:

Slock 定位回顾(基于 ~/CC/Work/Deals/slock/Slock-One-Page-Memo.md):AI agent 版 Slack,本地 daemon 跨厂商调度多家 CLI agent(Claude Code / Codex / Kimi CLI / Nous Hermes),builder 产品定位,$60M pre 机构轮。Founder Richard Chien 是 Kimi CLI 核心作者——前 Kimi 员工做的产品和 Kimi 新 feature 正面竞争,结构性戏剧感强。

Kimi Claw 群组对 Slock 的影响分层

一个扎心的反问:Richard 对”做得薄容易被抄”的答案是“数据飞轮”。但如果数据飞轮是护城河,Kimi 的数据规模一定大于 Slock,这条论据套在 Kimi 身上反而更强。Slock 真正的护城河应该是 Kimi 结构性做不到的三样:自托管合规 + 中立协议身份 + builder 社群 / 开源心智

6. 新增 mental model —— 基础设施厂商的中立税

本次讨论最重的产出。由 Q3 抽象、Claude 命名(和 mental-models.md 已有的”留人税”同构):

核心:基础设施厂商(云 / 模型 / 设计工具 / 通信协议)向上延伸做平台时,撞上结构性问题——永远偏向自家生态。如果赛道对中立性本身有定价能力,3P 有稳固护城河,厂商被”中立税”征收;如果赛道核心价值在 bundling / 深度集成 / 默认值 / C 端无感处,厂商 bundling 会压死 3P。

四条决定性变量(同时起效、判断时逐条过):

  1. 中立性是否产品价值(跨厂商调度是真需求吗)
  2. 用户是否有锁定焦虑(B2B 有、C 端无)
  3. 底层是否 commodify(已稳 vs 仍在变化)
  4. Bundling 能否稀释定价(厂商能否免费塞进已有订阅)

应用锚点:Snowflake vs Redshift(3P 赢)/ Slack vs Teams(厂商赢大众、3P 守 niche)/ Figma vs Adobe(3P 赢)/ Cursor vs Claude Code(未决)/ Slock vs Kimi Claw(未决,四条占三条站得住,唯一危险是 bundling)

对 Slock 的具体推论:四条变量里占三条(中立性付费 + 企业合规 + builder 定位),唯一危险是第 4 条 bundling——Kimi 若把 Claw 群组塞进 Pro 免费送,会直接压死 Slock 的 free / $20 档。定价防御应该往 $200 档倾斜,用团队 / 合规属性隔开大众流量,别和 Kimi Pro 正面碰 C 端免费入口

详细条目已写入 ~/.claude/memory/mental-models.md,含四条变量判断钩子 + 5 个横切应用案例。

7. 未展开 / 可升级


citation_block 追加:discussion_added: "2026-04-21"