Hermes Agent：拆解「越用越聪明」的 AI Agent

2026-04-12

这是什么

Hermes Agent 是 Nous Research 于 2026 年 2 月发布的开源自托管 AI agent，两个月内从 0 到 64k GitHub stars，核心叙事是”跟你一起成长的个人 AI 助手”。本文从技术架构、产品体验、用户反馈三个维度，将其与 OpenClaw 和 Claude Code 做系统对比，并讨论对个人 AI 体系的启发。

关键发现

Memory 系统是三级 fallback 架构：MEMORY.md（2200 字符硬限，冻结注入 system prompt）→ SQLite FTS5 全文搜索历史 session → 8 个可插拔 external memory provider（Honcho、Holographic、OpenViking 等）。设计有野心，但工程成熟度不足——gateway flush 失效、state.db 腐蚀、环境幻觉等 critical bug 未解。
“跨 session 连续性”没有魔法：拆开看全是常规操作——session 存 SQLite、FTS5 搜索、reset 前存 memory、context compression 分裂 session。Session 边界在 CLI 是进程生命周期，在 messaging 平台是 idle timeout（默认 24h）或 daily reset。“永不中断”的体验通过 MEMORY.md 快照 + session_search 缝合 gap，本质是”断了但记得”。
Skill 自动生成是核心差异化，但存在 self-evaluation bias：5+ tool calls 后自动提议 skill 化，使用中自动 patch。但 agent 自己判断 skill 质量，低质量与高质量无差别编码。独立的 DSPy+GEPA 进化项目是 research prototype，非 production-ready。
Token 开销是工程层面最大痛点：每次 API 调用 73% 固定开销（~13,935 tokens），日均可达 $131。12 小时 session 消耗 2.6M tokens，其中 69% 是 context replay 浪费。
Self-learning 默认关闭是最大期望落差：核心卖点 Honcho 需在 config.yaml 手动启用，与营销暗示的”开箱即用”严重不符。
社区热度背后有可疑信号：Reddit astroturfing 指控（新账号集中推广），$70M 融资全部 crypto VC（Paradigm 领投，token 计价非股权），Nous Research 核心团队来自 Web3——token 持有者有隐性动机推高项目可见度。
生态成熟度排序：OpenClaw（346k stars / 44k skills / 3.2M MAU）>> Claude Code（112k stars / Anthropic 官方）>> Hermes（64k stars / 早期）

三种 Memory 哲学

Hermes、OpenClaw、CC 代表了 AI agent memory 设计的三条路线：

Hermes = Bounded-curated：严格字符上限（2200+1375 chars），agent 自主管理增删，满了要 consolidate。优点是 token 消耗可预测、保护 prefix cache；缺点是复杂项目信息被压缩到”电报体”——一位用户展示其 90% 容量的 MEMORY.md："PG+S3, NO KAFKA/REDIS. PALS=orchestrator locks..."。

OpenClaw = Unbounded-filesystem：写磁盘即记忆，MEMORY.md 无上限，加 Dreaming 三阶段自动 consolidation（Light→REM→Deep，六维加权评分 + 三重 gate）。优点是容量无忧；缺点是 token 注入不可预测，Dreaming 仍 experimental。

CC = Routed-structured：人工定义路由表（10+ 分文件），信号驱动写入（被纠正/做了选择/新配置等），vec-search 语义检索 + cron 抽取管道。优点是结构化和可维护性最强；缺点是人工成本最高。

核心张力：bounded-curated 省 token 但信息不足，unbounded-filesystem 信息充分但 token 失控，routed-structured 两者兼顾但依赖人工。

8 个 Memory Provider 中值得关注的

Hermes 的 8 个 external memory provider 中，技术上有启发价值的是三个：

Honcho（辩证用户建模）：不只记”用户说了什么”，还异步推理”用户可能是什么样的人”——生成假设并在后续交互中验证。五档 dialecticReasoningLevel，多 agent 共享用户模型。这比被动记录用户偏好更主动。

Holographic（trust scoring）：memory 条目有置信度分数，helpful +0.05 / unhelpful -0.10 非对称反馈——验证一个错误事实需要两倍的正面反馈才能恢复。HRR 代数查询做亚毫秒级的实体关联检索，完全本地。

OpenViking（L0/L1/L2 分层检索）：字节跳动出品。L0 ~100 tokens 做快速过滤，L1 ~2k tokens 做 rerank，L2 无限制按需加载。这个分层思路对任何 memory 系统都有参考价值。

产品体验差异

Setup：Hermes 最流畅（curl 一行 + wizard 2 分钟），CC 最简（npm install 即用），OpenClaw 最复杂（30 分钟 + 100 子命令）
多平台：Hermes 独有 14+ 平台原生 gateway，CC 只有 terminal，OpenClaw 需配 extension
模型灵活度：Hermes 最高（200+ 模型 + 本地推理，运行时热切换），CC 最低（绑定 Claude 系列）
杀手锏：hermes claw migrate 一键从 OpenClaw 迁移——直接在对手家门口抢人

Hermes 为什么火？

三层原因：(1) 真实产品差异化——抓住了 OpenClaw memory 可靠性差的痛点，setup 体验显著更好；(2) 时机——OpenClaw 2026 年认证体验恶化 + “越用越聪明”叙事成为共识；(3) Web3 社区运营能力——$70M crypto VC 融资、token 激励、擅长叙事放大。

类比：Hermes 像 2024 年初的 Cursor 之于 VS Code——不是全面超越，而是在一个维度（memory-native）上做到显著更好，借助叙事势能放大差异。最终能否真的超越，取决于工程可靠性能否跟上营销承诺。

Justin 视角

讨论中形成的几个判断：

Auto skill creation 是伪问题。CC 体系有 50 个活跃 skill，高频用 ~10 个，偶尔 10-20 个，剩余很少用。Skill 的价值在精度和命中率，不在数量。Hermes 不断往里加但没回答”什么时候删”。

“跨 session 连续性”是叙事包装。拆开看没有任何新发明。CC 的 cron 抽取管道（session → diary-extract → memory/日记/wiki → vec-search）在信息质量上碾压 Hermes 的原始 session FTS5 全文搜索——经过 LLM 抽取和路由的结构化知识，远好于对原始对话的关键词匹配。

Session fallback 搜索值得做。讨论中产出了 L0/L1/L2 分层设计：L0 结构化知识（现有 vec-search）→ L1 session extracts（已存在，带 session_id）→ L2 原始 JSONL（不索引，通过 session_id 定向读取）。低成本高收益。

完整 research 报告见 Learning/Research/2026-04-12-hermes-agent-research.md