Hermes Agent:拆解「越用越聪明」的 AI Agent
这是什么
Hermes Agent 是 Nous Research 于 2026 年 2 月发布的开源自托管 AI agent,两个月内从 0 到 64k GitHub stars,核心叙事是”跟你一起成长的个人 AI 助手”。本文从技术架构、产品体验、用户反馈三个维度,将其与 OpenClaw 和 Claude Code 做系统对比,并讨论对个人 AI 体系的启发。
关键发现
Memory 系统是三级 fallback 架构:MEMORY.md(2200 字符硬限,冻结注入 system prompt)→ SQLite FTS5 全文搜索历史 session → 8 个可插拔 external memory provider(Honcho、Holographic、OpenViking 等)。设计有野心,但工程成熟度不足——gateway flush 失效、state.db 腐蚀、环境幻觉等 critical bug 未解。
“跨 session 连续性”没有魔法:拆开看全是常规操作——session 存 SQLite、FTS5 搜索、reset 前存 memory、context compression 分裂 session。Session 边界在 CLI 是进程生命周期,在 messaging 平台是 idle timeout(默认 24h)或 daily reset。“永不中断”的体验通过 MEMORY.md 快照 + session_search 缝合 gap,本质是”断了但记得”。
Skill 自动生成是核心差异化,但存在 self-evaluation bias:5+ tool calls 后自动提议 skill 化,使用中自动 patch。但 agent 自己判断 skill 质量,低质量与高质量无差别编码。独立的 DSPy+GEPA 进化项目是 research prototype,非 production-ready。
Token 开销是工程层面最大痛点:每次 API 调用 73% 固定开销(~13,935 tokens),日均可达 $131。12 小时 session 消耗 2.6M tokens,其中 69% 是 context replay 浪费。
Self-learning 默认关闭是最大期望落差:核心卖点 Honcho 需在 config.yaml 手动启用,与营销暗示的”开箱即用”严重不符。
社区热度背后有可疑信号:Reddit astroturfing 指控(新账号集中推广),$70M 融资全部 crypto VC(Paradigm 领投,token 计价非股权),Nous Research 核心团队来自 Web3——token 持有者有隐性动机推高项目可见度。
生态成熟度排序:OpenClaw(346k stars / 44k skills / 3.2M MAU)>> Claude Code(112k stars / Anthropic 官方)>> Hermes(64k stars / 早期)
三种 Memory 哲学
Hermes、OpenClaw、CC 代表了 AI agent memory 设计的三条路线:
Hermes = Bounded-curated:严格字符上限(2200+1375
chars),agent 自主管理增删,满了要 consolidate。优点是 token
消耗可预测、保护 prefix
cache;缺点是复杂项目信息被压缩到”电报体”——一位用户展示其 90% 容量的
MEMORY.md:"PG+S3, NO KAFKA/REDIS. PALS=orchestrator locks..."。
OpenClaw = Unbounded-filesystem:写磁盘即记忆,MEMORY.md 无上限,加 Dreaming 三阶段自动 consolidation(Light→REM→Deep,六维加权评分 + 三重 gate)。优点是容量无忧;缺点是 token 注入不可预测,Dreaming 仍 experimental。
CC = Routed-structured:人工定义路由表(10+ 分文件),信号驱动写入(被纠正/做了选择/新配置等),vec-search 语义检索 + cron 抽取管道。优点是结构化和可维护性最强;缺点是人工成本最高。
核心张力:bounded-curated 省 token 但信息不足,unbounded-filesystem 信息充分但 token 失控,routed-structured 两者兼顾但依赖人工。
8 个 Memory Provider 中值得关注的
Hermes 的 8 个 external memory provider 中,技术上有启发价值的是三个:
Honcho(辩证用户建模):不只记”用户说了什么”,还异步推理”用户可能是什么样的人”——生成假设并在后续交互中验证。五档 dialecticReasoningLevel,多 agent 共享用户模型。这比被动记录用户偏好更主动。
Holographic(trust scoring):memory 条目有置信度分数,helpful +0.05 / unhelpful -0.10 非对称反馈——验证一个错误事实需要两倍的正面反馈才能恢复。HRR 代数查询做亚毫秒级的实体关联检索,完全本地。
OpenViking(L0/L1/L2 分层检索):字节跳动出品。L0 ~100 tokens 做快速过滤,L1 ~2k tokens 做 rerank,L2 无限制按需加载。这个分层思路对任何 memory 系统都有参考价值。
产品体验差异
- Setup:Hermes 最流畅(curl 一行 + wizard 2 分钟),CC 最简(npm install 即用),OpenClaw 最复杂(30 分钟 + 100 子命令)
- 多平台:Hermes 独有 14+ 平台原生 gateway,CC 只有 terminal,OpenClaw 需配 extension
- 模型灵活度:Hermes 最高(200+ 模型 + 本地推理,运行时热切换),CC 最低(绑定 Claude 系列)
- 杀手锏:
hermes claw migrate一键从 OpenClaw 迁移——直接在对手家门口抢人
Hermes 为什么火?
三层原因:(1) 真实产品差异化——抓住了 OpenClaw memory 可靠性差的痛点,setup 体验显著更好;(2) 时机——OpenClaw 2026 年认证体验恶化 + “越用越聪明”叙事成为共识;(3) Web3 社区运营能力——$70M crypto VC 融资、token 激励、擅长叙事放大。
类比:Hermes 像 2024 年初的 Cursor 之于 VS Code——不是全面超越,而是在一个维度(memory-native)上做到显著更好,借助叙事势能放大差异。最终能否真的超越,取决于工程可靠性能否跟上营销承诺。
Justin 视角
讨论中形成的几个判断:
Auto skill creation 是伪问题。CC 体系有 50 个活跃 skill,高频用 ~10 个,偶尔 10-20 个,剩余很少用。Skill 的价值在精度和命中率,不在数量。Hermes 不断往里加但没回答”什么时候删”。
“跨 session 连续性”是叙事包装。拆开看没有任何新发明。CC 的 cron 抽取管道(session → diary-extract → memory/日记/wiki → vec-search)在信息质量上碾压 Hermes 的原始 session FTS5 全文搜索——经过 LLM 抽取和路由的结构化知识,远好于对原始对话的关键词匹配。
Session fallback 搜索值得做。讨论中产出了 L0/L1/L2 分层设计:L0 结构化知识(现有 vec-search)→ L1 session extracts(已存在,带 session_id)→ L2 原始 JSONL(不索引,通过 session_id 定向读取)。低成本高收益。
完整 research 报告见
Learning/Research/2026-04-12-hermes-agent-research.md