深度讨论新一轮模型发布：当智能进入月更时代

拾象 Best Ideas / Sealand · 2026-04-30 · Original

来源：「拾象 Best Ideas」社群讨论会纪要 · 2026-04 原文：当智能进入月更时代精读日期：2026-04-30 | 模式：讨论精读（chat 分块对话 + 落盘）

核心定调

“当 AI 开始加速 AI，模型公司的迭代周期正在被进一步压缩，模型公司开始进入’月更时代’。”

5 个 Insight 的逻辑链： 1. 新一波模型真实体感是啥（拍照定位） 2. 模型吃 harness → harness 和 Skills 创业的机会缩窗 3. 算力跟不上 → 算力是真瓶颈，不是数据 4. Token 涨价 → AI 商业模式从价格战转性能定价 5. 模型已过拐点 → 下半场拼的是”上下文 + 外部能力对接”，不是模型本身

一句话整篇主旨：模型加速到月更，下一阶段的胜负不在模型本身——而在 token 价格 / 算力供给 / 人 / 数据这四条不在模型公司控制之内的东西。

Insight 01 — 三个新模型一线实测

Opus 4.7

优点： - Long horizon task 表现明显提升——给 AI 一个需要多步推进的复杂目标（比如”重构整个项目的鉴权体系”），Opus 4.7 推得更深，且不是靠无节制烧 token——是 token 配比更高效 - 多模态理解明显进步——已经追平主流多模态模型，可能为了解锁设计类垂直场景

缺点： - 文字表达能力退步了——4.7 不像 4.6 那样会抓重点、说话不绕弯

两层解释：

技术层 trade-off：Anthropic 习惯从 pre-training 层面做优化（pre-training = 预训练，模型最大量的初始训练阶段；post-training = 后训练，比如 RLHF / SFT 这类微调）。每次配比变化对体验都有影响，加上 RL 持续迭代和 tokenizer（分词器，把文字切成 token）的更换，副作用是真的
战略层：如果不在 Opus 和 Sonnet 之间做差异化，用户什么任务都用 Opus，Anthropic 算力会更吃不消。现在的结果反而健康——做 coding 用 Opus 4.7，做文字表达切到 Sonnet。这是 Anthropic 主动诱导的分工

文章引 Dario 之前的解释：Haiku / Sonnet / Opus 三档不是简单”低/中/高”智能，是”能力 / 速度 / 成本”曲线上的不同取舍。模型升级 ≠ 所有能力同步 +1。

GPT-5.5

三个观察：

不是纯 post-training 压榨——过去 5.3 / 5.4 都是只在 post-training 层加强 Codex 方向；5.5 是从 pre-training 层做实质改进。这条很重要：意味着 OpenAI 验证了”我们也能做好 agentic 任务”
速度变快——而对 coding agent 来说速度本身就是能力的一部分。“很多代码任务不是一次性写对，而是在环境里不断试错、运行、修改。当模型足够快，整个试错链路也会变快，实际效率会被放大。”（美国上班时间会明显变慢——典型供需失衡）
GPT-5.5 是狙击 Opus 4.7 / 4.6 的模型，不是大招

今天的 SOTA 仍然是 Opus 4.7——核心领先优势在 brainstorm 和 planning。

注：原文没解释 SOTA = State Of The Art = 业内最强基准

DeepSeek V4

四个判断：

开源 SOTA on agentic & coding——但跟闭源 SOTA 仍有差距，约 6 个月以内
极致性价比——KV cache（“键值缓存”，Transformer 推理时为加速重复计算保存的中间状态，模型变大 KV cache 越大越吃显存）做了极致压缩 + FLOPs（浮点运算次数，衡量模型计算量）优化。再叠加国产算力，价格还能继续打下来
DeepSeek 一直押 long context（长上下文，模型一次能读多少 token），认为是下一代范式基础——但这个能力提升的体感不像 coding & agentic 那么直观。如果 V4 早半年发，蹭 OpenClaw 那波 agentic 热潮效果会更好
DeepSeek 跑通华为 950 集群——这条意义被低估了。大家关注”国产替代”，但更值得关注的视角是 DeepSeek 又比别人早半步——以后用类似架构的厂商上 950 门槛会显著降低

DeepSeek 历史意义被拔高： > “DeepSeek 已经演化成中国为数不多能够独立探索新模型架构的厂商。每次 DeepSeek 的新架构出来，即使没在能力上达到 SOTA，也会带动智谱 / Kimi 等国内厂商跟进架构升级，连带降低整个行业的 inference 和训练成本。”

Google 异常的安静

“可能不是因为落后了，而是因为觉得自己有把握。Google 的算力资源实在太充裕了，它的 de-risk 集群都比 OpenAI 和 Anthropic 最大的训练集群要大。”

注：de-risk 集群 = 用来”压力测试 / 排错 / 试新方案”的备用集群，不是主训练集群

文章判断 Google 不急于回应每次发布——内部团队对自家模型有信心。

Insight 02 — 模型吃掉一切脚手架（最值钱的一段）

模型把”脚手架”训进去的速度惊人

文章给的具体例子（GPT-5.4 vs GPT-5.3）：

“GPT-5.4 发布后，在同样的需求下，它和前一天的 GPT-5.3 已经呈现出完全不同的行为模式：有朋友提出了一个 iOS App 的开发需求，Codex 没有停留在写代码或给步骤，而是主动识别到手机和电脑处在同一网络环境里，进一步判断可以直接把 App 部署到手机上，并挂上调试进程。随后，它会让用户直接打开 App 体验，自己在后台观察日志、记录用户操作行为、定位 bug，再修改代码、重新部署。”

这套闭环过去通常需要外部脚手架（外部代码 / 工具 / orchestration 来组织模型）来组织——现在模型已经自己成了一个能跑完整开发流程的软件工程师。

注：harness / 脚手架 = 套在 LLM 外面的代码层，负责把任务拆步骤、调工具、维护状态、组织 multi-agent 协作。Claude Code、Cursor、Codex CLI 都是 harness。

Opus 4.7 用 team coordination 训 long-horizon —— 老 harness 用户反而效果变差

整篇最值钱的判断之一——直接打脸”我用 Opus 4.6 调好了 harness 应该没事”。

文章给的具体症状：

用户类型	4.7 体验
没有搭建自己脚手架	AI 能力有飞跃，long running task 自发跑很长时间
基于 Opus 4.6 精心定制过脚手架	效果变差：token 消耗量明显增大、频繁触发 context 压缩、积极要求开新 session、即使设置 YOLO 模式也无视指令

注释： - YOLO 模式 = “You Only Live Once” — 让 agent 自动运行不问用户确认的模式 - context 压缩 = 当对话太长超出 context window，模型主动总结早期对话腾空间——会损失精度

文章给的解释：

“Opus 4.7 在 RL 训练中是以 team coordination 的模式来做 long horizon task 的。所以最适配的方式是把主 agent 设计成 team coordinator，用 agent-to-agent 的方式去跑，而不是直接让主 agent 去自主完成长程任务。”

从 GPT-5.2 开始 OpenAI 和 Anthropic 模型能力没差，差距全在 harness

“差距更多来自 Codex 和 Claude Code 之间 harness 的差距，而这个 harness 的差距在 Q1 也已经逐渐追平。”

文章引一个开发者春节后切到 Codex 全面替代 CC——理由：整体体验更稳定、速度、开发能力、供应量、稳定性更好、账号风险更低。

趋势小结：模型和 harness 耦合越来越紧

“新模型不是一个抽象的、更强的’通用大脑’，而是带着某种非常具体的使用范式一起发布。它的训练方式、system prompt、RL 数据分布，都会暗含’应该怎么使用它’。如果外部开发者没有按这个具体方法使用，效果可能会大打折扣。”

含义：你不能只看 model card / benchmark 选模型——还要看这个模型期望被怎么用。

对 Skills / harness 创业的判断（最直白的部分）

“对 harness 领域的创业公司来说是危险的信号：如果你的 harness 是根据上一代模型的能力和缺陷设计出来的，一旦下一代模型把这些能力训进去了，你的 harness 会瞬间变成 technical debt。”

“除非 harness 本身更像一个可以随模型自动生成、自动编译、自动适配的系统，否则每次模型升级都会带来一次重构。”

对 Skills 的判断更尖锐：

类型	定义	命运
类型 1：Capability uplift（能力提升）	让模型学会原本不会的事情	保鲜期 ~3 个月——有价值的部分一定会成为模型的养料，下一个版本被训进模型
类型 2：Encoded preference（偏好编码）	把个人偏好喂给模型	因为高度个性化而分发价值有限

总判断：Skills 的商业化更像一个短期窗口，而不是一个长期平台型机会。

数据飞轮在 coding/agentic 已经建立了吗？

文章的回答是部分： - 用户原始数据不能直接拿来训练（清洗成本极高） - 数据飞轮体现在产品层面：拥有最多程序员在你平台编程，能从统计意义上理解他们的 preference / 编程习惯 / 介入点 → 反哺产品迭代 - 但这是不是足够深的壁垒，目前还不好说

Insight 03 — 算力瓶颈

主旨

“过去两三年大家反复讨论 Scaling Law 能不能继续，最终总是落到数据够不够的问题上，但现在往后看一到两代模型，数据不是卡点，算力才是。”

为啥？头部模型公司已经进入 AI 加速 AI 研发的自循环——AI 写 code 帮 AI 训练，迭代速度内生加速，算力需求会指数级涨。

最新发布的 Mythos 超大参数模型——最大限制就是需要极大集群 serve，估计要 NVIDIA GB200/GB300 NVL72 或 Google TPU7x / Ironwood 这种级别的硬件。

注：NVL72 = NVIDIA Blackwell 一个机架，72 张 GPU 互联；Ironwood = Google 第七代 TPU

国内追赶的三道关

能组织 10 万卡以上的高性能、稳定训练集群——不只看 GPU 数量，更考验 GPU 互联能力（NVLink / InfiniBand）
自主建立类 CUDA 软件栈——不能永远被 NVIDIA CUDA 卡住
更好的数据生成能力——synthetic data + 像 Claude Code 一样通过更好的产品掌握用户在真实任务里的执行 / 试错 / 纠错轨迹——数据飞轮的真正来源

短期判断

“中国开源模型在过去一年给了市场一种’追得很快’的感觉，但接下来有可能阶段性卡一下。”

国内要跳到下一个 level，至少需要 4-5 万张卡以上集群支撑——这个 capex 不是开源团队烧得起的。

长期判断（被低估的 angle）

“中国在芯片方面的追赶速度可能被低估了，只是短期内（比如 2028 年之前）压力仍然很大。”

理由：

美国 AI 大厂自研芯片 → 客观增加市场上懂芯片设计的人才供给 → 一部分 know-how 流回中国（人才流动是 know-how 转移的真路径）
Coding Agent 提升让”手搓优化 kernel + 跨架构迁移”难度下降 → 以前预计 5-10 年的追赶在 AI 辅助下可能加速

Insight 04 — Token 涨价是确定趋势

涨价是中美同步事件

模型	上一版 → 这一版	涨幅
GPT-5.5 vs 5.4		翻倍
智谱 GLM 5.1 vs 4.7		翻倍（3 个月内）
Kimi K2.6 vs K2.5		+50%

国内从”价格战”模式切换到”性能定价”模式。

驱动力是供需双向失衡

需求端： > “未来两年 token 需求可能涨 1000 倍，数据中心也就扩几倍，供需缺口越来越大。”

文章举的例子： > “SemiAnalysis 利用 AI 可以通过一张照片让模型反向拆解芯片里用了什么金属、对应什么设计，再进一步推理出一个投资判断。”

3 个月前根本跑不通，现在跑通了，token 就疯涨。

供给端（算力成本上涨 20%）： 1. GPU 极度稀缺 2. 集群运维成本涨 3. 模型变大、context 变长 → 推理成本剧增

利润预期算账

文章给的算式： - Anthropic / OpenAI 明年单家 ARR 2000-3000 亿美元 - 训练成本 300 亿 - 推理毛利 60%（Anthropic API 据说 70%+） - → 单家年净利近千亿美元，超 Meta

但作者紧接着抛了 GDM 旧话： > “We don’t have a defending moat, neither does OpenAI” > 任何行业出现这种 margin 都会吸引激烈竞争。

这句话两年前 GDM 说的，文章作者认为今天仍然成立——意味着即使 Anthropic / OpenAI 现在赚得多，moat 不持久。

Power Law 客单价

“Claude Code 现在头部 10% 用户大约贡献了 80%-90% 的营收，power law 非常明显。”

意味着： - vibe builder 就是头部 10%——Anthropic 营收的不成比例贡献者 - 渗透率（5%）和使用深度是两个独立增长维度——后者可能比前者更大空间 - 涨价首先会涨在 power user 身上

Insight 05 — 用好 AI 的 bottleneck 在于人

主旨

“今年 Q1，模型能力已经跨越了拐点，接下来的核心竞争战场不再是模型智能本身，而是上下文和外部能力的对接。”

一个具体投研 case

二级投资人朋友的实操流程：

第一层 — 结构化数据筛选：Wind / Bloomberg → 300+ 维度（财务质量 / 估值 / 成长性 / 波动 / 盈利能力 / 资本结构）→ 1 万家 → ~1000 家

第二层 — 非结构化数据趋势判断：YouTube API 实时抓行业关键人发言（黄仁勋 / Dario）+ Stratechery / SemiAnalysis 等深度分析源 → 形成认知判断

第三层 — 聪明钱验证 + 估值分类：参考特定机构 / 投资人持仓 + 估值模型最终筛选

结果：1 万 → 1000 → 100 → 个位数。目前选股胜率 100%（数字可疑，没说样本量 / 回测窗口 / 夏普）

文章给的核心判断

投研不需要 SOTA 模型——决定效果的是数据域：

数据 solid 程度（设计多维度互相校验）
数据实时性（API 实时捕捉趋势变化）

这两点决定 agent 上限。模型只是发动机，数据域和 workflow 才是投研 agent 的护城河。

人没消失，杠杆放大

AI 强项 = 宽搜索（2-3 天扫 1 万家）
人强项 = 深度思考（直觉、对异常信号的感知、对单点问题的判断）

组织 bottleneck

“中国企业的数字化基础普遍很差，包括大互联网公司也是如此。即便数字化做得不错的企业，组织权限的割裂也会严重限制 AI 的效果。”

具体例子： > “做系统对接时，最高效的方式是把两个系统的源码都拉到一起，让 AI 通读两边逻辑。但现在不同系统的代码权限分属不同员工，根本不允许拉通。”

用好 AI 的 bottleneck 越来越不是模型本身，而是人和组织。

拧巴的地方 / 我的怀疑

100% 选股胜率太可疑——没说样本量、回测窗口、夏普、是不是事后选时。一个 anecdote 不能当 evidence。但 case 的方法论本身有价值（300 维度筛选 + YouTube API + 聪明钱），workflow 设计模板可以学
5% 渗透率的数字可疑——“Codex 周活 400w / CC 1000w / 全球 4 亿高级知识工作者”全部没贴来源
Power law 跟 100% 胜率的逻辑冲突——文章说”AI 时代客单价没上限，power user 占用大量算力”，又说”宽搜索 + 深思考效果很好”。如果”AI 是宽搜索工具”是真的，所有 VC / 二级机构都该用上——为什么实际渗透率才 5%？真实情况可能是这条工作流复杂度极高 + 机构合规限制——真正的渗透率瓶颈是”组织 / 数据 / 工具栈”的 cost barrier，不是 AI 不够好
Anthropic API 70%+ 毛利数字没标来源——只说”据说”
算力 vs 数据的 either/or 框架可能错位——两件事都是真的，看时间尺度。当下（2026）算力是真瓶颈；未来 2-3 代数据可能也是卡点。文章把它当 either/or 辩题略 reductive

Discussion 补充（2026-04-30）

讨论范围

跟 Justin 用”分块走”模式过完 5 个 Insight + 几条延伸讨论。整场重点在 Insight 02（模型吃 harness）——直接对 Justin 自建 skill 体系产生冲击。

关键讨论产出

1. Opus 4.7 vs 4.6 体感差异

Justin 现在工作流仍然是”能用 Opus 就用 Opus”，没切 Sonnet。

讨论中给的体感对照： - 写文字（精读 / memo）：4.7 段落更长 / 排比句变多 / 抓重点速度变慢 - Long-horizon task：4.7 推得更深，自带耐心 + 派子代理 - 派子代理倾向：4.7 默认主 agent 是 coordinator，遇事就派

Justin 没接受”切 Sonnet”建议——理由是 CC 订阅制下不在乎 token 成本 + 他的活大部分 reasoning-heavy。这个判断在他的具体场景下成立。

2. 老 harness 在新模型成为累赘的 4 个症状

跟 Justin 拆开机制： - token 消耗增大 - 频繁触发 context 压缩 - 模型更积极开新 session - YOLO 模式失效

根因：Opus 4.7 训练时 mental model（主 agent = coordinator）跟老 harness 设计（主 agent = doer）不一致。

3. Skill 健康度对模型版本敏感（已写入 mental-models.md）

Justin 提议把这条写进 mental-models.md。Pre-write 查重发现已有 Harness 双轴 (two-axis harness) 高度相关。最终决定：update 现有 entry 而非新建——加一段”模型升级是审计 trigger” + 保鲜期估值（capability uplift 约 3-6 个月）+ 审计 cadence。

落地： - ✅ ~/.claude/memory/mental-models.md 已 update（Justin auto mode 后某次 apply 成功） - ✅ ~/CC/GTD/briefs/2026-03-29-config-health-audit.md 加第 6 维度”模型升级冲突” + 加强版 audit 流程 - ✅ ~/CC/GTD/next-actions.md 同步描述 “5 维度 → 6 维度（含模型升级冲突）”

4. 跨篇 context 串扰（slock 平台 gap）

Justin 提出 slock 缺失 /clear 等价机制，多篇精读累积会让 AI context 串。结论是 slock 端 feature request，不该塞进 deep-read.md 改 skill。

具体反馈建议（待 Justin 转给 slock 创始人）： - Per-task fresh context（推荐）：每个新 task claim 默认 fresh - 或手动 /clear 入口

我在 Block 3 误把”1X 70% 准确率世界模型评测”当成”算力 vs 数据”辩论的反驳论据——是逻辑错位（不是 context 串）。Justin 抓到了，已纠正。

5. Sensitive file gate 不通

整天在调试 slock agent 写 ~/.claude/skills/** 被拦的问题。最终诊断： - slock daemon 启动 agent 时显式传 --permission-mode bypassPermissions，CLI args 优先级高于 settings.json - Justin 改 defaultMode: "auto" 对存量 agent 无效（被命令行参数 override） - 结论：要 slock 端改 daemon 启动参数（去掉 --permission-mode 让 CC fallback 到 settings.json，或加 --add-dir $HOME/.claude）

没触发的升级

知识盲区：文章本身已经把”上下文 / harness / token 经济 / 算力供给”几条主线讲透。讨论中没出现需要升级到 research 的明确 gap
mental-models 回写：仅一次（update Harness 双轴），其他讨论结论都已落到 SOP / GTD task 等执行性文件，不再单独抽象成新 entry

信源评估

「拾象 Best Ideas」是国内一手 AI / 投资圈讨论会纪要，作者署名 Sealand。社群里有 AI researcher / 开发者 / 创业者 / 投资人，信息密度高且偏 insider 视角
引用的具体 case（GPT-5.4 iOS App 部署、SemiAnalysis 芯片照片反推、二级投研 100% 胜率）都是匿名 anecdote，没有 cross-validation
一些数据（“Codex 周活 400w” / “CC 1000w” / “4 亿高级知识工作者” / “Anthropic API 70%+ 毛利”）没标来源，别拿去引用
整体判断方向（模型吃 harness、token 涨价、bottleneck 在人）跟其他一手讨论（如 a16z / Latent Space 播客）一致，方向可信，具体数字保留怀疑

延伸阅读建议

跟这篇相关的精读 / research： - Learning/Daily Digest/2026-04-21-乔木-Agent-Harness.md（Harness 双轴 mental model 来源） - Learning/Daily Digest/2026-04-29-具身纪元-世界模型评测-v2-newrules.md（世界模型评测同主题，但具身机器人侧） - Learning/Research/2026-04-26-deepseek-v4-发布研究.md（DeepSeek V4 横向对比 benchmark + 部署形态）

sources:
  - title: "深度讨论新一轮模型发布：当智能进入月更时代 | Best Ideas"
    url: "https://mp.weixin.qq.com/s/1ceJS8LhoWB6NngwanivZA"
    author: "拾象 Best Ideas / Sealand"
    accessed: "2026-04-30"
source_count: 1
canonical_url: "https://mp.weixin.qq.com/s/1ceJS8LhoWB6NngwanivZA"
discussion_added: "2026-04-30"