深度讨论新一轮模型发布:当智能进入月更时代
来源:「拾象 Best Ideas」社群讨论会纪要 · 2026-04 原文:当智能进入月更时代 精读日期:2026-04-30 | 模式:讨论精读(chat 分块对话 + 落盘)
核心定调
“当 AI 开始加速 AI,模型公司的迭代周期正在被进一步压缩,模型公司开始进入’月更时代’。”
5 个 Insight 的逻辑链: 1. 新一波模型真实体感是啥(拍照定位) 2. 模型吃 harness → harness 和 Skills 创业的机会缩窗 3. 算力跟不上 → 算力是真瓶颈,不是数据 4. Token 涨价 → AI 商业模式从价格战转性能定价 5. 模型已过拐点 → 下半场拼的是”上下文 + 外部能力对接”,不是模型本身
一句话整篇主旨:模型加速到月更,下一阶段的胜负不在模型本身——而在 token 价格 / 算力供给 / 人 / 数据这四条不在模型公司控制之内的东西。
Insight 01 — 三个新模型一线实测
Opus 4.7
优点: - Long horizon task 表现明显提升——给 AI 一个需要多步推进的复杂目标(比如”重构整个项目的鉴权体系”),Opus 4.7 推得更深,且不是靠无节制烧 token——是 token 配比更高效 - 多模态理解明显进步——已经追平主流多模态模型,可能为了解锁设计类垂直场景
缺点: - 文字表达能力退步了——4.7 不像 4.6 那样会抓重点、说话不绕弯
两层解释:
- 技术层 trade-off:Anthropic 习惯从 pre-training 层面做优化(pre-training = 预训练,模型最大量的初始训练阶段;post-training = 后训练,比如 RLHF / SFT 这类微调)。每次配比变化对体验都有影响,加上 RL 持续迭代和 tokenizer(分词器,把文字切成 token)的更换,副作用是真的
- 战略层:如果不在 Opus 和 Sonnet 之间做差异化,用户什么任务都用 Opus,Anthropic 算力会更吃不消。现在的结果反而健康——做 coding 用 Opus 4.7,做文字表达切到 Sonnet。这是 Anthropic 主动诱导的分工
文章引 Dario 之前的解释:Haiku / Sonnet / Opus 三档不是简单”低/中/高”智能,是”能力 / 速度 / 成本”曲线上的不同取舍。模型升级 ≠ 所有能力同步 +1。
GPT-5.5
三个观察:
- 不是纯 post-training 压榨——过去 5.3 / 5.4 都是只在 post-training 层加强 Codex 方向;5.5 是从 pre-training 层做实质改进。这条很重要:意味着 OpenAI 验证了”我们也能做好 agentic 任务”
- 速度变快——而对 coding agent 来说速度本身就是能力的一部分。“很多代码任务不是一次性写对,而是在环境里不断试错、运行、修改。当模型足够快,整个试错链路也会变快,实际效率会被放大。”(美国上班时间会明显变慢——典型供需失衡)
- GPT-5.5 是狙击 Opus 4.7 / 4.6 的模型,不是大招
今天的 SOTA 仍然是 Opus 4.7——核心领先优势在 brainstorm 和 planning。
注:原文没解释 SOTA = State Of The Art = 业内最强基准
DeepSeek V4
四个判断:
- 开源 SOTA on agentic & coding——但跟闭源 SOTA 仍有差距,约 6 个月以内
- 极致性价比——KV cache(“键值缓存”,Transformer 推理时为加速重复计算保存的中间状态,模型变大 KV cache 越大越吃显存)做了极致压缩 + FLOPs(浮点运算次数,衡量模型计算量)优化。再叠加国产算力,价格还能继续打下来
- DeepSeek 一直押 long context(长上下文,模型一次能读多少 token),认为是下一代范式基础——但这个能力提升的体感不像 coding & agentic 那么直观。如果 V4 早半年发,蹭 OpenClaw 那波 agentic 热潮效果会更好
- DeepSeek 跑通华为 950 集群——这条意义被低估了。大家关注”国产替代”,但更值得关注的视角是 DeepSeek 又比别人早半步——以后用类似架构的厂商上 950 门槛会显著降低
DeepSeek 历史意义被拔高: > “DeepSeek 已经演化成中国为数不多能够独立探索新模型架构的厂商。每次 DeepSeek 的新架构出来,即使没在能力上达到 SOTA,也会带动智谱 / Kimi 等国内厂商跟进架构升级,连带降低整个行业的 inference 和训练成本。”
Google 异常的安静
“可能不是因为落后了,而是因为觉得自己有把握。Google 的算力资源实在太充裕了,它的 de-risk 集群都比 OpenAI 和 Anthropic 最大的训练集群要大。”
注:de-risk 集群 = 用来”压力测试 / 排错 / 试新方案”的备用集群,不是主训练集群
文章判断 Google 不急于回应每次发布——内部团队对自家模型有信心。
Insight 02 — 模型吃掉一切脚手架(最值钱的一段)
模型把”脚手架”训进去的速度惊人
文章给的具体例子(GPT-5.4 vs GPT-5.3):
“GPT-5.4 发布后,在同样的需求下,它和前一天的 GPT-5.3 已经呈现出完全不同的行为模式:有朋友提出了一个 iOS App 的开发需求,Codex 没有停留在写代码或给步骤,而是主动识别到手机和电脑处在同一网络环境里,进一步判断可以直接把 App 部署到手机上,并挂上调试进程。随后,它会让用户直接打开 App 体验,自己在后台观察日志、记录用户操作行为、定位 bug,再修改代码、重新部署。”
这套闭环过去通常需要外部脚手架(外部代码 / 工具 / orchestration 来组织模型)来组织——现在模型已经自己成了一个能跑完整开发流程的软件工程师。
注:harness / 脚手架 = 套在 LLM 外面的代码层,负责把任务拆步骤、调工具、维护状态、组织 multi-agent 协作。Claude Code、Cursor、Codex CLI 都是 harness。
Opus 4.7 用 team coordination 训 long-horizon —— 老 harness 用户反而效果变差
整篇最值钱的判断之一——直接打脸”我用 Opus 4.6 调好了 harness 应该没事”。
文章给的具体症状:
| 用户类型 | 4.7 体验 |
|---|---|
| 没有搭建自己脚手架 | AI 能力有飞跃,long running task 自发跑很长时间 |
| 基于 Opus 4.6 精心定制过脚手架 | 效果变差:token 消耗量明显增大、频繁触发 context 压缩、积极要求开新 session、即使设置 YOLO 模式也无视指令 |
注释: - YOLO 模式 = “You Only Live Once” — 让 agent 自动运行不问用户确认的模式 - context 压缩 = 当对话太长超出 context window,模型主动总结早期对话腾空间——会损失精度
文章给的解释:
“Opus 4.7 在 RL 训练中是以 team coordination 的模式来做 long horizon task 的。所以最适配的方式是把主 agent 设计成 team coordinator,用 agent-to-agent 的方式去跑,而不是直接让主 agent 去自主完成长程任务。”
从 GPT-5.2 开始 OpenAI 和 Anthropic 模型能力没差,差距全在 harness
“差距更多来自 Codex 和 Claude Code 之间 harness 的差距,而这个 harness 的差距在 Q1 也已经逐渐追平。”
文章引一个开发者春节后切到 Codex 全面替代 CC——理由:整体体验更稳定、速度、开发能力、供应量、稳定性更好、账号风险更低。
趋势小结:模型和 harness 耦合越来越紧
“新模型不是一个抽象的、更强的’通用大脑’,而是带着某种非常具体的使用范式一起发布。它的训练方式、system prompt、RL 数据分布,都会暗含’应该怎么使用它’。如果外部开发者没有按这个具体方法使用,效果可能会大打折扣。”
含义:你不能只看 model card / benchmark 选模型——还要看这个模型期望被怎么用。
对 Skills / harness 创业的判断(最直白的部分)
“对 harness 领域的创业公司来说是危险的信号:如果你的 harness 是根据上一代模型的能力和缺陷设计出来的,一旦下一代模型把这些能力训进去了,你的 harness 会瞬间变成 technical debt。”
“除非 harness 本身更像一个可以随模型自动生成、自动编译、自动适配的系统,否则每次模型升级都会带来一次重构。”
对 Skills 的判断更尖锐:
| 类型 | 定义 | 命运 |
|---|---|---|
| 类型 1:Capability uplift(能力提升) | 让模型学会原本不会的事情 | 保鲜期 ~3 个月——有价值的部分一定会成为模型的养料,下一个版本被训进模型 |
| 类型 2:Encoded preference(偏好编码) | 把个人偏好喂给模型 | 因为高度个性化而分发价值有限 |
总判断:Skills 的商业化更像一个短期窗口,而不是一个长期平台型机会。
数据飞轮在 coding/agentic 已经建立了吗?
文章的回答是部分: - 用户原始数据不能直接拿来训练(清洗成本极高) - 数据飞轮体现在产品层面:拥有最多程序员在你平台编程,能从统计意义上理解他们的 preference / 编程习惯 / 介入点 → 反哺产品迭代 - 但这是不是足够深的壁垒,目前还不好说
Insight 03 — 算力瓶颈
主旨
“过去两三年大家反复讨论 Scaling Law 能不能继续,最终总是落到数据够不够的问题上,但现在往后看一到两代模型,数据不是卡点,算力才是。”
为啥?头部模型公司已经进入 AI 加速 AI 研发的自循环——AI 写 code 帮 AI 训练,迭代速度内生加速,算力需求会指数级涨。
最新发布的 Mythos 超大参数模型——最大限制就是需要极大集群 serve,估计要 NVIDIA GB200/GB300 NVL72 或 Google TPU7x / Ironwood 这种级别的硬件。
注:NVL72 = NVIDIA Blackwell 一个机架,72 张 GPU 互联;Ironwood = Google 第七代 TPU
国内追赶的三道关
- 能组织 10 万卡以上的高性能、稳定训练集群——不只看 GPU 数量,更考验 GPU 互联能力(NVLink / InfiniBand)
- 自主建立类 CUDA 软件栈——不能永远被 NVIDIA CUDA 卡住
- 更好的数据生成能力——synthetic data + 像 Claude Code 一样通过更好的产品掌握用户在真实任务里的执行 / 试错 / 纠错轨迹——数据飞轮的真正来源
短期判断
“中国开源模型在过去一年给了市场一种’追得很快’的感觉,但接下来有可能阶段性卡一下。”
国内要跳到下一个 level,至少需要 4-5 万张卡以上集群支撑——这个 capex 不是开源团队烧得起的。
长期判断(被低估的 angle)
“中国在芯片方面的追赶速度可能被低估了,只是短期内(比如 2028 年之前)压力仍然很大。”
理由:
- 美国 AI 大厂自研芯片 → 客观增加市场上懂芯片设计的人才供给 → 一部分 know-how 流回中国(人才流动是 know-how 转移的真路径)
- Coding Agent 提升让”手搓优化 kernel + 跨架构迁移”难度下降 → 以前预计 5-10 年的追赶在 AI 辅助下可能加速
Insight 04 — Token 涨价是确定趋势
涨价是中美同步事件
| 模型 | 上一版 → 这一版 | 涨幅 |
|---|---|---|
| GPT-5.5 vs 5.4 | 翻倍 | |
| 智谱 GLM 5.1 vs 4.7 | 翻倍(3 个月内) | |
| Kimi K2.6 vs K2.5 | +50% |
国内从”价格战”模式切换到”性能定价”模式。
驱动力是供需双向失衡
需求端: > “未来两年 token 需求可能涨 1000 倍,数据中心也就扩几倍,供需缺口越来越大。”
文章举的例子: > “SemiAnalysis 利用 AI 可以通过一张照片让模型反向拆解芯片里用了什么金属、对应什么设计,再进一步推理出一个投资判断。”
3 个月前根本跑不通,现在跑通了,token 就疯涨。
供给端(算力成本上涨 20%): 1. GPU 极度稀缺 2. 集群运维成本涨 3. 模型变大、context 变长 → 推理成本剧增
利润预期算账
文章给的算式: - Anthropic / OpenAI 明年单家 ARR 2000-3000 亿美元 - 训练成本 300 亿 - 推理毛利 60%(Anthropic API 据说 70%+) - → 单家年净利近千亿美元,超 Meta
但作者紧接着抛了 GDM 旧话: > “We don’t have a defending moat, neither does OpenAI” > 任何行业出现这种 margin 都会吸引激烈竞争。
这句话两年前 GDM 说的,文章作者认为今天仍然成立——意味着即使 Anthropic / OpenAI 现在赚得多,moat 不持久。
Power Law 客单价
“Claude Code 现在头部 10% 用户大约贡献了 80%-90% 的营收,power law 非常明显。”
意味着: - vibe builder 就是头部 10%——Anthropic 营收的不成比例贡献者 - 渗透率(5%)和使用深度是两个独立增长维度——后者可能比前者更大空间 - 涨价首先会涨在 power user 身上
Insight 05 — 用好 AI 的 bottleneck 在于人
主旨
“今年 Q1,模型能力已经跨越了拐点,接下来的核心竞争战场不再是模型智能本身,而是上下文和外部能力的对接。”
一个具体投研 case
二级投资人朋友的实操流程:
第一层 — 结构化数据筛选:Wind / Bloomberg → 300+ 维度(财务质量 / 估值 / 成长性 / 波动 / 盈利能力 / 资本结构)→ 1 万家 → ~1000 家
第二层 — 非结构化数据趋势判断:YouTube API 实时抓行业关键人发言(黄仁勋 / Dario)+ Stratechery / SemiAnalysis 等深度分析源 → 形成认知判断
第三层 — 聪明钱验证 + 估值分类:参考特定机构 / 投资人持仓 + 估值模型最终筛选
结果:1 万 → 1000 → 100 → 个位数。目前选股胜率 100%(数字可疑,没说样本量 / 回测窗口 / 夏普)
文章给的核心判断
投研不需要 SOTA 模型——决定效果的是数据域:
- 数据 solid 程度(设计多维度互相校验)
- 数据实时性(API 实时捕捉趋势变化)
这两点决定 agent 上限。模型只是发动机,数据域和 workflow 才是投研 agent 的护城河。
人没消失,杠杆放大
- AI 强项 = 宽搜索(2-3 天扫 1 万家)
- 人强项 = 深度思考(直觉、对异常信号的感知、对单点问题的判断)
组织 bottleneck
“中国企业的数字化基础普遍很差,包括大互联网公司也是如此。即便数字化做得不错的企业,组织权限的割裂也会严重限制 AI 的效果。”
具体例子: > “做系统对接时,最高效的方式是把两个系统的源码都拉到一起,让 AI 通读两边逻辑。但现在不同系统的代码权限分属不同员工,根本不允许拉通。”
用好 AI 的 bottleneck 越来越不是模型本身,而是人和组织。
拧巴的地方 / 我的怀疑
100% 选股胜率太可疑——没说样本量、回测窗口、夏普、是不是事后选时。一个 anecdote 不能当 evidence。但 case 的方法论本身有价值(300 维度筛选 + YouTube API + 聪明钱),workflow 设计模板可以学
5% 渗透率的数字可疑——“Codex 周活 400w / CC 1000w / 全球 4 亿高级知识工作者”全部没贴来源
Power law 跟 100% 胜率的逻辑冲突——文章说”AI 时代客单价没上限,power user 占用大量算力”,又说”宽搜索 + 深思考效果很好”。如果”AI 是宽搜索工具”是真的,所有 VC / 二级机构都该用上——为什么实际渗透率才 5%?真实情况可能是这条工作流复杂度极高 + 机构合规限制——真正的渗透率瓶颈是”组织 / 数据 / 工具栈”的 cost barrier,不是 AI 不够好
Anthropic API 70%+ 毛利数字没标来源——只说”据说”
算力 vs 数据的 either/or 框架可能错位——两件事都是真的,看时间尺度。当下(2026)算力是真瓶颈;未来 2-3 代数据可能也是卡点。文章把它当 either/or 辩题略 reductive
Discussion 补充(2026-04-30)
讨论范围
跟 Justin 用”分块走”模式过完 5 个 Insight + 几条延伸讨论。整场重点在 Insight 02(模型吃 harness)——直接对 Justin 自建 skill 体系产生冲击。
关键讨论产出
1. Opus 4.7 vs 4.6 体感差异
Justin 现在工作流仍然是”能用 Opus 就用 Opus”,没切 Sonnet。
讨论中给的体感对照: - 写文字(精读 / memo):4.7 段落更长 / 排比句变多 / 抓重点速度变慢 - Long-horizon task:4.7 推得更深,自带耐心 + 派子代理 - 派子代理倾向:4.7 默认主 agent 是 coordinator,遇事就派
Justin 没接受”切 Sonnet”建议——理由是 CC 订阅制下不在乎 token 成本 + 他的活大部分 reasoning-heavy。这个判断在他的具体场景下成立。
2. 老 harness 在新模型成为累赘的 4 个症状
跟 Justin 拆开机制: - token 消耗增大 - 频繁触发 context 压缩 - 模型更积极开新 session - YOLO 模式失效
根因:Opus 4.7 训练时 mental model(主 agent = coordinator)跟老 harness 设计(主 agent = doer)不一致。
3. Skill 健康度对模型版本敏感(已写入 mental-models.md)
Justin 提议把这条写进 mental-models.md。Pre-write 查重发现已有
Harness 双轴 (two-axis harness)
高度相关。最终决定:update 现有 entry
而非新建——加一段”模型升级是审计 trigger” +
保鲜期估值(capability uplift 约 3-6 个月)+ 审计 cadence。
落地: - ✅ ~/.claude/memory/mental-models.md 已
update(Justin auto mode 后某次 apply 成功) - ✅
~/CC/GTD/briefs/2026-03-29-config-health-audit.md 加第 6
维度”模型升级冲突” + 加强版 audit 流程 - ✅
~/CC/GTD/next-actions.md 同步描述 “5 维度 → 6
维度(含模型升级冲突)”
4. 跨篇 context 串扰(slock 平台 gap)
Justin 提出 slock 缺失 /clear 等价机制,多篇精读累积会让
AI context 串。结论是 slock 端 feature
request,不该塞进 deep-read.md 改 skill。
具体反馈建议(待 Justin 转给 slock 创始人): - Per-task fresh context(推荐):每个新 task claim 默认 fresh - 或手动 /clear 入口
我在 Block 3 误把”1X 70% 准确率世界模型评测”当成”算力 vs 数据”辩论的反驳论据——是逻辑错位(不是 context 串)。Justin 抓到了,已纠正。
5. Sensitive file gate 不通
整天在调试 slock agent 写 ~/.claude/skills/**
被拦的问题。最终诊断: - slock daemon 启动 agent 时显式传
--permission-mode bypassPermissions,CLI args 优先级高于
settings.json - Justin 改 defaultMode: "auto" 对存量 agent
无效(被命令行参数 override) - 结论:要 slock 端改 daemon
启动参数(去掉 --permission-mode 让 CC fallback 到
settings.json,或加 --add-dir $HOME/.claude)
没触发的升级
- 知识盲区:文章本身已经把”上下文 / harness / token 经济 / 算力供给”几条主线讲透。讨论中没出现需要升级到 research 的明确 gap
- mental-models 回写:仅一次(update Harness 双轴),其他讨论结论都已落到 SOP / GTD task 等执行性文件,不再单独抽象成新 entry
信源评估
- 「拾象 Best Ideas」是国内一手 AI / 投资圈讨论会纪要,作者署名 Sealand。社群里有 AI researcher / 开发者 / 创业者 / 投资人,信息密度高且偏 insider 视角
- 引用的具体 case(GPT-5.4 iOS App 部署、SemiAnalysis 芯片照片反推、二级投研 100% 胜率)都是匿名 anecdote,没有 cross-validation
- 一些数据(“Codex 周活 400w” / “CC 1000w” / “4 亿高级知识工作者” / “Anthropic API 70%+ 毛利”)没标来源,别拿去引用
- 整体判断方向(模型吃 harness、token 涨价、bottleneck 在人)跟其他一手讨论(如 a16z / Latent Space 播客)一致,方向可信,具体数字保留怀疑
延伸阅读建议
跟这篇相关的精读 / research: -
Learning/Daily Digest/2026-04-21-乔木-Agent-Harness.md(Harness
双轴 mental model 来源) -
Learning/Daily Digest/2026-04-29-具身纪元-世界模型评测-v2-newrules.md(世界模型评测同主题,但具身机器人侧)
-
Learning/Research/2026-04-26-deepseek-v4-发布研究.md(DeepSeek
V4 横向对比 benchmark + 部署形态)
sources:
- title: "深度讨论新一轮模型发布:当智能进入月更时代 | Best Ideas"
url: "https://mp.weixin.qq.com/s/1ceJS8LhoWB6NngwanivZA"
author: "拾象 Best Ideas / Sealand"
accessed: "2026-04-30"
source_count: 1
canonical_url: "https://mp.weixin.qq.com/s/1ceJS8LhoWB6NngwanivZA"
discussion_added: "2026-04-30"