DeepSeek V4 发布研究 — 海外评测、frontier 对比、舆情与投资信号(精读 digest)
完整 research 报告见
~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md(含 70+ 信源、16 维 benchmark 表、5 子代理深挖、steelman 双方)。本 digest 是公开镜像,挑核心说。
研究背景
DeepSeek 2026-04-23 发布 V4 Preview 双模型(Pro 1.6T/49B + Flash 284B/13B),距 V3 震撼硅谷恰好一年。海外舆情主轴一句话:Simon Willison 标题 “almost on the frontier, a fraction of the price”——被 Bloomberg / VentureBeat / CNBC / Al Jazeera 等多家引用作为最简洁概括。
本研究跑了 5 个并行子代理:海外开发者真实反馈、与海外 frontier 三家(GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro)对比、与国内 model labs(Kimi K2.6 / GLM-5.1 / Qwen / Doubao / MiniMax / Step)对比、怀疑论 steelman、投资相关信号——共 70+ 一手信源。本 digest 挑可交叉确证的核心判断。
关键发现(5 条)
Pareto 前沿新极点,不是 frontier 替代品——编程窄域(LiveCodeBench 93.5、Codeforces 3206)反超 GPT-5.4 / Gemini 3.1 Pro / Opus 4.7;agentic real-world(GDPval-AA 1554)领跑全开源;但通用智能(AA Index 52 vs frontier 60/57/57)、agentic 硬场景(Terminal-Bench 67.9 vs GPT-5.5 82.7)、知识(HLE 37.7 vs Opus 46.9)、多模态(preview 未启用)系统性落后 frontier 3-6 个月——DeepSeek 自己技术报告就用了”3-6 个月差距”这个措辞。
被 Kimi K2.6 反超开源 #1——Latent Space 标题就叫 “Kimi K2.6 ahead of DeepSeek v4?”。AA Index 上 K2.6=54 是 #1,V4=52 是 #2。但 BenchLM 中文榜 上 V4=87 反超 K2.6=86——两个榜结论相反,“开源王者”叙事在不同评测口径下各对一半,单一断言都站不住。
真正的市场惊喜不在分数,是 Ascend 推理生产化——Huawei + DeepSeek 双方公告确认 Ascend supernode 全面承接 V4 推理,是首个 frontier 级开源模型在国产芯片完成生产级推理验证。CUDA 护城河第一次被实质触及,Jensen Huang 自己说 “horrible outcome”。市场反应方向一致:NVDA -1.4%(vs V3 时 -17%)、Hua Hong +15%、SMIC +10%——priced in 的核心是”中国推理供应链替代”,不是”DS 模型超越”。
生态成熟度 < frontier——V4-Pro 默认开 thinking 模式 + reasoning_content 必须多轮 round-trip(与 R1 反向规则!),让 OpenCode #24190 / LiteLLM #26395 / Cursor 论坛 / Vercel AI SDK #4313(无限循环) / vLLM #40821 / n8n / NVIDIA NIM 全在 24h 内紧急打补丁。这不是 V4 性能问题,是契约不一致——但对开发者是实际成本。
frontier 三家未跟降,但已启动非价格反击——4 月初 Frontier Model Forum 联合声明阻断中国厂商蒸馏 + 美方加码”工业级窃取 IP”指控。Stratechery / Semianalysis 共识:Anthropic 在 API 价格敏感 workload 承压最大(产品矩阵最重 API),OpenAI / Google 因多模态 + 数据闭环 + 应用层(ChatGPT/Workspace)暂时较稳。
重要论点 / 证据
价格屠夫的真实数字
| 模型 | Input (/M)|Output(/M) | |
|---|---|---|
| DeepSeek V4-Pro | 1.74 | 3.48 |
| DeepSeek V4-Flash | 0.14 | 0.28 |
| Claude Opus 4.7 | 5.00 | 25.00 |
| GPT-5.5 | 5.00 | 30.00 |
| Gemini 3.1 Pro | 2.00 | 12.00 |
V4-Pro 比 Opus 4.7 / GPT-5.5 便宜 6-9x;Flash 比 GPT-5.4 Nano 还便宜,是 sub-$1/M tier 的新地板。真实成本曲线压榨来自工程层:1M context 下 FLOPs 27% / KV cache 10%(vs V3.2),不是市场策略。
怀疑论最硬的一击:hallucination 94/96%
Artificial Analysis AA-Omniscience 实测 V4-Pro hallucination 94% / V4-Flash 96%——遇到不知道的问题几乎从不 abstain。配合 SimpleQA-Verified 57.9% vs Gemini 75.6%、HLE 37.7% vs Opus 46.9%,事实知识与专家级推理仍系统性落后。这是结构性 over-confidence,不是黑子吐槽。
Mehul Gupta(“DeepSeek V4 is Shitty”) 量化补刀:1M context 是 needle-in-haystack 跑分秀,MRCR 8-needle 256K=0.82,1M 掉到 0.59;BigCodeBench Base 上 V3.2 反而 > V4-Flash;CMATH V4 也下滑——uneven scaling experiment,不是 paradigm shift。
中国梯队三巨头分场景定位
不是单一”中国 #1”。AA Index vs BenchLM 视角错位反映的是:V4 / K2.6 / GLM-5.1 是场景互补的开源第一档:
- 1M context + 极低价 + Ascend 推理 → V4
- 长程 agent(300 子代理 / 4000 步 / 12h 连续运行)+ 原生多模态 + INT4 量化 → Kimi K2.6
- 企业 SWE 仓库级编码(SWE-Bench Pro 58.4 全球第一) → GLM-5.1
字节 Doubao 走 B 端规模 + 字节生态;阿里 Qwen 走全量级开源 + 闭源旗舰双轨;MiniMax 文本-only + 自演化;StepFun Step 3.5 Flash 主打解码极致效率。每家有自己的差异化定位。
海外开发者实战三句话
- 正面切换样本:HN 47884971 anonzzzies 明确说 “V4 Pro 比 Sonnet 更好且更省”,足以替代 Sonnet 4.6/4.7——少见的开发者明确切换发言。
- 负面对照样本:HN 47884971 bokkies 用 Sonnet/Haiku/GLM5.1/Qwen 切了一周后回到 Claude Max,因为速度和”重复 footer / URL 读取失败”——暗示 V4 之外的开源 frontier 在 agentic 场景普遍有同类问题。
- 本地部署门槛:HN 47884971 bbor 估算全精 16-24×H100($400-600K)/ 量化 8×H100($200K)/ 4×4090 家用版($15K,但 imrebuild 实测 “seconds per token”)——Pro 实质 API-only。Flash 在 unsloth dynamic GGUF 出来前也只是社区 wait-and-see。
一级 / 二级市场分化
- DeepSeek 自身:4-18 寻 $10B → 4-22 跳到 $20B(Tencent + Alibaba 接洽)
- Moonshot $12-18B 预 IPO
- StepFun 1 月 B+ $717M
- 已上市的 Zhipu / MiniMax 港股 V4 当日各 -9%(公开市场惩罚)
- Baichuan 仍停留 2024-07 时点 $2.7B(梯队掉队)
“AI Tigers”内部已分层:头部 (DS / Moonshot)、中部 (StepFun / 智谱 / MiniMax)、掉队 (Baichuan)。
Justin 视角(学习 + 投资双轨)
- 这个 case 的真实 takeaway 不是”DS 又赢一次”,是“中国推理供应链替代”叙事第一次有了硬支点——Ascend supernode 接住 frontier 级 1.6T MoE 推理,配合美股 Hua Hong/SMIC vs NVDA 反应方向一致,是 priced in 的核心。
- 对 portfolio 视角:Anthropic 在 API 价格敏感 workload 承压最大;frontier 三家被压在 frontier-1 档商品化上,但 frontier 真档(多模态 + 顶级 reasoning + 企业数据闭环)暂时较稳——这是个 commoditization 限于一档 的故事,不是全面被超越。
- 对学习视角:reasoning_content 多轮 round-trip 契约让生态 24h 紧急打补丁这件事,是“模型生态契约 ≠ 模型能力”的鲜活案例——frontier 三家的隐形护城河之一就是契约稳定性。
待 1-4 周观察
- Vals AI / lmarena / BenchLM 1-2 周内独立复测数(特别是 Aider polyglot、BrowseComp、MRCR 1M、SimpleQA)
- OpenAI / Anthropic 是否在 30 天内调价或扩 context(截至 04-26 未见动作)
- Cursor / Cognition / Lovable 是否官方迁移(目前仅 BYOK + 论坛声量)
- Reuters Blackwell 走私指控 vs Ascend 训练叙事最终归属
- V4 多模态正式开放时间 + 首发视觉 benchmark
- Anthropic / OpenAI 5 月财报会议 transcript 是否点名 V4 / commoditization
→ 完整 research 报告见
~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md(含
16 维 benchmark 详表 + 7 家国内 lab 分场景定位 + 5 子代理 steelman 全文
+ 70+ 信源 inline link)。