DeepSeek V4 发布研究 — 海外评测、frontier 对比、舆情与投资信号（精读 digest）

2026-04-26

完整 research 报告见 ~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md（含 70+ 信源、16 维 benchmark 表、5 子代理深挖、steelman 双方）。本 digest 是公开镜像，挑核心说。

研究背景

DeepSeek 2026-04-23 发布 V4 Preview 双模型（Pro 1.6T/49B + Flash 284B/13B），距 V3 震撼硅谷恰好一年。海外舆情主轴一句话：Simon Willison 标题 “almost on the frontier, a fraction of the price”——被 Bloomberg / VentureBeat / CNBC / Al Jazeera 等多家引用作为最简洁概括。

本研究跑了 5 个并行子代理：海外开发者真实反馈、与海外 frontier 三家（GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro）对比、与国内 model labs（Kimi K2.6 / GLM-5.1 / Qwen / Doubao / MiniMax / Step）对比、怀疑论 steelman、投资相关信号——共 70+ 一手信源。本 digest 挑可交叉确证的核心判断。

关键发现（5 条）

Pareto 前沿新极点，不是 frontier 替代品——编程窄域（LiveCodeBench 93.5、Codeforces 3206）反超 GPT-5.4 / Gemini 3.1 Pro / Opus 4.7；agentic real-world（GDPval-AA 1554）领跑全开源；但通用智能（AA Index 52 vs frontier 60/57/57）、agentic 硬场景（Terminal-Bench 67.9 vs GPT-5.5 82.7）、知识（HLE 37.7 vs Opus 46.9）、多模态（preview 未启用）系统性落后 frontier 3-6 个月——DeepSeek 自己技术报告就用了”3-6 个月差距”这个措辞。
被 Kimi K2.6 反超开源 #1——Latent Space 标题就叫 “Kimi K2.6 ahead of DeepSeek v4?”。AA Index 上 K2.6=54 是 #1，V4=52 是 #2。但 BenchLM 中文榜上 V4=87 反超 K2.6=86——两个榜结论相反，“开源王者”叙事在不同评测口径下各对一半，单一断言都站不住。
真正的市场惊喜不在分数，是 Ascend 推理生产化——Huawei + DeepSeek 双方公告确认 Ascend supernode 全面承接 V4 推理，是首个 frontier 级开源模型在国产芯片完成生产级推理验证。CUDA 护城河第一次被实质触及，Jensen Huang 自己说 “horrible outcome”。市场反应方向一致：NVDA -1.4%（vs V3 时 -17%）、Hua Hong +15%、SMIC +10%——priced in 的核心是”中国推理供应链替代”，不是”DS 模型超越”。
生态成熟度 < frontier——V4-Pro 默认开 thinking 模式 + reasoning_content 必须多轮 round-trip（与 R1 反向规则！），让 OpenCode #24190 / LiteLLM #26395 / Cursor 论坛 / Vercel AI SDK #4313（无限循环） / vLLM #40821 / n8n / NVIDIA NIM 全在 24h 内紧急打补丁。这不是 V4 性能问题，是契约不一致——但对开发者是实际成本。
frontier 三家未跟降，但已启动非价格反击——4 月初 Frontier Model Forum 联合声明阻断中国厂商蒸馏 + 美方加码”工业级窃取 IP”指控。Stratechery / Semianalysis 共识：Anthropic 在 API 价格敏感 workload 承压最大（产品矩阵最重 API），OpenAI / Google 因多模态 + 数据闭环 + 应用层（ChatGPT/Workspace）暂时较稳。

重要论点 / 证据

价格屠夫的真实数字

模型	Input (/M)\|Output(/M)
DeepSeek V4-Pro	1.74	3.48
DeepSeek V4-Flash	0.14	0.28
Claude Opus 4.7	5.00	25.00
GPT-5.5	5.00	30.00
Gemini 3.1 Pro	2.00	12.00

V4-Pro 比 Opus 4.7 / GPT-5.5 便宜 6-9x；Flash 比 GPT-5.4 Nano 还便宜，是 sub-$1/M tier 的新地板。真实成本曲线压榨来自工程层：1M context 下 FLOPs 27% / KV cache 10%（vs V3.2），不是市场策略。

怀疑论最硬的一击：hallucination 94/96%

Artificial Analysis AA-Omniscience 实测 V4-Pro hallucination 94% / V4-Flash 96%——遇到不知道的问题几乎从不 abstain。配合 SimpleQA-Verified 57.9% vs Gemini 75.6%、HLE 37.7% vs Opus 46.9%，事实知识与专家级推理仍系统性落后。这是结构性 over-confidence，不是黑子吐槽。

Mehul Gupta（“DeepSeek V4 is Shitty”）量化补刀：1M context 是 needle-in-haystack 跑分秀，MRCR 8-needle 256K=0.82，1M 掉到 0.59；BigCodeBench Base 上 V3.2 反而 > V4-Flash；CMATH V4 也下滑——uneven scaling experiment，不是 paradigm shift。

中国梯队三巨头分场景定位

不是单一”中国 #1”。AA Index vs BenchLM 视角错位反映的是：V4 / K2.6 / GLM-5.1 是场景互补的开源第一档：

1M context + 极低价 + Ascend 推理 → V4
长程 agent（300 子代理 / 4000 步 / 12h 连续运行）+ 原生多模态 + INT4 量化 → Kimi K2.6
企业 SWE 仓库级编码（SWE-Bench Pro 58.4 全球第一） → GLM-5.1

字节 Doubao 走 B 端规模 + 字节生态；阿里 Qwen 走全量级开源 + 闭源旗舰双轨；MiniMax 文本-only + 自演化；StepFun Step 3.5 Flash 主打解码极致效率。每家有自己的差异化定位。

海外开发者实战三句话

正面切换样本：HN 47884971 anonzzzies 明确说 “V4 Pro 比 Sonnet 更好且更省”，足以替代 Sonnet 4.6/4.7——少见的开发者明确切换发言。
负面对照样本：HN 47884971 bokkies 用 Sonnet/Haiku/GLM5.1/Qwen 切了一周后回到 Claude Max，因为速度和”重复 footer / URL 读取失败”——暗示 V4 之外的开源 frontier 在 agentic 场景普遍有同类问题。
本地部署门槛：HN 47884971 bbor 估算全精 16-24×H100（$400-600K）/ 量化 8×H100（$200K）/ 4×4090 家用版（$15K，但 imrebuild 实测 “seconds per token”）——Pro 实质 API-only。Flash 在 unsloth dynamic GGUF 出来前也只是社区 wait-and-see。

一级 / 二级市场分化

DeepSeek 自身：4-18 寻 $10B → 4-22 跳到 $20B（Tencent + Alibaba 接洽）
Moonshot $12-18B 预 IPO
StepFun 1 月 B+ $717M
已上市的 Zhipu / MiniMax 港股 V4 当日各 -9%（公开市场惩罚）
Baichuan 仍停留 2024-07 时点 $2.7B（梯队掉队）

“AI Tigers”内部已分层：头部 (DS / Moonshot)、中部 (StepFun / 智谱 / MiniMax)、掉队 (Baichuan)。

Justin 视角（学习 + 投资双轨）

这个 case 的真实 takeaway 不是”DS 又赢一次”，是“中国推理供应链替代”叙事第一次有了硬支点——Ascend supernode 接住 frontier 级 1.6T MoE 推理，配合美股 Hua Hong/SMIC vs NVDA 反应方向一致，是 priced in 的核心。
对 portfolio 视角：Anthropic 在 API 价格敏感 workload 承压最大；frontier 三家被压在 frontier-1 档商品化上，但 frontier 真档（多模态 + 顶级 reasoning + 企业数据闭环）暂时较稳——这是个 commoditization 限于一档 的故事，不是全面被超越。
对学习视角：reasoning_content 多轮 round-trip 契约让生态 24h 紧急打补丁这件事，是“模型生态契约 ≠ 模型能力”的鲜活案例——frontier 三家的隐形护城河之一就是契约稳定性。

待 1-4 周观察

Vals AI / lmarena / BenchLM 1-2 周内独立复测数（特别是 Aider polyglot、BrowseComp、MRCR 1M、SimpleQA）
OpenAI / Anthropic 是否在 30 天内调价或扩 context（截至 04-26 未见动作）
Cursor / Cognition / Lovable 是否官方迁移（目前仅 BYOK + 论坛声量）
Reuters Blackwell 走私指控 vs Ascend 训练叙事最终归属
V4 多模态正式开放时间 + 首发视觉 benchmark
Anthropic / OpenAI 5 月财报会议 transcript 是否点名 V4 / commoditization

→ 完整 research 报告见 ~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md（含 16 维 benchmark 详表 + 7 家国内 lab 分场景定位 + 5 子代理 steelman 全文 + 70+ 信源 inline link）。