← All Articles

DeepSeek V4 发布研究 — 海外评测、frontier 对比、舆情与投资信号(精读 digest)

2026-04-26

完整 research 报告见 ~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md(含 70+ 信源、16 维 benchmark 表、5 子代理深挖、steelman 双方)。本 digest 是公开镜像,挑核心说。

研究背景

DeepSeek 2026-04-23 发布 V4 Preview 双模型(Pro 1.6T/49B + Flash 284B/13B),距 V3 震撼硅谷恰好一年。海外舆情主轴一句话:Simon Willison 标题 “almost on the frontier, a fraction of the price”——被 Bloomberg / VentureBeat / CNBC / Al Jazeera 等多家引用作为最简洁概括。

本研究跑了 5 个并行子代理:海外开发者真实反馈、与海外 frontier 三家(GPT-5.5 / Opus 4.7 / Gemini 3.1 Pro)对比、与国内 model labs(Kimi K2.6 / GLM-5.1 / Qwen / Doubao / MiniMax / Step)对比、怀疑论 steelman、投资相关信号——共 70+ 一手信源。本 digest 挑可交叉确证的核心判断。

关键发现(5 条)

  1. Pareto 前沿新极点,不是 frontier 替代品——编程窄域(LiveCodeBench 93.5、Codeforces 3206)反超 GPT-5.4 / Gemini 3.1 Pro / Opus 4.7;agentic real-world(GDPval-AA 1554)领跑全开源;但通用智能(AA Index 52 vs frontier 60/57/57)、agentic 硬场景(Terminal-Bench 67.9 vs GPT-5.5 82.7)、知识(HLE 37.7 vs Opus 46.9)、多模态(preview 未启用)系统性落后 frontier 3-6 个月——DeepSeek 自己技术报告就用了”3-6 个月差距”这个措辞

  2. 被 Kimi K2.6 反超开源 #1——Latent Space 标题就叫 “Kimi K2.6 ahead of DeepSeek v4?”。AA Index 上 K2.6=54 是 #1,V4=52 是 #2。但 BenchLM 中文榜 上 V4=87 反超 K2.6=86——两个榜结论相反,“开源王者”叙事在不同评测口径下各对一半,单一断言都站不住。

  3. 真正的市场惊喜不在分数,是 Ascend 推理生产化——Huawei + DeepSeek 双方公告确认 Ascend supernode 全面承接 V4 推理,是首个 frontier 级开源模型在国产芯片完成生产级推理验证。CUDA 护城河第一次被实质触及,Jensen Huang 自己说 “horrible outcome”。市场反应方向一致:NVDA -1.4%(vs V3 时 -17%)、Hua Hong +15%、SMIC +10%——priced in 的核心是”中国推理供应链替代”,不是”DS 模型超越”

  4. 生态成熟度 < frontier——V4-Pro 默认开 thinking 模式 + reasoning_content 必须多轮 round-trip(与 R1 反向规则!),让 OpenCode #24190 / LiteLLM #26395 / Cursor 论坛 / Vercel AI SDK #4313(无限循环) / vLLM #40821 / n8n / NVIDIA NIM 全在 24h 内紧急打补丁。这不是 V4 性能问题,是契约不一致——但对开发者是实际成本。

  5. frontier 三家未跟降,但已启动非价格反击——4 月初 Frontier Model Forum 联合声明阻断中国厂商蒸馏 + 美方加码”工业级窃取 IP”指控。Stratechery / Semianalysis 共识:Anthropic 在 API 价格敏感 workload 承压最大(产品矩阵最重 API),OpenAI / Google 因多模态 + 数据闭环 + 应用层(ChatGPT/Workspace)暂时较稳。

重要论点 / 证据

价格屠夫的真实数字

模型 Input (/M)|Output(/M)
DeepSeek V4-Pro 1.74 3.48
DeepSeek V4-Flash 0.14 0.28
Claude Opus 4.7 5.00 25.00
GPT-5.5 5.00 30.00
Gemini 3.1 Pro 2.00 12.00

V4-Pro 比 Opus 4.7 / GPT-5.5 便宜 6-9x;Flash 比 GPT-5.4 Nano 还便宜,是 sub-$1/M tier 的新地板。真实成本曲线压榨来自工程层:1M context 下 FLOPs 27% / KV cache 10%(vs V3.2),不是市场策略。

怀疑论最硬的一击:hallucination 94/96%

Artificial Analysis AA-Omniscience 实测 V4-Pro hallucination 94% / V4-Flash 96%——遇到不知道的问题几乎从不 abstain。配合 SimpleQA-Verified 57.9% vs Gemini 75.6%、HLE 37.7% vs Opus 46.9%,事实知识与专家级推理仍系统性落后。这是结构性 over-confidence,不是黑子吐槽。

Mehul Gupta(“DeepSeek V4 is Shitty”) 量化补刀:1M context 是 needle-in-haystack 跑分秀,MRCR 8-needle 256K=0.82,1M 掉到 0.59;BigCodeBench Base 上 V3.2 反而 > V4-Flash;CMATH V4 也下滑——uneven scaling experiment,不是 paradigm shift

中国梯队三巨头分场景定位

不是单一”中国 #1”。AA Index vs BenchLM 视角错位反映的是:V4 / K2.6 / GLM-5.1 是场景互补的开源第一档

字节 Doubao 走 B 端规模 + 字节生态;阿里 Qwen 走全量级开源 + 闭源旗舰双轨;MiniMax 文本-only + 自演化;StepFun Step 3.5 Flash 主打解码极致效率。每家有自己的差异化定位。

海外开发者实战三句话

一级 / 二级市场分化

“AI Tigers”内部已分层:头部 (DS / Moonshot)、中部 (StepFun / 智谱 / MiniMax)、掉队 (Baichuan)。

Justin 视角(学习 + 投资双轨)

待 1-4 周观察

→ 完整 research 报告见 ~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md(含 16 维 benchmark 详表 + 7 家国内 lab 分场景定位 + 5 子代理 steelman 全文 + 70+ 信源 inline link)。