详解 DeepSeek V4：Infra 巨鲸四连击 — 一线工程师视角的访谈精读

晚点 LatePost（程曼祺访谈，付自文/李清旸整理） · Original

4月28日访谈（V4 发布两天后），晚点 LatePost 请两位一线 AI 从业者详解 V4 技术报告。核心定调：V4 不带”范式变化”，但一次性把 4 个互相耦合的硬骨头同时跑通——混合稀疏注意力 + mHC + Muon + FP4，把”百万上下文从理论可行变成成本可接受”。作者一句：“系统级耦合优化比单点创新更难”。

嘉宾：刘益枫（UCLA 博士，Kimi/字节 Seed 实习经历，K1.5 参与者，做过优化器）；赵晨阳（开源推理框架 SGLang 核心开发者，已加入 RadixArk AI，前字节 Seed 实习）

V4 是什么 — 一句话定位

规模：1.6T 总参数（V3 是 670B），激活 49B = 3% 激活比（V3 是 5.5%；K2.6 是 3.2%；MiMo-2.5-pro 4.1%；MiniMax M2.7 4.35%；GLM 5.1 5.3%）。业界最激进的 sparsity
效率：百万上下文下，单 token 推理 FLOPs 是 V3.2 的 27%，KV 缓存占用是 V3.2 的 10%
价格：V4 比 V3 大很多，价格也贵不少；但 V4-Pro 输入缓存命中价格从 25% 优惠又打 1 折——降价很猛
能力体感：数学推理、代码、Agent 指令执行都比 V3 好不少，幻觉少得多；代码能力还是比 Opus 4.6 弱，跟 GLM-5.1 / K2.6 相近
Chatbot Arena 排名：V4-Pro 5月1日排第 23，超过 K2.6 但仍低于 GLM-5.1
Artificial Analysis 智能指数：52，比 Kimi、MiMo 低

四连击 — V4 一次性同时上的四个硬骨头

V4 整体保留 DeepSeekMoE 框架 + MTP 策略，在四层做改造：

层	改造	关键术语
注意力	混合稀疏注意力	CSA + HCA + SWA
残差	超连接	mHC（流行约束超连接）
优化器	矩阵级	Muon（Kimi 之后的进一步改进）
Infra	训练精度 + kernel	FP4 + TileLang

这 4 件事的共同主题：让 1M 上下文从”理论可行”变成”成本可接受”。

赵晨阳一句：四件耦合的事一起上，复杂度是组合式爆炸——任何一个单独上线都需要大规模 debug，这也是 V4 比预期晚发的原因（春节前后 → 4 月 26 日）。

注意力机制：放弃 MLA、回到 MQA + 混合稀疏

为什么放弃 MLA

V2 → V3 都用 MLA（多头潜在注意力，DeepSeek 自家提出）。几个月前业界都以为先进开源模型架构已收敛到 MLA，接下来只是小改进。V4 直接放弃 MLA、重回 MQA（多查询注意力）——这说明模型架构还有很大改进空间。

技术原因：MQA 更接近原始多头注意力。V4 用 token-wise 压缩做 4:1 甚至 128:1 大尺度压缩——如果继续保留 MLA、再叠这些压缩，实现会相当复杂。

CSA + HCA 的组合工作

V4 每一层都同时跑 SWA（滑动窗口注意力）+ 一种长距注意力（CSA 或 HCA），层与层之间预定义谁用哪个：

CSA（压缩稀疏注意力）：4:1 压缩（4 个 token 聚合成 1 个表示），先压缩序列，再做 top-k 选取——精确锁定关键 token
HCA（重度压缩注意力）：128:1 压缩，压缩更激进，但保持稠密注意力——保留压缩后的全局感知
二者交替：稀疏层抓细节，稠密层提供整体语义概览

对 Infra 的冲击

赵晨阳：改动很大。前缀缓存、FlashMLA、投机解码这些链路都要重建。SGLang 团队为接入做了 ShadowRadix（三个异构 KV 池：SWA / C4 / C128 + 两个压缩状态池）+ HiSparse（把稀疏注意力 KV 卸载到主机内存，长上下文场景能拿 5 倍吞吐）。

完成全平台适配：英伟达 Hopper / Blackwell / Grace Blackwell + AMD + NPU。

残差连接：mHC 的故事 — 字节 Seed → DeepSeek → Kimi 的链式激发

这一段是文章里最有故事性的部分。

HC（Hyper-connection，超连接）—— 字节 Seed 先提出

思路：扩展层与层之间的信息流宽度。原 Transformer 层间只有 d 维信息流；HC 加了 channel 维，宽度变成 d × c——推理能力显著提升。

但原版 HC 数学原理导致梯度回传和训练不稳定，所以 Seed 发完后社区反响一般。

mHC —— DeepSeek 加 Sinkhorn 算法稳定化

DeepSeek 在 V4 里加了 Sinkhorn 算法（数学归一化算法），约束路由和注意力分布，改善训练稳定性。这个改进既需要对 HC 潜力的判断，又需要从内观指标（梯度 scale、激活值）反向倒推怎么解决。

Attention Residual —— Kimi 3 月初也提出了类似方向

Kimi 在 3 月初提出 Attention Residual，思路像 DenseNet（每层与之前所有层直接连接），第一层可以直接影响最后一层。

mHC vs Attention Residual：方法不同但异曲同工——都是 layer-wise 改进信息流。刘益枫认为 Attention Residual 上限可能更高，但 Infra 实现更复杂。

对 Infra 的冲击

mHC 把简单加残差变成需要混合 GEMM + Sinkhorn 归一化的复杂操作。先前算子不够高效，需要为 mHC 单独写新 kernel——而这次有了 TileLang 这种工具。

优化器：Muon 已成”检验大模型团队工程能力的试金石”

Muon 的演进史

时间	事件
2024-10	Keller Jordan 提出 Muon。OpenAI 在 2024 年底招募了 Jordan
2025 年初	Kimi 提出 Moonlight 改进——确定 Muon vs AdamW 学习率比例 = 0.2，让使用者只需设一个学习率超参就能适配整个模型。这让 Muon 从理论创新走向大规模应用
2025 年中	Kimi K2 进一步改进为 MuonClip
2026-04 V4	DeepSeek 算了更精确的比例 = 0.18；牛顿-舒尔茨迭代从 5 步增加到 10 步——每步多算精度更高，整体可能反而更快

Muon vs AdamW 的核心区别

AdamW：元素级（element-wise）优化，对每个参数单独更新
Muon：矩阵级优化，把整个参数矩阵作为整体做归一化和正交化处理——能更好利用矩阵元素之间的联系，让矩阵内不同元素的优化步调更一致

Infra 痛点

赵晨阳：训练侧适配 Muon 是大工程。Muon 砍掉了二阶动量，optimizer state 从两倍降到一倍——节省显存。但它做完牛顿-舒尔茨迭代后还要做正交化，这不是逐元素过程，而是更复杂的矩阵计算——必须拿到完整的二维权重。如果参数已被 TP 或 FSDP 切碎，要先聚合回来再算，涉及大量分布式原语。

刘益枫：“没改成 Muon 的，是没来得及改。后训练 infra 结构更复杂，可能单机装不下，所以后训练适配 Muon 会带来更多结构修改。后训练没改成，预训练就也只能用 AdamW”。

赵晨阳一句金句：

Muon 不是简单替换 AdamW，而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得，取决于团队的工程水平、显卡数量和模型规模。

Infra 关键词 1：TileLang —— 北大团队开源的”中间层”DSL

赵晨阳特别喜欢叫它”太浪”。

三层 kernel 写法对比

语言	性能	开发成本	谁的项目
CUDA	最高	最高	英伟达护城河
Triton	较低	低	OpenAI 开源
TileLang	中间	中	北大杨智团队

V4 里的 TileLang 价值

把一些 kernel 启动开销压缩到微秒级
提升”位级可重现”——同一个 prompt 输入 V4，两次前向推理结果更容易复现，对推理工程师 debug 帮助巨大
真正价值是大大降低为新算法快速开发新 kernel 的边际成本

DeepSeek 提出 mHC 时也写到他们为 mHC 做了一版 TileLang 的 kernel。SGLang 团队也针对推理场景的小批量解码做了 split-K 的 TileLang 版本。最近一年半 TileLang 已开始被全球前沿 lab 当作算法实现的默认选择之一。

刘益枫类比：TileLang / Triton / CUDA 的关系，有点像 C++ 和汇编、Python 和 C 的关系——是不同层级的语言。

国内硬件厂商也在主动支持 TileLang 生态——这意味着TileLang 可以用在其他芯片厂商更底层的软件系统上。

Infra 关键词 2：FP4 训练 —— 走出硬件厂商的 PPT

核心 trick：QAT（量化感知训练）

DeepSeek 在后训练里做 quantization-aware training：训练时模拟量化、采样时真实量化。

具体流程：

训练阶段：优化器维持 FP32 主权重，计算前先压缩到 FP4 范围，再无损反量化回 FP8 计算（“伪量化”）。这个过程没有真正前向计算，但会体现量化误差
然后用 block-wise scale points（缩放系数点）兜住离群点（数值异常偏大的参数或激活），让模型提前适应低精度损失
采样阶段：做真实 FP4 量化，FP4 权重真正用于采样——降低访存瓶颈，物理提速
更重要的是：这跟后续模型部署一致。DeepSeek 现在发布的 checkpoint 也是 FP4——训练中采样用的权重就是最终发布权重，而不是先训 FP8 再量化成 FP4

为什么强化学习需要 FP4

强化学习里，模型越大、token budget 越长，采样越重，可能占 70% 以上时间。采样时降位宽和显存读取压力，速度提升明显。

行业横向

DeepSeek 的 W4A8（权重 4 位、激活值 8 位）是当前最极限
SGLang 团队 INT4 QAT 做的是 W4A16（活值 16 位），比 DeepSeek 差一档
OpenAI gpt-oss 也用 FP4
Kimi K2 用了类似思路
英伟达的开源模型也用 FP4，Blackwell 卡支持 FP4

赵晨阳一句：“FP4 已经正式走出硬件厂商的 PPT，成为开源语言模型世界里真正跑通的工业标准”。

“成本叙事”消失：V4 没再公布训练成本

V3 / R1 引爆市场的关键之一是 557 万美元的最后一次训练成本。V4 没再公布。

赵晨阳一句：“这是一个信号，DeepSeek 不再靠’成本叙事’定义自己，而是用模型能力说话”。

刘益枫补一刀：最后一次训练成本往往是总成本的几十分之一——前沿探索 + 对比验证的实验成本 + 人力数据成本才是主要开支。公布这个成本本身没太大意义（注：按参数量和训练数据量粗略估算，V4 训练计算量可能接近 V3 的 3 倍）。

“范式变化”vs”领域能力” —— 行业讨论的两个尺度

V4 是不是带来范式变化？

赵晨阳：没有。V4 是 follow R1 的范式（test-time scaling），定位是”在这个范式下解决计算瓶颈”。

“范式变化” 在 AI 圈被说得太多。它本来是十年一遇、甚至更稀少的事——Transformer / scaling law / RLHF / 测试时扩展，这些是范式。但每隔半年就要找一个”新范式”的行业恐怕有些问题。

更值得问的问题

沿着现在 LLM 范式继续优化，还有多少空间？上限在哪儿？

赵晨阳判断还有相当大空间，但每一步都更难。V4 这种系统级耦合的工程优化会成为接下来一两年的主旋律——大家会竞争谁能把许多分散的优化做成一个能跑起来的整体系统。这很工程，但商业价值很大。

与其追”范式变化”，不如找”新能力领域”

刘益枫：把”范式”理解为”新的模型能力领域”——长文本、Agent、幻觉控制等。现在的问题不是”能不能做到”，而是”我们还不知道有哪些需要做的”。

从这一点说，V4 带给我的震撼远不如 R1，甚至不如 Kimi 最早提出长文本能力时。

新能力方向猜想： - 刘益枫：AI 的”自我意识”——AI 是否能拥有自己的意识，更自主地行动？ - 赵晨阳：“减少推理量”——很多事情并不需要那么多推理，token 应该用在更重要的事情上。现在的模型有点儿被 infra 优化惯坏了，在上下文长度上太铺张浪费

“拿高压水枪浇花”：模型为什么 token 用得越来越多

赵晨阳的金句：

现在的 token 浪费有种“拿高压水枪浇花”的美感。

机制：

模型诚实反映训练数据
训练数据里有”用更长上下文解决相同问题”的样本
模型吐出来的更长回答又成为训练材料
这就形成坏循环——解决同一问题需要的 token 越来越多

刘益枫补：K1.5 报告提过”长度惩罚”——回答同一问题时惩罚更长回答。但这趋势仍不可逆——优化模型解决问题的能力会优先于优化推理简洁。

评估的可信危机 — Benchmark vs Eval

赵晨阳引用一位 NLP 知名研究者：“We cannot optimize what we cannot evaluate”。

测评（Benchmark）面向具体任务，发布一两年后就可能过时。但评估（Eval）永远存在。

现在的问题：很多模型在 benchmark 上都是 90 多分，但实际差异很大。这一代针对智能体能力的评估还没形成共识，行业还需要更好的评估基建。

新词：vibe checking / vibe benchmarking——大家已经很难判断模型好坏，只能根据有限几次对话说”以前 4.5 能做的任务，为什么 4.7 做不好”。

文中举例：Opus 4.7 更新后，很多人还是认为 4.6 更好用——直接呼应你之前的”模型升级 trigger” 讨论。

DeepSeek-V4 报告里也讲了一个内部在线评测——比较了 Opus 4.5/4.6 + GPT-5.5：V4 大概在 Opus 4.5 左右，跟 4.6、5.5 还有差距。9% 的 DeepSeek 工程师表示不会将 V4-Pro 作为首选模型。

这世界上只有极少数公司在编程上有数据飞轮，而获取数据的最佳方式是”被使用”。

中美对比 + 商业模式

中美路径差异

	美国（Anthropic / OpenAI）	中国（DeepSeek / Kimi 等）
模型	闭源主导	开源主导
版本号	“产品语言”，频繁更新	“研究语言”，每次主版本 = 重大架构变化
追求	领域创新：长上下文、多模态、Agent	性价比 + 工程极限：稀疏比、低成本
价格	同等能力收费高 1 个数量级	低 1 个数量级
算力	充足，不一定要稀疏	有限，必须稀疏

开源模型方法在收敛

基座基本都是 MLA（V4 是少数例外）
优化器陆续从 AdamW / AMSGrad 转向 Muon 或 Muon 微调
Agent 是开源闭源共同重视的方向

谁未来商业化

大家发现未来模型商业化可能更多是给 Agent 提供 token，而不是只靠订阅
但订阅 vs token 计费没定论。赵晨阳倾向订阅 + 额度用完再收 token 费——实际上大部分用户用不完订阅额度，订阅可能更赚钱
视频生成产品的”订阅 + 额外积分”模式跑得很好（影视从业者刚需，客单价高）

视频/语音生成 vs 语言模型

开源视频生成模型和闭源差距很大（迄今最先进开源仍是阿里通义万象）
开源语音生成模型相比 GPT-4o 同代仍有不少差距
侧面说明视频/语音可能更赚钱——所以没人愿意开源

赵晨阳：“很多人批评中美大搞 AI 竞赛，但我觉得很遗憾，只有中美能搞竞赛，没有其他国家玩得起这一波比赛了”。

国产芯片：第一次写进 V4 技术报告

V4 技术报告第三节”Infra”明确：“We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms”——在华为昇腾芯片上验证了细粒度并行 EP 方案的技术可行性。

刘益枫：从零开始为国产算法编写优化算子的工程量比较大，这可能是 V4 开发时间偏长的原因之一。

不过外界普遍推测 V4 训练阶段用的仍是英伟达——国产芯片是推理适配，不是训练。

后训练 — 多专家训练 + 蒸馏

V4 一个亮点：预训练先分裂专家，再做 on-policy distillation（在线策略蒸馏，在当前模型实际采样分布上蒸馏，不只是依赖离线固定数据）。

赵晨阳的总结：多目标优化里，先分裂再蒸馏 = 在各个目标上找局部最优，再让一个学生模型拟合多个教师模型的输出分布。这有点像数学插值——把复杂 loss surface 上的联合优化变成在已收敛离散点之间做插值，工程上更稳定可控。

业界类似尝试：Qwen 在 post-training 阶段提过 multi-stage 专家聚合，学术界也一直有模型聚合、模型 Spawn 这类技术。

拧巴的地方 / 我的怀疑

“系统级耦合优化更难”是 thesis，但没量化 — 文章反复说 4 件事一起上是组合式爆炸，但没给具体数据（debug 时间多了多少倍？算力浪费多少？）。读者只能听信，没法判断”如果分开 4 个版本上”会不会反而更快
mHC vs Attention Residual 的”上限更高”判断没数据 — 刘益枫说 Attention Residual 上限可能更高但只是直觉。两种残差连接方式哪种好，应该有 ablation study，文章没引
TileLang 性能 “比 CUDA 更好用，比 Triton 性能更好” 这个 sweet spot 的具体数据缺失 — 同一个 kernel 三种语言性能对比应该有数字，文中没给
Muon 学习率比例 0.2 → 0.18 这个差距的来源 — 刘益枫说 DeepSeek “自己算了一个更精确的”，但没说怎么算的。如果是经验调参，跟 Kimi 0.2 差距 10% 可能是噪音；如果有理论推导，应该值得多说一段
“Muon 不是替换 AdamW，而是用工程复杂度换显存收敛效率”——这条本应该量化 — 节省多少显存？收敛速度提升多少？换了多少工程人天？没数据
“vibe checking” 描述了行业问题但没给解法 — 评估基建怎么做？至少应该指向 ClawBench 之外几个更具体的方向
国产芯片”细粒度 EP 推理验证”这条原报告很值得追问 — 训练完全没用国产芯片？推理是 day-0 就跑还是优化后才跑？性能差距多少？文章只引了报告原句，没继续追

跟 Justin 已有笔记的连接

强连接（直接续上）：

~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md —— 你的 DS4 发布日的研究笔记。这次访谈刚好是发布两天后的一线工程师视角解读，比 spec 表更厚一层。next-actions 里有”DS4 research update（回填 Vals AI/lmarena 复测数 / frontier 三家是否跟降 / Cursor/Cognition 官方迁移 / 港股 5 日 / Blackwell vs Ascend 叙事归属 / 多模态是否开放）” due 2026-05-03，这次访谈给了几个回填材料：
- lmarena 数据：5月1日 V4-Pro 在 Chatbot Arena 排第 23（超 K2.6 仍低于 GLM-5.1）；Artificial Analysis 智能指数 52
- Blackwell vs Ascend 叙事归属：技术报告明确 Ascend 仅用于推理验证，训练仍是英伟达——叙事不是”完全摆脱英伟达”，而是”国产芯片做推理适配”
- frontier 三家是否跟降：文章没直接讲，但提到 V4-Pro 缓存命中价格从 25% 优惠又打 1 折——降价继续在 push
- 多模态是否开放：V4 没碰多模态，文章明确说 V4 没带来新能力领域
mental-models.md “Harness 双轴”+ “模型升级 trigger”段（2026-04-30 你刚加的） —— 文章里 “Opus 4.7 更新后大家说 4.6 更好用” + “vibe checking” + “benchmark 可信危机” 这一组观察直接呼应你 mental model 里的”模型升级是审计 trigger”——模型升级带来 capability 变动，但 capability 是否真的升级，社区只能用 vibe check。这条值得作为补充 case 写进 mental model entry
拾象月更时代 4-30 笔记（你刚做完的精读） —— 文章里 “token 浪费有种拿高压水枪浇花的美感” + “现在的模型被 infra 优化惯坏了” + “解决同一问题 token 越用越多” 直接呼应拾象 Insight 04（Token 涨价）+ Insight 05（Bottleneck 在人）。两篇文章在不同视角下指向同一个问题：模型推理量增长是真现象，且短期不可逆

弱连接（可补充）：

Muon / mHC 的中国开源生态链式激发故事（字节 Seed → DeepSeek → Kimi）—— 这是这次访谈最具叙事价值的一段。值得作为案例写进 mental-models.md “开源生态的 capability uplift 链式激发” 这种新 entry——展示当人才密度 + 竞争烈度到位时，开源社区会出现什么样的进步质变。
TileLang 作为新的 DSL 中间层 —— 北大开源生态在 LLM infra 工具链上跑出来的具体案例。对你看 portfolio / 评估开源 infra 项目时是个 reference。

核心金句汇总（按文章原话保留）

“系统级耦合优化比单点创新更难”（赵晨阳）
“这一连串数（激活比 5%→4%→3%），大家可能听起来像在雕花，但很反映工程能力”（赵晨阳）
“Muon 不是简单替换 AdamW，而是用大量人力和工程复杂度换取大量显存和收敛效率”（赵晨阳）
“FP4 已经正式走出硬件厂商的 PPT，成为开源语言模型世界里真正跑通的工业标准”（赵晨阳）
“DeepSeek 不再靠’成本叙事’定义自己，而是用模型能力说话”（赵晨阳）
“没改成 Muon 的，是没来得及改”（刘益枫）
“现在的 token 浪费有种’拿高压水枪浇花’的美感”（赵晨阳）
“现在的模型有点儿被 infra 优化惯坏了，在上下文长度上太铺张浪费”（赵晨阳）
“We cannot optimize what we cannot evaluate”（赵晨阳引用）
“很多人批评中美大搞 AI 竞赛，但我觉得很遗憾，只有中美能搞竞赛，没有其他国家玩得起这一波比赛了”（赵晨阳）
“离开了 Claude，外面的世界完全没有下雨”（赵晨阳——讲他被迫切到 Codex 的体验）

联系方式（嘉宾自留）：赵晨阳 wechat LoveDeathAndLLM；刘益枫 wechat lauyikfung20