详解 DeepSeek V4:Infra 巨鲸四连击 — 一线工程师视角的访谈精读
4月28日访谈(V4 发布两天后),晚点 LatePost 请两位一线 AI 从业者详解 V4 技术报告。核心定调:V4 不带”范式变化”,但一次性把 4 个互相耦合的硬骨头同时跑通——混合稀疏注意力 + mHC + Muon + FP4,把”百万上下文从理论可行变成成本可接受”。作者一句:“系统级耦合优化比单点创新更难”。
嘉宾:刘益枫(UCLA 博士,Kimi/字节 Seed 实习经历,K1.5 参与者,做过优化器);赵晨阳(开源推理框架 SGLang 核心开发者,已加入 RadixArk AI,前字节 Seed 实习)
V4 是什么 — 一句话定位
- 规模:1.6T 总参数(V3 是 670B),激活 49B = 3% 激活比(V3 是 5.5%;K2.6 是 3.2%;MiMo-2.5-pro 4.1%;MiniMax M2.7 4.35%;GLM 5.1 5.3%)。业界最激进的 sparsity
- 效率:百万上下文下,单 token 推理 FLOPs 是 V3.2 的 27%,KV 缓存占用是 V3.2 的 10%
- 价格:V4 比 V3 大很多,价格也贵不少;但 V4-Pro 输入缓存命中价格从 25% 优惠又打 1 折——降价很猛
- 能力体感:数学推理、代码、Agent 指令执行都比 V3 好不少,幻觉少得多;代码能力还是比 Opus 4.6 弱,跟 GLM-5.1 / K2.6 相近
- Chatbot Arena 排名:V4-Pro 5月1日排第 23,超过 K2.6 但仍低于 GLM-5.1
- Artificial Analysis 智能指数:52,比 Kimi、MiMo 低
四连击 — V4 一次性同时上的四个硬骨头
V4 整体保留 DeepSeekMoE 框架 + MTP 策略,在四层做改造:
| 层 | 改造 | 关键术语 |
|---|---|---|
| 注意力 | 混合稀疏注意力 | CSA + HCA + SWA |
| 残差 | 超连接 | mHC(流行约束超连接) |
| 优化器 | 矩阵级 | Muon(Kimi 之后的进一步改进) |
| Infra | 训练精度 + kernel | FP4 + TileLang |
这 4 件事的共同主题:让 1M 上下文从”理论可行”变成”成本可接受”。
赵晨阳一句:四件耦合的事一起上,复杂度是组合式爆炸——任何一个单独上线都需要大规模 debug,这也是 V4 比预期晚发的原因(春节前后 → 4 月 26 日)。
注意力机制:放弃 MLA、回到 MQA + 混合稀疏
为什么放弃 MLA
V2 → V3 都用 MLA(多头潜在注意力,DeepSeek 自家提出)。几个月前业界都以为先进开源模型架构已收敛到 MLA,接下来只是小改进。V4 直接放弃 MLA、重回 MQA(多查询注意力)——这说明模型架构还有很大改进空间。
技术原因:MQA 更接近原始多头注意力。V4 用 token-wise 压缩做 4:1 甚至 128:1 大尺度压缩——如果继续保留 MLA、再叠这些压缩,实现会相当复杂。
CSA + HCA 的组合工作
V4 每一层都同时跑 SWA(滑动窗口注意力)+ 一种长距注意力(CSA 或 HCA),层与层之间预定义谁用哪个:
- CSA(压缩稀疏注意力):4:1 压缩(4 个 token 聚合成 1 个表示),先压缩序列,再做 top-k 选取——精确锁定关键 token
- HCA(重度压缩注意力):128:1 压缩,压缩更激进,但保持稠密注意力——保留压缩后的全局感知
- 二者交替:稀疏层抓细节,稠密层提供整体语义概览
对 Infra 的冲击
赵晨阳:改动很大。前缀缓存、FlashMLA、投机解码这些链路都要重建。SGLang 团队为接入做了 ShadowRadix(三个异构 KV 池:SWA / C4 / C128 + 两个压缩状态池)+ HiSparse(把稀疏注意力 KV 卸载到主机内存,长上下文场景能拿 5 倍吞吐)。
完成全平台适配:英伟达 Hopper / Blackwell / Grace Blackwell + AMD + NPU。
残差连接:mHC 的故事 — 字节 Seed → DeepSeek → Kimi 的链式激发
这一段是文章里最有故事性的部分。
HC(Hyper-connection,超连接)—— 字节 Seed 先提出
思路:扩展层与层之间的信息流宽度。原 Transformer 层间只有 d 维信息流;HC 加了 channel 维,宽度变成 d × c——推理能力显著提升。
但原版 HC 数学原理导致梯度回传和训练不稳定,所以 Seed 发完后社区反响一般。
mHC —— DeepSeek 加 Sinkhorn 算法稳定化
DeepSeek 在 V4 里加了 Sinkhorn 算法(数学归一化算法),约束路由和注意力分布,改善训练稳定性。这个改进既需要对 HC 潜力的判断,又需要从内观指标(梯度 scale、激活值)反向倒推怎么解决。
Attention Residual —— Kimi 3 月初也提出了类似方向
Kimi 在 3 月初提出 Attention Residual,思路像 DenseNet(每层与之前所有层直接连接),第一层可以直接影响最后一层。
mHC vs Attention Residual:方法不同但异曲同工——都是 layer-wise 改进信息流。刘益枫认为 Attention Residual 上限可能更高,但 Infra 实现更复杂。
对 Infra 的冲击
mHC 把简单加残差变成需要混合 GEMM + Sinkhorn 归一化的复杂操作。先前算子不够高效,需要为 mHC 单独写新 kernel——而这次有了 TileLang 这种工具。
优化器:Muon 已成”检验大模型团队工程能力的试金石”
Muon 的演进史
| 时间 | 事件 |
|---|---|
| 2024-10 | Keller Jordan 提出 Muon。OpenAI 在 2024 年底招募了 Jordan |
| 2025 年初 | Kimi 提出 Moonlight 改进——确定 Muon vs AdamW 学习率比例 = 0.2,让使用者只需设一个学习率超参就能适配整个模型。这让 Muon 从理论创新走向大规模应用 |
| 2025 年中 | Kimi K2 进一步改进为 MuonClip |
| 2026-04 V4 | DeepSeek 算了更精确的比例 = 0.18;牛顿-舒尔茨迭代从 5 步增加到 10 步——每步多算精度更高,整体可能反而更快 |
Muon vs AdamW 的核心区别
- AdamW:元素级(element-wise)优化,对每个参数单独更新
- Muon:矩阵级优化,把整个参数矩阵作为整体做归一化和正交化处理——能更好利用矩阵元素之间的联系,让矩阵内不同元素的优化步调更一致
Infra 痛点
赵晨阳:训练侧适配 Muon 是大工程。Muon 砍掉了二阶动量,optimizer state 从两倍降到一倍——节省显存。但它做完牛顿-舒尔茨迭代后还要做正交化,这不是逐元素过程,而是更复杂的矩阵计算——必须拿到完整的二维权重。如果参数已被 TP 或 FSDP 切碎,要先聚合回来再算,涉及大量分布式原语。
刘益枫:“没改成 Muon 的,是没来得及改。后训练 infra 结构更复杂,可能单机装不下,所以后训练适配 Muon 会带来更多结构修改。后训练没改成,预训练就也只能用 AdamW”。
赵晨阳一句金句:
Muon 不是简单替换 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效率。这笔账值不值得,取决于团队的工程水平、显卡数量和模型规模。
Infra 关键词 1:TileLang —— 北大团队开源的”中间层”DSL
赵晨阳特别喜欢叫它”太浪”。
三层 kernel 写法对比
| 语言 | 性能 | 开发成本 | 谁的项目 |
|---|---|---|---|
| CUDA | 最高 | 最高 | 英伟达护城河 |
| Triton | 较低 | 低 | OpenAI 开源 |
| TileLang | 中间 | 中 | 北大杨智团队 |
V4 里的 TileLang 价值
- 把一些 kernel 启动开销压缩到微秒级
- 提升”位级可重现”——同一个 prompt 输入 V4,两次前向推理结果更容易复现,对推理工程师 debug 帮助巨大
- 真正价值是大大降低为新算法快速开发新 kernel 的边际成本
DeepSeek 提出 mHC 时也写到他们为 mHC 做了一版 TileLang 的 kernel。SGLang 团队也针对推理场景的小批量解码做了 split-K 的 TileLang 版本。最近一年半 TileLang 已开始被全球前沿 lab 当作算法实现的默认选择之一。
刘益枫类比:TileLang / Triton / CUDA 的关系,有点像 C++ 和汇编、Python 和 C 的关系——是不同层级的语言。
国内硬件厂商也在主动支持 TileLang 生态——这意味着TileLang 可以用在其他芯片厂商更底层的软件系统上。
Infra 关键词 2:FP4 训练 —— 走出硬件厂商的 PPT
核心 trick:QAT(量化感知训练)
DeepSeek 在后训练里做 quantization-aware training:训练时模拟量化、采样时真实量化。
具体流程:
- 训练阶段:优化器维持 FP32 主权重,计算前先压缩到 FP4 范围,再无损反量化回 FP8 计算(“伪量化”)。这个过程没有真正前向计算,但会体现量化误差
- 然后用 block-wise scale points(缩放系数点)兜住离群点(数值异常偏大的参数或激活),让模型提前适应低精度损失
- 采样阶段:做真实 FP4 量化,FP4 权重真正用于采样——降低访存瓶颈,物理提速
- 更重要的是:这跟后续模型部署一致。DeepSeek 现在发布的 checkpoint 也是 FP4——训练中采样用的权重就是最终发布权重,而不是先训 FP8 再量化成 FP4
为什么强化学习需要 FP4
强化学习里,模型越大、token budget 越长,采样越重,可能占 70% 以上时间。采样时降位宽和显存读取压力,速度提升明显。
行业横向
- DeepSeek 的 W4A8(权重 4 位、激活值 8 位)是当前最极限
- SGLang 团队 INT4 QAT 做的是 W4A16(活值 16 位),比 DeepSeek 差一档
- OpenAI gpt-oss 也用 FP4
- Kimi K2 用了类似思路
- 英伟达的开源模型也用 FP4,Blackwell 卡支持 FP4
赵晨阳一句:“FP4 已经正式走出硬件厂商的 PPT,成为开源语言模型世界里真正跑通的工业标准”。
“成本叙事”消失:V4 没再公布训练成本
V3 / R1 引爆市场的关键之一是 557 万美元的最后一次训练成本。V4 没再公布。
赵晨阳一句:“这是一个信号,DeepSeek 不再靠’成本叙事’定义自己,而是用模型能力说话”。
刘益枫补一刀:最后一次训练成本往往是总成本的几十分之一——前沿探索 + 对比验证的实验成本 + 人力数据成本才是主要开支。公布这个成本本身没太大意义(注:按参数量和训练数据量粗略估算,V4 训练计算量可能接近 V3 的 3 倍)。
“范式变化”vs”领域能力” —— 行业讨论的两个尺度
V4 是不是带来范式变化?
赵晨阳:没有。V4 是 follow R1 的范式(test-time scaling),定位是”在这个范式下解决计算瓶颈”。
“范式变化” 在 AI 圈被说得太多。它本来是十年一遇、甚至更稀少的事——Transformer / scaling law / RLHF / 测试时扩展,这些是范式。但每隔半年就要找一个”新范式”的行业恐怕有些问题。
更值得问的问题
沿着现在 LLM 范式继续优化,还有多少空间?上限在哪儿?
赵晨阳判断还有相当大空间,但每一步都更难。V4 这种系统级耦合的工程优化会成为接下来一两年的主旋律——大家会竞争谁能把许多分散的优化做成一个能跑起来的整体系统。这很工程,但商业价值很大。
与其追”范式变化”,不如找”新能力领域”
刘益枫:把”范式”理解为”新的模型能力领域”——长文本、Agent、幻觉控制等。现在的问题不是”能不能做到”,而是”我们还不知道有哪些需要做的”。
从这一点说,V4 带给我的震撼远不如 R1,甚至不如 Kimi 最早提出长文本能力时。
新能力方向猜想: - 刘益枫:AI 的”自我意识”——AI 是否能拥有自己的意识,更自主地行动? - 赵晨阳:“减少推理量”——很多事情并不需要那么多推理,token 应该用在更重要的事情上。现在的模型有点儿被 infra 优化惯坏了,在上下文长度上太铺张浪费
“拿高压水枪浇花”:模型为什么 token 用得越来越多
赵晨阳的金句:
现在的 token 浪费有种“拿高压水枪浇花”的美感。
机制:
- 模型诚实反映训练数据
- 训练数据里有”用更长上下文解决相同问题”的样本
- 模型吐出来的更长回答又成为训练材料
- 这就形成坏循环——解决同一问题需要的 token 越来越多
刘益枫补:K1.5 报告提过”长度惩罚”——回答同一问题时惩罚更长回答。但这趋势仍不可逆——优化模型解决问题的能力会优先于优化推理简洁。
评估的可信危机 — Benchmark vs Eval
赵晨阳引用一位 NLP 知名研究者:“We cannot optimize what we cannot evaluate”。
测评(Benchmark)面向具体任务,发布一两年后就可能过时。但评估(Eval)永远存在。
现在的问题:很多模型在 benchmark 上都是 90 多分,但实际差异很大。这一代针对智能体能力的评估还没形成共识,行业还需要更好的评估基建。
新词:vibe checking / vibe benchmarking——大家已经很难判断模型好坏,只能根据有限几次对话说”以前 4.5 能做的任务,为什么 4.7 做不好”。
文中举例:Opus 4.7 更新后,很多人还是认为 4.6 更好用——直接呼应你之前的”模型升级 trigger” 讨论。
DeepSeek-V4 报告里也讲了一个内部在线评测——比较了 Opus 4.5/4.6 + GPT-5.5:V4 大概在 Opus 4.5 左右,跟 4.6、5.5 还有差距。9% 的 DeepSeek 工程师表示不会将 V4-Pro 作为首选模型。
这世界上只有极少数公司在编程上有数据飞轮,而获取数据的最佳方式是”被使用”。
中美对比 + 商业模式
中美路径差异
| 美国(Anthropic / OpenAI) | 中国(DeepSeek / Kimi 等) | |
|---|---|---|
| 模型 | 闭源主导 | 开源主导 |
| 版本号 | “产品语言”,频繁更新 | “研究语言”,每次主版本 = 重大架构变化 |
| 追求 | 领域创新:长上下文、多模态、Agent | 性价比 + 工程极限:稀疏比、低成本 |
| 价格 | 同等能力收费高 1 个数量级 | 低 1 个数量级 |
| 算力 | 充足,不一定要稀疏 | 有限,必须稀疏 |
开源模型方法在收敛
- 基座基本都是 MLA(V4 是少数例外)
- 优化器陆续从 AdamW / AMSGrad 转向 Muon 或 Muon 微调
- Agent 是开源闭源共同重视的方向
谁未来商业化
- 大家发现未来模型商业化可能更多是给 Agent 提供 token,而不是只靠订阅
- 但订阅 vs token 计费没定论。赵晨阳倾向订阅 + 额度用完再收 token 费——实际上大部分用户用不完订阅额度,订阅可能更赚钱
- 视频生成产品的”订阅 + 额外积分”模式跑得很好(影视从业者刚需,客单价高)
视频/语音生成 vs 语言模型
- 开源视频生成模型和闭源差距很大(迄今最先进开源仍是阿里通义万象)
- 开源语音生成模型相比 GPT-4o 同代仍有不少差距
- 侧面说明视频/语音可能更赚钱——所以没人愿意开源
赵晨阳:“很多人批评中美大搞 AI 竞赛,但我觉得很遗憾,只有中美能搞竞赛,没有其他国家玩得起这一波比赛了”。
国产芯片:第一次写进 V4 技术报告
V4 技术报告第三节”Infra”明确:“We validated the fine-grained EP scheme on both NVIDIA GPUs and HUAWEI Ascend NPUs platforms”——在华为昇腾芯片上验证了细粒度并行 EP 方案的技术可行性。
刘益枫:从零开始为国产算法编写优化算子的工程量比较大,这可能是 V4 开发时间偏长的原因之一。
不过外界普遍推测 V4 训练阶段用的仍是英伟达——国产芯片是推理适配,不是训练。
后训练 — 多专家训练 + 蒸馏
V4 一个亮点:预训练先分裂专家,再做 on-policy distillation(在线策略蒸馏,在当前模型实际采样分布上蒸馏,不只是依赖离线固定数据)。
赵晨阳的总结:多目标优化里,先分裂再蒸馏 = 在各个目标上找局部最优,再让一个学生模型拟合多个教师模型的输出分布。这有点像数学插值——把复杂 loss surface 上的联合优化变成在已收敛离散点之间做插值,工程上更稳定可控。
业界类似尝试:Qwen 在 post-training 阶段提过 multi-stage 专家聚合,学术界也一直有模型聚合、模型 Spawn 这类技术。
拧巴的地方 / 我的怀疑
- “系统级耦合优化更难”是 thesis,但没量化 — 文章反复说 4 件事一起上是组合式爆炸,但没给具体数据(debug 时间多了多少倍?算力浪费多少?)。读者只能听信,没法判断”如果分开 4 个版本上”会不会反而更快
- mHC vs Attention Residual 的”上限更高”判断没数据 — 刘益枫说 Attention Residual 上限可能更高但只是直觉。两种残差连接方式哪种好,应该有 ablation study,文章没引
- TileLang 性能 “比 CUDA 更好用,比 Triton 性能更好” 这个 sweet spot 的具体数据缺失 — 同一个 kernel 三种语言性能对比应该有数字,文中没给
- Muon 学习率比例 0.2 → 0.18 这个差距的来源 — 刘益枫说 DeepSeek “自己算了一个更精确的”,但没说怎么算的。如果是经验调参,跟 Kimi 0.2 差距 10% 可能是噪音;如果有理论推导,应该值得多说一段
- “Muon 不是替换 AdamW,而是用工程复杂度换显存收敛效率”——这条本应该量化 — 节省多少显存?收敛速度提升多少?换了多少工程人天?没数据
- “vibe checking” 描述了行业问题但没给解法 — 评估基建怎么做?至少应该指向 ClawBench 之外几个更具体的方向
- 国产芯片”细粒度 EP 推理验证”这条原报告很值得追问 — 训练完全没用国产芯片?推理是 day-0 就跑还是优化后才跑?性能差距多少?文章只引了报告原句,没继续追
跟 Justin 已有笔记的连接
强连接(直接续上):
~/CC/Learning/Research/2026-04-26-deepseek-v4-发布研究.md—— 你的 DS4 发布日的研究笔记。这次访谈刚好是发布两天后的一线工程师视角解读,比 spec 表更厚一层。next-actions 里有”DS4 research update(回填 Vals AI/lmarena 复测数 / frontier 三家是否跟降 / Cursor/Cognition 官方迁移 / 港股 5 日 / Blackwell vs Ascend 叙事归属 / 多模态是否开放)” due 2026-05-03,这次访谈给了几个回填材料:- lmarena 数据:5月1日 V4-Pro 在 Chatbot Arena 排第 23(超 K2.6 仍低于 GLM-5.1);Artificial Analysis 智能指数 52
- Blackwell vs Ascend 叙事归属:技术报告明确 Ascend 仅用于推理验证,训练仍是英伟达——叙事不是”完全摆脱英伟达”,而是”国产芯片做推理适配”
- frontier 三家是否跟降:文章没直接讲,但提到 V4-Pro 缓存命中价格从 25% 优惠又打 1 折——降价继续在 push
- 多模态是否开放:V4 没碰多模态,文章明确说 V4 没带来新能力领域
mental-models.md “Harness 双轴”+ “模型升级 trigger”段(2026-04-30 你刚加的) —— 文章里 “Opus 4.7 更新后大家说 4.6 更好用” + “vibe checking” + “benchmark 可信危机” 这一组观察直接呼应你 mental model 里的”模型升级是审计 trigger”——模型升级带来 capability 变动,但 capability 是否真的升级,社区只能用 vibe check。这条值得作为补充 case 写进 mental model entry
拾象月更时代 4-30 笔记(你刚做完的精读) —— 文章里 “token 浪费有种拿高压水枪浇花的美感” + “现在的模型被 infra 优化惯坏了” + “解决同一问题 token 越用越多” 直接呼应拾象 Insight 04(Token 涨价)+ Insight 05(Bottleneck 在人)。两篇文章在不同视角下指向同一个问题:模型推理量增长是真现象,且短期不可逆
弱连接(可补充):
Muon / mHC 的中国开源生态链式激发故事(字节 Seed → DeepSeek → Kimi)—— 这是这次访谈最具叙事价值的一段。值得作为案例写进 mental-models.md “开源生态的 capability uplift 链式激发” 这种新 entry——展示当人才密度 + 竞争烈度到位时,开源社区会出现什么样的进步质变。
TileLang 作为新的 DSL 中间层 —— 北大开源生态在 LLM infra 工具链上跑出来的具体案例。对你看 portfolio / 评估开源 infra 项目时是个 reference。
核心金句汇总(按文章原话保留)
- “系统级耦合优化比单点创新更难”(赵晨阳)
- “这一连串数(激活比 5%→4%→3%),大家可能听起来像在雕花,但很反映工程能力”(赵晨阳)
- “Muon 不是简单替换 AdamW,而是用大量人力和工程复杂度换取大量显存和收敛效率”(赵晨阳)
- “FP4 已经正式走出硬件厂商的 PPT,成为开源语言模型世界里真正跑通的工业标准”(赵晨阳)
- “DeepSeek 不再靠’成本叙事’定义自己,而是用模型能力说话”(赵晨阳)
- “没改成 Muon 的,是没来得及改”(刘益枫)
- “现在的 token 浪费有种’拿高压水枪浇花’的美感”(赵晨阳)
- “现在的模型有点儿被 infra 优化惯坏了,在上下文长度上太铺张浪费”(赵晨阳)
- “We cannot optimize what we cannot evaluate”(赵晨阳引用)
- “很多人批评中美大搞 AI 竞赛,但我觉得很遗憾,只有中美能搞竞赛,没有其他国家玩得起这一波比赛了”(赵晨阳)
- “离开了 Claude,外面的世界完全没有下雨”(赵晨阳——讲他被迫切到 Codex 的体验)
联系方式(嘉宾自留):赵晨阳 wechat
LoveDeathAndLLM;刘益枫 wechat
lauyikfung20