职贝云数AI新零售门户

标题: DeepSeek-V4深度拆解:一篇论文同时做了五件大事 [打印本页]

作者: ty19 时间: 昨天 23:00
标题: DeepSeek-V4深度拆解:一篇论文同时做了五件大事
↑阅读之前记得关注+星标⭐️，😄，每天赋能第一工夫接收到更新

这篇对DeepSeek v4论文解读来自Pierre-Carl Langlais（@Dorialexander）开源AI基础设备开发者，Pleias结合创始人，首席技术官。

这篇论文让我看了整整一周。

DeepSeek-V4的论文试图同时完成多件事，而且这些事之间的联络出人预料地严密，很难单独拆开来讲。

(, 下载次数: 0)

下面逐一说清楚。
第一件事：正面追逐闭源模型的架构差距

业内不断有个传言：Anthropic的Opus系列和GPT-5里的最大模型，属于完全不同量级的东西。

它们的特征是：规模极大、极度稀疏的混合专家架构（MoE），可以在保持可服务性的前提下维持史无前例的宽搜索空间。

成绩在于，这类模型大到无法在单节点上承载，必须在节点互联和不同层级的量化上做大量工程工作。

DeepSeek-V4的一个核心关注点就是通讯延迟成绩，论文展现了如何经过对互联网络的精细调度来隐藏延迟，大致思绪是把通讯工夫塞进计算工夫里同步完成。

这条路有一个硬门槛：必须具有从头重写底层算子（kernel）的才能。论文里反复强调这一点。由于这就是当前前沿竞争的本质。
第二件事：让长上下文同时变得更高效、更便宜

长上下文本质上是一个留意力分配成绩：什么内容值得被关注？

一个不言而喻的方案是优先关注最近的token。这对基本检索够用，但不满足智能体（agentic）流水线的需求，由于这类场景需求准确召回间隔很远但战略重要的内容。

DeepSeek-V4的解法是用两套不同的留意力紧缩方案，分配给不同的层来处理两个维度的记忆：

重度紧缩留意力（HCA）：暴力方法，把每128个token的序列紧缩成一个条目，担任处理模糊但全局性的上下文。

紧缩稀疏留意力（CSA）：依托一个轻量级索引器，把相关的部分内容块精准调出来，即便这些内容间隔当前地位有数千个token之远。

整个设计面向推理端做了充分优化：采用了很大的head_dim（512），训练成本更高，但换来的是更高紧缩率的KV缓存，而KV缓存恰恰是推理时特别是预填充（prefill）阶段的真正瓶颈。

最终结果是非常典型的DeepSeek风格：继MLA（多头潜在留意力）之后，再次颠覆推理经济学。

估计CSA/HCA混合方案（或相似方案）在往年年底前会成为主流架构标配。
第三件事：重新定义模型架构与学习信号

这是整篇论文最有野心、也最不残缺的部分。

最突出的是mHC和CSA/HCA混合机制，但创新点远不止于此，还有一长串记录较少的改动：把softmax换成sqrt(softplus)、运用非标准参数值的两阶段混合Muon优化方案，等等。

成绩是，这些新组件之间的互相作用目前仍不清楚，这很能够是导致训练过程中出现分明不波动性的缘由。比如论文提到，mHC触及一个输入维度只要24的矩阵乘法，这会引入不确定性。

即便是全球顶尖的AI实验室，面对消融实验的组合爆炸也无能为力。这些设计选择的组合很能够是不可穷举的，需求一套更系统的实际来支撑。论文结尾也承认了这一点，表示将来会做更片面、更有准绳的架构精简研讨，但目前还没有给出答案。

相比之下，训练后阶段的探求能够更有参考价值。

值得留意的是，DeepSeek正是RL+推理训练这套标准方案的推行者，而如今他们本人在重新审视这个方案。目前是两阶段设计：先对专项模型做强化学习，再做在线蒸馏。自从发布Self-Principled Critique Tuning以来，DeepSeek就不断在尝试把推理训练信号扩展到最终稀疏奖励之外。

这未必是最终答案。这个范畴目前还处于疾速变化中，甚至可以说我们为SYNTH设计的可验证流水线，本质上也是一种极端方式的离线强化学习训练。
第四件事：提早规划硬件生态

这是一个3到5年以上的长期计划。

出发点是把限制变成机会：作为中国抢先的AI实验室，DeepSeek有很强的动机让训练在华为昇腾芯片上跑通，并为国内芯片自主化努力做出贡献。

论文里有一份稀有的将来硬件愿望清单，非常详细。多位专家指出，这些建议对英伟达来说意义不大，但对硬件范畴的新进入者来说非常合理。

DeepSeek似乎在预判一个新格局：将来AI实验室需求与硬件合作伙伴深度绑定，让芯片设计反过来适配模型设计和推理需求。
第五件事：留白，也是一种信息

论文几乎没有提合成数据流水线、改写、模拟环境等内容。

训练数据总量是32T token，其中大概率有相当比例是生成数据，由于网络和其他数字化来源提供不了这么多高质量token。合成数据的比例能够与Trinity或Kimi相近，大约一半左右。

但很分明，DeepSeek这次把全部精神放在了基础设备、架构和规模化上，系统性的重训练留到了后面。

这和Anthropic或OpenAI的做法能够并没有本质区别：即便模型外部的重要部分曾经发生了变化，比如Opus 4.7更换了tokenizer，我们依然处于同一个模型系列中。这阐明一个模型的生命周期，往往包含多轮训练，而每一轮的规模都能够相当于几年前的一次残缺预训练。

另外，DeepSeek与Moonshot之间的深度协作，以及Moonshot对DeepSeek的高度依赖，暗示这里能够正在构成一种生态系统动态：DeepSeek专注于硬核的基础设备成绩，其他发展方向由生态中的合作伙伴分头推进。

以上解读仅代表作者本人观点。

--end--

最后记得⭐️我，每天都在更新：假如觉得文章还不错的话可以点赞转发引荐评论

/...@作者：你说的完全正确（YAR师）

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)