职贝云数AI新零售门户

标题: DeepSeek-V4深度拆解:一篇论文同时做了五件大事 [打印本页]

作者: ty19    时间: 昨天 23:00
标题: DeepSeek-V4深度拆解:一篇论文同时做了五件大事
↑阅读之前记得关注+星标⭐️,😄,每天赋能第一工夫接收到更新

这篇对DeepSeek v4论文解读来自Pierre-Carl Langlais(@Dorialexander)开源AI基础设备开发者,Pleias结合创始人,首席技术官。



这篇论文让我看了整整一周。

DeepSeek-V4的论文试图同时完成多件事,而且这些事之间的联络出人预料地严密,很难单独拆开来讲。

(, 下载次数: 0)

下面逐一说清楚。
第一件事:正面追逐闭源模型的架构差距

业内不断有个传言:Anthropic的Opus系列和GPT-5里的最大模型,属于完全不同量级的东西。

它们的特征是:规模极大、极度稀疏的混合专家架构(MoE),可以在保持可服务性的前提下维持史无前例的宽搜索空间。

成绩在于,这类模型大到无法在单节点上承载,必须在节点互联和不同层级的量化上做大量工程工作。

DeepSeek-V4的一个核心关注点就是通讯延迟成绩,论文展现了如何经过对互联网络的精细调度来隐藏延迟,大致思绪是把通讯工夫塞进计算工夫里同步完成。

这条路有一个硬门槛:必须具有从头重写底层算子(kernel)的才能。论文里反复强调这一点。由于这就是当前前沿竞争的本质。
第二件事:让长上下文同时变得更高效、更便宜

长上下文本质上是一个留意力分配成绩:什么内容值得被关注?

一个不言而喻的方案是优先关注最近的token。这对基本检索够用,但不满足智能体(agentic)流水线的需求,由于这类场景需求准确召回间隔很远但战略重要的内容。

DeepSeek-V4的解法是用两套不同的留意力紧缩方案,分配给不同的层来处理两个维度的记忆:

重度紧缩留意力(HCA):暴力方法,把每128个token的序列紧缩成一个条目,担任处理模糊但全局性的上下文。

紧缩稀疏留意力(CSA):依托一个轻量级索引器,把相关的部分内容块精准调出来,即便这些内容间隔当前地位有数千个token之远。

整个设计面向推理端做了充分优化:采用了很大的head_dim(512),训练成本更高,但换来的是更高紧缩率的KV缓存,而KV缓存恰恰是推理时特别是预填充(prefill)阶段的真正瓶颈。

最终结果是非常典型的DeepSeek风格:继MLA(多头潜在留意力)之后,再次颠覆推理经济学。

估计CSA/HCA混合方案(或相似方案)在往年年底前会成为主流架构标配。
第三件事:重新定义模型架构与学习信号

这是整篇论文最有野心、也最不残缺的部分。

最突出的是mHC和CSA/HCA混合机制,但创新点远不止于此,还有一长串记录较少的改动:把softmax换成sqrt(softplus)、运用非标准参数值的两阶段混合Muon优化方案,等等。

成绩是,这些新组件之间的互相作用目前仍不清楚,这很能够是导致训练过程中出现分明不波动性的缘由。比如论文提到,mHC触及一个输入维度只要24的矩阵乘法,这会引入不确定性。

即便是全球顶尖的AI实验室,面对消融实验的组合爆炸也无能为力。这些设计选择的组合很能够是不可穷举的,需求一套更系统的实际来支撑。论文结尾也承认了这一点,表示将来会做更片面、更有准绳的架构精简研讨,但目前还没有给出答案。

相比之下,训练后阶段的探求能够更有参考价值。

值得留意的是,DeepSeek正是RL+推理训练这套标准方案的推行者,而如今他们本人在重新审视这个方案。目前是两阶段设计:先对专项模型做强化学习,再做在线蒸馏。自从发布Self-Principled Critique Tuning以来,DeepSeek就不断在尝试把推理训练信号扩展到最终稀疏奖励之外。

这未必是最终答案。这个范畴目前还处于疾速变化中,甚至可以说我们为SYNTH设计的可验证流水线,本质上也是一种极端方式的离线强化学习训练。
第四件事:提早规划硬件生态

这是一个3到5年以上的长期计划。

出发点是把限制变成机会:作为中国抢先的AI实验室,DeepSeek有很强的动机让训练在华为昇腾芯片上跑通,并为国内芯片自主化努力做出贡献。

论文里有一份稀有的将来硬件愿望清单,非常详细。多位专家指出,这些建议对英伟达来说意义不大,但对硬件范畴的新进入者来说非常合理。

DeepSeek似乎在预判一个新格局:将来AI实验室需求与硬件合作伙伴深度绑定,让芯片设计反过来适配模型设计和推理需求。
第五件事:留白,也是一种信息

论文几乎没有提合成数据流水线、改写、模拟环境等内容。

训练数据总量是32T token,其中大概率有相当比例是生成数据,由于网络和其他数字化来源提供不了这么多高质量token。合成数据的比例能够与Trinity或Kimi相近,大约一半左右。

但很分明,DeepSeek这次把全部精神放在了基础设备、架构和规模化上,系统性的重训练留到了后面。

这和Anthropic或OpenAI的做法能够并没有本质区别:即便模型外部的重要部分曾经发生了变化,比如Opus 4.7更换了tokenizer,我们依然处于同一个模型系列中。这阐明一个模型的生命周期,往往包含多轮训练,而每一轮的规模都能够相当于几年前的一次残缺预训练。

另外,DeepSeek与Moonshot之间的深度协作,以及Moonshot对DeepSeek的高度依赖,暗示这里能够正在构成一种生态系统动态:DeepSeek专注于硬核的基础设备成绩,其他发展方向由生态中的合作伙伴分头推进。

以上解读仅代表作者本人观点。

--end--

最后记得⭐️我,每天都在更新:假如觉得文章还不错的话可以点赞转发引荐评论

/...@作者:你说的完全正确(YAR师)




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5