职贝云数AI新零售门户

标题: DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的机密揭开了 [打印本页]

作者: EhYOQnHRL    时间: 10 小时前
标题: DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的机密揭开了
最近我读到一篇很有意思的论文,名字叫《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,是 DeepSeek 团队的新作。

别急着打瞌睡,虽然这是技术论文,但他们聊的是一个特别理想的成绩:我们都在谈大模型训练得越来越凶猛,可是,撑起这些大模型的硬件,真的够用了么?又该怎样设计,才能不“烧钱烧机房”?
一次大模型训练背后的“硬件炼狱”

DeepSeek-V3 的训练用上了 2048 块 NVIDIA H800 GPU——这听起来像是“硬件豪宅”,但他们却用这套系统推导出一个结论:靠硬堆设备曾经玩不转 LLM 了,必须软硬件一同动脑筋。

(, 下载次数: 0)

而这次,他们没再继续聊模型结构的细节,而是把重心放在了模型和硬件之间的互动。比如,怎样把计算义务安排得更顺、怎样让 GPU 别在等内存或网卡,白白糜费宝贵算力资源。
把专家拆开:MoE 架构的聪明玩法

DeepSeek-V3 采用的是 MoE(混合专家)架构,模型有 671B 个参数,但每次推理只用其中 37B 个。这就像你开一家店有 1000 个员工,但每次只安排 50 个下班。这样一来,能省下不少电费(字面意义上的电费)和硬件开支。

相比那种参数全启用的“大块头”模型(比如 LLaMA 3.1),MoE 模型的计算开支少一个量级。例如每个 token 的训练耗费只要 250 GFLOPS,而密集模型动辄上千 GFLOPS。
KV 缓存别太收缩:MLA 技术上场

推理阶段的最大内存杀手,就是键值(KV)缓存。DeepSeek 搞了个新方案叫 MLA(多头潜在留意力),它可以把每个 token 的缓存压到只要 70 KB。参考下 LLaMA3.1 的 516 KB,这几乎是存储界的极限紧缩大师。

MLA 的原理很巧妙:它不是记录每个留意力头的键值,而是算出一个“潜在空间”,只记录这个空间的值,大幅节省内存。配合共享 KV(GQA/MQA)、窗口 KV 和量化方法,能让模型在推理时既快又省。
推理速度怎样卷?他们用“双核流水线”处理了

你以为模型推理就是顺着跑一遍?别天真了。为了让 GPU 不闲着,DeepSeek 把推理分成两个“微批次”交替运转,一个算 MoE,一个通讯调度。相当于做饭时一边炒菜一边煮饭,工夫就能用满了。

而且在消费环境里,他们还玩起了“揣测解码”+“解耦预填充”这一套,确保海量央求和低延迟用户可以互不干扰。
低精度≠低质量:FP8 成功登上训练舞台

过去大家用 FP16、BF16 停止训练,DeepSeek 搞出一套 FP8 训练系统。这种极低精度的计算格式以前只敢用在推理环节,如今他们用来训练大模型了。

他们不只优化了计算流程,还引入了一种叫 LogFMT 的量化格式,让 token 的传输紧缩率翻倍,通讯开支大减。
多节点训练,网络真的跟得上吗?

模型拆开跑就完事了?当然没那么简单。模型一拆,节点就得疯狂互相通讯。NVLink(节点内)和 IB(节点间)的带宽差别让人抓狂。

DeepSeek 提出的解法之一是“节点受限式路由”策略,简单来说,就是尽量把义务分配给同一节点外部的专家,减少走 IB 的次数。这样可以把通讯工夫从 8t 降到 Mt(M<8),大大减轻了网络压力。

(, 下载次数: 0)

网络设计也有门道:多平面胖树 MPFT

这次训练用的网络拓扑是多平面双层胖树(MPFT),能支持上万块 GPU,还保留了低延迟的优势。对比了一下英伟达推的 MRFT,DeepSeek 的 MPFT 功能几乎持平,但部署成本更低。

不过这套网络方案没完美完成,由于当前运用的 IB 网卡(ConnectX-7)不支持某些多端口特性,需求晋级到将来的 ConnectX-8 才能完美落地。
将来还想做什么?他们给出了几大方向

除了论文里的工程细节,DeepSeek 还分享了他们对下一代硬件架构的思索:
最后说点个人的感受

读完这篇论文,我感觉 DeepSeek 真的是“硬件亲儿子”选手。他们没有选择暴力堆算力,而是用软硬件协同,把每一块 GPU、每一条带宽都压榨到极致。特别是像 MLA 和 MoE 的协同机制,不只提升了功能,也让训练更省钱、更可持续。

对 AI 从业者来说,这篇论文的意义在于它不是告诉你“我们模型多凶猛”,而是在说“要想模型跑得快,你得先搞懂背后硬件怎样回事”。这不只是工程成绩,更是一种系统性思想的表现。

论文地址附上:https://arxiv.org/pdf/2505.09343

最后,我为大家打造了一份deepseek的入门到知晓教程,完全收费:https://www.songshuhezi.com/deepseek

同时,也可以看我写的这篇文章《DeepSeek满血复活,直接降落!》来停止本地搭建。


ok,明天先说到这,老规矩,给大家分享一份不错的副业材料,感兴味的同窗可以链接我,微信:973098422 找我支付。

以上,就是明天的分享了,看完文章记得右下角点赞,也欢迎在评论区写下你的留言。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5