职贝云数AI新零售门户

标题: DeepSeek与腾讯携手:让AI训练提速的通讯优化幕后故事 [打印本页]

作者: OZQ 时间: 昨天 20:44
标题: DeepSeek与腾讯携手:让AI训练提速的通讯优化幕后故事

大家有没有想过，我们如今用得越来越随手的AI大模型，比如能写代码、画图、跟你流利聊天的那些“智能体”，它们是怎样被训练出来、又怎样能飞快地给出呼应的？

这些模型真实是太太太庞大了！它们的参数量动辄几千亿、上万亿，假如只用一台电脑（哪怕是装备了最强GPU的电脑），根本不能够装下整个模型，更别提在合理的工夫内完成训练或推理计算了。这就像要建造一座宏伟的城市，或者管理一个国家，一个人单打独斗是相对不行的，必需要有成千上万的人分工协作。

为什么AI大模型需求“团队合作”（并行计算）？

缘由很简单，次要有两点：

所以，我们必须把模型“拆开”，让多个GPU一同分担计算义务，这就是并行计算（Parallel Computing）的核心思想。为了让这些GPU高效地停止团队合作，AI迷信家们和工程师们发明了几种不同的“拆模型”方法。明天我们重点聊聊最次要的两种：张量并行和流水线并行，以及一个至关重要的幕后英雄——衔接GPU的“高速公路”。
方法一：张量并行（Tensor Parallelism - TP）

打个比方：想象你和你的同事们要一同完成一个超大的数学计算（比如矩阵乘法），这个计算太大了，一个人的草稿纸不够写，或者算起来太慢。

怎样办？张量并行就是把这个单次宏大的计算义务（一个模型层外部的计算）“切”成几块，分给不同的GPU同时计算。每个GPU只担任计算这个大义务的一部分。最后，大家把各自计算的结果“拼”起来，得到最终的残缺结果。

用图来表示张量并行的概念：

上图表示：张量并即将一个大的层内计算义务切分给多个GPU，GPU计算部分结果后需求汇集同步得到最终结果。
方法二：流水线并行（Pipeline Parallelism - PP）

打个比方：这就像工厂里的流水线。整个大模型看作是一个复杂的消费流程，包含很多道工序（模型的不同层或模块）。

怎样办？流水线并行就是把模型的不同层（或几层组成的模块）分配给不同的GPU，构成一个处理链条。GPU 1 计算完模型的第1层，立刻把输入结果传递给 GPU 2 计算第2层，GPU 2 算完传给 GPU 3 计算第3层……数据就像产品一样，沿着流水线依次经过不同的GPU处理。

用图来表示流水线并行在训练时的概念（展现并行处理不同数据批次）：

(, 下载次数: 0)

上图表示：流水线并行让不同GPU同时处理不同数据批次的模型层。留意其中一些“等待”的空隙，这就是“气泡”。

虽然下面的图更简约地展现了流程，但为了更清楚地阐明并行带来的效率提升（特别是训练时如何应用流水线同时处理多个数据批次），我们再看一个更概念性的图，想象多个数据包如何在流水线中穿越：

(, 下载次数: 0)

实际中：它们常常被“打包”运用

对于当下最大最复杂的模型，通常会结合运用这两种技术：先用张量并行处理单层过大的成绩（把一层拆到一组GPU上），再用流水线并行把这些（能够曾经过张量并行处理的）层分派到更多的GPU集群上。此外，对于像MoE（混合专家模型）这样的特殊架构，还需求用到专家并行等更复杂的并行方式，这些都对GPU之间的通讯提出了极高的要求。
为什么衔接GPU的“高速公路”如此重要？

如今我们了解了并行计算的基本原理。不管是张量并行中层内的频繁数据交换，还是流水线并行中阶段间的数据传递，亦或是专家并行中需求在不同GPU之间路由数据，一切并行方式的效率，都高度依赖于GPU之间的数据通讯。

想象一下，你担任工厂流水线上的一个环节，加工好了零件得赶紧送给下一环节的同事。假如送货的路又窄又堵（网络互连慢），或者送货的“卡车”半天发不出一趟（网卡效率低），零件就会积压在你这里，或者下一位同事干等着，整条流水线就慢上去了。即便你加工得再快（单个GPU计算才能再强），也杯水车薪。

衔接GPU的“网络互连”技术，就是决议这些并行计算效率的“高速公路”！它决议了数据能否疾速、顺畅地在GPU之间活动。假如这条“高速公路”延迟高、带宽低、通行不波动，就会带来严重的效率成绩：

用图来表示网络通讯对效率的影响：

(, 下载次数: 0)

上图表示：GPU间的网络传输速度直接影响下游GPU的等待工夫，进而影响其应用率和全体效率。
DeepSeek 为什么特别感激腾讯的“超高速公路”改进？

这就是为什么开源AI公司 DeepSeek 会公开感激腾讯——而且这种感激并非客套，而是源于腾讯在幕后对AI计算“高速公路”停止的硬核优化！

详细来说，DeepSeek 有一个专门用于 MoE 等模型架构的开源通讯框架，叫做 DeepEP。这个框架需求处理的是高吞吐量、低延迟的数据传输义务，是完成模型高效训练的关键。

腾讯的 Starlink Networking 团队（星脉网络团队）深化分析了 DeepEP 框架在实践高功能网络环境下的表现，就像给“高速公路”做体检。他们精准地找到了两个次要的“堵点”：

针对这些详细的成绩，腾讯团队停止了细致且深化的优化：

(, 下载次数: 0)

这些优化带来了什么？用数听说话：

这些看似“底层”的技术改进，却带来了惊人的实测效果：

最终，这些优化汇总起来，带来了全体功能的分明提升。正如报道所述，在 RoCE 网络环境下，功能提升了 100%（直接翻倍）；在 InfiniBand 环境下，功能也提升了 30%。详细的github Pull Request被记录在原文链接里。点击“阅读原文”可跳转。

为什么这对 DeepSeek 和整个行业重要？

总结一下：

AI大模型需求多个GPU并行计算。张量并行、流水线并行、专家并行等技术都需求GPU之间停止大量、高效的数据通讯。衔接GPU的网络，就是决议这些并行效率的关键“高速公路”。腾讯的 Starlink Networking 团队经过对 DeepSeek 开源 DeepEP 框架停止的底层、硬核优化，成功打通了双网口瓶颈、处理了底层通讯库的“隐形圈套”，分明提升了GPU间的通讯带宽（如 RoCE 下达到 50-60GB/s），带来了实测高达 100% 和 30% 的功能提升。这些技术打破，不只让 DeepSeek 的模型训练完成“宏大提速”，也经过开源贡献，为整个AI大模型生态的高效发展注入了弱小的动力。在AI算力日益宝贵的明天，这些提升GPU“协作效率”的幕后英雄，正扮演着越来越关键的角色！

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)