职贝云数AI新零售门户

标题: DeepSeek与腾讯携手:让AI训练提速的通讯优化幕后故事 [打印本页]

作者: OZQ    时间: 昨天 20:44
标题: DeepSeek与腾讯携手:让AI训练提速的通讯优化幕后故事



大家有没有想过,我们如今用得越来越随手的AI大模型,比如能写代码、画图、跟你流利聊天的那些“智能体”,它们是怎样被训练出来、又怎样能飞快地给出呼应的?

这些模型真实是太太太庞大了!它们的参数量动辄几千亿、上万亿,假如只用一台电脑(哪怕是装备了最强GPU的电脑),根本不能够装下整个模型,更别提在合理的工夫内完成训练或推理计算了。这就像要建造一座宏伟的城市,或者管理一个国家,一个人单打独斗是相对不行的,必需要有成千上万的人分工协作。

为什么AI大模型需求“团队合作”(并行计算)?

缘由很简单,次要有两点:

所以,我们必须把模型“拆开”,让多个GPU一同分担计算义务,这就是并行计算(Parallel Computing)的核心思想。为了让这些GPU高效地停止团队合作,AI迷信家们和工程师们发明了几种不同的“拆模型”方法。明天我们重点聊聊最次要的两种:张量并行和流水线并行,以及一个至关重要的幕后英雄——衔接GPU的“高速公路”。
方法一:张量并行(Tensor Parallelism - TP)

打个比方: 想象你和你的同事们要一同完成一个超大的数学计算(比如矩阵乘法),这个计算太大了,一个人的草稿纸不够写,或者算起来太慢。

怎样办? 张量并行就是把这个单次宏大的计算义务(一个模型层外部的计算)“切”成几块,分给不同的GPU同时计算。每个GPU只担任计算这个大义务的一部分。最后,大家把各自计算的结果“拼”起来,得到最终的残缺结果。

用图来表示张量并行的概念:

上图表示:张量并即将一个大的层内计算义务切分给多个GPU,GPU计算部分结果后需求汇集同步得到最终结果。
方法二:流水线并行(Pipeline Parallelism - PP)

打个比方: 这就像工厂里的流水线。整个大模型看作是一个复杂的消费流程,包含很多道工序(模型的不同层或模块)。

怎样办? 流水线并行就是把模型的不同层(或几层组成的模块)分配给不同的GPU,构成一个处理链条。GPU 1 计算完模型的第1层,立刻把输入结果传递给 GPU 2 计算第2层,GPU 2 算完传给 GPU 3 计算第3层……数据就像产品一样,沿着流水线依次经过不同的GPU处理。

用图来表示流水线并行在训练时的概念(展现并行处理不同数据批次):

(, 下载次数: 0)

上图表示:流水线并行让不同GPU同时处理不同数据批次的模型层。留意其中一些“等待”的空隙,这就是“气泡”。

虽然下面的图更简约地展现了流程,但为了更清楚地阐明并行带来的效率提升(特别是训练时如何应用流水线同时处理多个数据批次),我们再看一个更概念性的图,想象多个数据包如何在流水线中穿越:

(, 下载次数: 0)

实际中:它们常常被“打包”运用

对于当下最大最复杂的模型,通常会结合运用这两种技术:先用张量并行处理单层过大的成绩(把一层拆到一组GPU上),再用流水线并行把这些(能够曾经过张量并行处理的)层分派到更多的GPU集群上。此外,对于像MoE(混合专家模型)这样的特殊架构,还需求用到专家并行等更复杂的并行方式,这些都对GPU之间的通讯提出了极高的要求。
为什么衔接GPU的“高速公路”如此重要?

如今我们了解了并行计算的基本原理。不管是张量并行中层内的频繁数据交换,还是流水线并行中阶段间的数据传递,亦或是专家并行中需求在不同GPU之间路由数据,一切并行方式的效率,都高度依赖于GPU之间的数据通讯。

想象一下,你担任工厂流水线上的一个环节,加工好了零件得赶紧送给下一环节的同事。假如送货的路又窄又堵(网络互连慢),或者送货的“卡车”半天发不出一趟(网卡效率低),零件就会积压在你这里,或者下一位同事干等着,整条流水线就慢上去了。即便你加工得再快(单个GPU计算才能再强),也杯水车薪。

衔接GPU的“网络互连”技术,就是决议这些并行计算效率的“高速公路”! 它决议了数据能否疾速、顺畅地在GPU之间活动。假如这条“高速公路”延迟高、带宽低、通行不波动,就会带来严重的效率成绩:

用图来表示网络通讯对效率的影响:

(, 下载次数: 0)

上图表示:GPU间的网络传输速度直接影响下游GPU的等待工夫,进而影响其应用率和全体效率。
DeepSeek 为什么特别感激腾讯的“超高速公路”改进?

这就是为什么开源AI公司 DeepSeek 会公开感激腾讯——而且这种感激并非客套,而是源于腾讯在幕后对AI计算“高速公路”停止的硬核优化!

详细来说,DeepSeek 有一个专门用于 MoE 等模型架构的开源通讯框架,叫做 DeepEP。这个框架需求处理的是高吞吐量、低延迟的数据传输义务,是完成模型高效训练的关键。

腾讯的 Starlink Networking 团队(星脉网络团队)深化分析了 DeepEP 框架在实践高功能网络环境下的表现,就像给“高速公路”做体检。他们精准地找到了两个次要的“堵点”:

针对这些详细的成绩,腾讯团队停止了细致且深化的优化:



这些优化带来了什么?用数听说话:

这些看似“底层”的技术改进,却带来了惊人的实测效果:

最终,这些优化汇总起来,带来了全体功能的分明提升。正如报道所述,在 RoCE 网络环境下,功能提升了 100%(直接翻倍);在 InfiniBand 环境下,功能也提升了 30%。详细的github Pull Request被记录在原文链接里。点击“阅读原文”可跳转。

为什么这对 DeepSeek 和整个行业重要?

总结一下:

AI大模型需求多个GPU并行计算。张量并行、流水线并行、专家并行等技术都需求GPU之间停止大量、高效的数据通讯。衔接GPU的网络,就是决议这些并行效率的关键“高速公路”。腾讯的 Starlink Networking 团队经过对 DeepSeek 开源 DeepEP 框架停止的底层、硬核优化,成功打通了双网口瓶颈、处理了底层通讯库的“隐形圈套”,分明提升了GPU间的通讯带宽(如 RoCE 下达到 50-60GB/s),带来了实测高达 100% 和 30% 的功能提升。这些技术打破,不只让 DeepSeek 的模型训练完成“宏大提速”,也经过开源贡献,为整个AI大模型生态的高效发展注入了弱小的动力。在AI算力日益宝贵的明天,这些提升GPU“协作效率”的幕后英雄,正扮演着越来越关键的角色!




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5