职贝云数AI新零售门户

标题: 浅谈AI大模型集群组网中的多轨接入与单轨接入 [打印本页]

作者: dyfowXijS    时间: 2025-2-19 07:49
标题: 浅谈AI大模型集群组网中的多轨接入与单轨接入
在AI大模型训练场景中,网络架构对GPU服务器内外的集合通讯存在极大影响,GPU集群参数面承载并行计算过程中产生的各类集合通讯,因此,设计大规模、高牢靠、低成本、易运维的优质网络架构,对于满足大模型训练的大算力、低时延和高吞吐需求具有重要意义。

概述

上一篇文章中,我们谈到,胖树CLOS架构由于其高效的路由设计、良好的可扩展性及方便管理等优势,在大模型训练场景下被广泛运用,通常采用Spine-Leaf两层CLOS架构,两层架构无法满足规模扩展时,可以添加一层Super-Spine来停止扩展。

当前基于CLOS网络的架构提供Any-to-any全衔接,但由于LLM训练网络通讯形式的稀疏性,即大部分GPU对之间不需求直接通讯,这种通讯形式与传统DC网络设计的Any-to-any特性不婚配,导致资源应用不充分及大规模部署时的成本和功耗成绩,为此,需求根据LLM训练通讯模型的特点,停止网络优化。

网络优化根据,可以参考Meta在HOTI 2024上Rail-only高功能网络的论文(Rail-only: A Low-Cost High-Performance Network for Training LLMs with Trillion Parameters)中的结论:

为此,根据GPU服务器接入形式的不同,通常会分成单轨接入和多轨接入。所为单轨接入是指GPU服务器上的8张GPU卡全部接入同一台Leaf交换机;多轨接入是指GPU 服务器上的8张GPU卡依次接入8台Leaf交换机,从而在参数面构成8个独立并行的轨道平面。多轨接入状况下,根据全体网络结构的不同,又区分为轨道优化架构(Rail-optimized)和纯轨架构(Rail-only)。

单轨接入

单轨接入形式下,GPU服务器上的8张网卡全部接入同一台Leaf交换机,该形式下的CLOS组网,实际上恣意节点对都应该能同时停止线速通讯,但存在链路拥塞、不完善的自顺应路由和多跳通讯延迟等成绩,真实场景中无法达到实际最优形态,集群通讯效率偏低,对整网的负载平衡要求也更高。

(, 下载次数: 0)

但是,单轨接入在一定的部署环境下,在机房综合布线中具有一定的优势,由于GPU服务器上的8张网卡全部接入同一台Leaf交换机,此状况下,Leaf交换机可以采用ToR(Top of Rack,机柜顶部)或MoR(Middle of Rack,机柜中部)的部署方式,从而可以在接入层面采用DAC铜缆接入,DAC铜缆散热好、功耗低、牢靠性高、综合成本也更核算。

纯轨架构(Rail-only

Rail是指在具有相反GPU ID的GPU集合。 经过将相反ID的GPU衔接到相反leaf交换机,Rail-only网络确保了这些GPU之间的最低延迟(只经过一级交换)。Rail-only网络保留了HB域和Rail交换机,移除了Spine交换机,这一变化确保了同一网络内的GPU对之间的带宽保持不变,同时,完成了网络Fabric的精简与成本的降低。

(, 下载次数: 0)

上图中,K个Rail也就表示1个HB域中有K个GPU。传统上,HB域仅限于单个服务器(例如,具有8个GPU的DGX服务器),最新GB200的单个HB域内的GPU数量可以达到512个。

在Rail-only网络中,同一HB域内各GPU卡可以经过HB域直接通讯;不同HB域的相反GPU ID可以经过对应的Rail交换机之间通讯;不同HB域的不同GPU ID之间的直接连通性被移除,但数据可经过HB域内的转发完成跨域通讯。例如,下图中GPU1(Domain 1)向GPU3(Domain 3)发送音讯时,首先在Domain 1域内到达GPU3,再经过Rail 3 Switch到达Domain 3的GPU3。

(, 下载次数: 0)

轨道优化架构(Rail-optimized

在多轨道网络架构中,AI训练产生的通讯需求,可以用多个轨道并行传输加速,并且大部分流量都聚合在轨道内传输(只经过一级交换),小部分流量停止跨轨道传输(需求经过二级或多级),从而减轻网络通讯压力。

(, 下载次数: 0)

无论是纯轨架构(Rail-only)还是轨道优化架构(Rail-optimized),都提升了集合通讯的功能,但同时,我们也留意到,轨道优化设计需求GPU服务器衔接到不同间隔的不同Leaf交换机,而不是接近服务器的机架外部交换机(ToR或MoR),因此在高速衔接场景下(400G/800G/1.6T),DAC线缆无法满足要求,需求运用ACC或光纤衔接,成本和功耗对应的也将大幅提高,综合布线部署愈加复杂;另外,假如是Leaf 交换机发生缺点,多轨接入方式所影响的GPU服务器数量也将多于单轨接入方式。

后面提到,Rail-only网络为了确保GPU之间的最低延迟,普通只经过一级交换,但是在模型较大的状况下,也可以扩展到2层或以上的Rail网络,下面是2层CLOS架构下的Rail-optimized和Rail-only的网络架构区别。

(, 下载次数: 0)

单轨接入与多轨接入流量对比

(, 下载次数: 0)

常见大模型多轨接入的差别

回顾上一篇文章,各厂家的大模型多采用轨道优化架构设计,但也存在有一些差别,例如百度,8个GPU分别接入8条不同通道,每条通道(对应Rail)采用2级全互联CLOS,不同通道经过第三级交换机互联。

(, 下载次数: 0)

再如阿里云HPN-7.0,为了提升功能、添加牢靠性、避免哈希极化,就采用的多轨-双平面的设计形式,同时,根据其训练义务流量特性,选择Spine-Core之间采用15:1的收敛比设计,这里不再赘述。

欢迎大家点赞和转发,谢谢!

声明|本公众号相关文章仅供交流学习,次要为本人学习笔记和总结,部分内容节选在其它文章或由其它文章归纳所得,版权归原作者或原出处一切,本公众号努力于保护原作者版权,若来源标注错误或侵犯到您的权益,烦请及时联络停止处理。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5