DeepSeek致谢腾讯大模型网络提速技术方案贡献

BacQ · 发表于 3 天前

近来，DeepSeek工程师正在GitHub上下明了去自腾讯的代码奉献，并用“huge speedup”介绍了此次功用提拔。

[img=553.733,450.133]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjpvSk4BNE1hC8F5HgWQaPdc4X5ib5WIfn0eCVmhP5VRiaFA8Qen1dhNADQ/640?wx_fmt=png&from=appmsg[/img]

甚么样的劣化手艺让顶尖AI团队云云镇静？

简朴来讲，是腾讯多年去调学数据中间战GPU通信积淀下来的TRMT手艺，辅佐DeepSeek启源的收集通信神器DeepEP功用再上一个台阶。

[img=553.733,308.467]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjpuricRXWcO4TTFd38VOxtIQVoxLOMv4QZMcia1mMfib08fnoNq0yqF6Mow/640?wx_fmt=png&from=appmsg[/img]

那项协作的尽头要回溯到今年2月——DeepSeek启源了包罗DeepEP正在内乱的五年夜代码库，掀秘了他们怎样用1/5软件资本完毕保守万卡散群效力的中心手艺。

此中，DeepEP动作突破NCCL功用瓶颈的通信框架，颠末300%的通信服从提拔，胜利让浩瀚MoE架构的年夜模子挣脱了对于英伟达NCCL的依靠。

[img=553.733,250.661]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjp62m7x294BTHicGtaZ7kFsBdld6S5BH0fZDl4dl9UgHX70ToiaNt0Z7aA/640?wx_fmt=png&from=appmsg[/img]

但是那项手艺存留“繁华病”：正在本钱较下的InfiniBand（IB）专用收集中如鱼得水，却易以适配更普适的RoCE收集情况。便像超等跑车只可正在专科赛讲奔腾，启上一般马路便功用缩火，那让年夜大都使用一般收集的企业机构面临DeepEP常常瞅患上着、用没有上。

DeepEP的Github主页上，也呈现了对于RoCE收集情况中功用表示欠安的会商，相干成就不竭不找到幻想的解法。

[img=553.733,357.264]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjpqkjOmk0iaPph4BaKTMuNYcd1RCPZic2sSwfFTOR7iauJlJNwXKj9CxejQ/640?wx_fmt=png&from=appmsg[/img]

但是腾讯正在RoCE收集范围但是老司机，多年去正在数据中间积淀了丰硕的经历，正在DeepEP启源后立即睁开考证，疾速锁定二个枢纽突破面：

[img=553.733,278.863]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjpqQxMMggerolqNYa42frGDkIWGiaMA4R3mRAZ9ib8Sic02UjyIdwYx1pJA/640?wx_fmt=png&from=appmsg[/img]

因而，腾讯鉴于TRMT手艺系统开端对于DeepEP截至三个圆里的劣化👇
//单车讲充实用起去：拓扑感知的多QP修链

素质上是使用静态分派算法去最年夜化单端心网卡的戴严使用率。

正在 AI 模子启用时，多个 GPU 之间会成立通信组。每一个 GPU 组内乱，GPU 之间皆要成立通信链交，而且每一个 GPU 对于需要成立多组 QP（行列对于）。

这类架构涉及改革类似于聪慧接通办理体系：当2048辆特种车辆（GPU数据包）需要正在都会路网（RoCE收集）中下效风行时，掌握体系为每一类物质输送开辟博属门路（QP绑定端心）。

颠末静态分派肇端匝讲心（UDP源端心），保证单车讲物理通讲（网卡端心）的车流均衡，从底子上制止了多车队汇进共条车讲激发的梗塞，让单端心网卡戴严使用率到达实践峰值。

//退一步绕过CPU：鉴于 IBGDA 的多 Channel 背载均衡数据传输

RDMA曲连GPU截至数据接互便像口岸运货，货色到港后不消停下来卸货装车，能够间接运到市区。

但是正在“掌握里”场景仍是没法让GPU绕过CPU的掌握。“掌握里”类似口岸处置哪一个批次的货色到港、货色是甚么、运货的车商标是几等等，这类“掌握里”场景的疑息仍是需要CPU去处置。

腾讯鉴于IBGDA（InfiniBand GPU Direct Accelerator）手艺，让掌握里场景的CPU也绕过了，掌握时延低落至软件限度。

[img=553.7333333333333,175.2]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjpg4dQ6gJY7Gic9exp8p3TZQiajia21NbVE50ibialoaAQsgP7tK7OGPgicw2Q/640?wx_fmt=png&from=appmsg[/img]

(瞅那清新的左图，便明白IBGDR这类让掌握里绕过CPU的办法提拔了几服从)

共时，腾讯借让每一个 GPU 皆能共时用多个“通讲”去收收数据，并且那些通讲会主动分派数据，没有会让某个通讲太闲而其余通讲忙着。

//排佳队没有堕落：本子化疑令配合

正在GPU间接通信时借存留一个枢纽困难：当A GPU间接把数据写进B GPU内乱存时（类似隔空投收），B GPU其实不明白数据什么时候抵达。假设多个数据传输任务共时截至，可以会收“先收的包后到”的紊乱情况。

鹅厂工程师提出了一种嚷干“QP内乱时序锁”体制，类似一种智能快递签支体制：屡屡传输数据时，颠末网卡软件主动天生数字指纹（类似快递单号减稀），支件圆必需按准确挨次“签支”。

现在，便算共时处置1000多个数据传输任务，体系也能主动理逆前后挨次。

那三板斧下来，DeepEP不但正在RoCE收集上完毕功用翻倍，当DeepSeek将那套计划反哺到IB收集时，原来已经很优良的通信服从竟然又提拔了30%。

[img=553.7333333333333,182.2]https://妹妹biz.qpic.cn/sz_妹妹biz_png/9SmqmVtF4je7UPiadETXCMTzIdwIq5bjptWv1MsxYzicfx4FbdS6kHtQzxrjkv0TVYUGcbfsOdILicec6UGvicKqicA/640?wx_fmt=png&from=appmsg[/img]

今朝，那些手艺功效皆已经全面启源至DeepEP社区，并深度使用于腾讯混元年夜模子等名目的锻炼拉理。正在星脉收集取H20效劳器建立的下功用情况中，那套计划异常展示出出色的通用性。

最初，感谢DeepSeek工程师和尔的共事们，对于GPU通信瓶颈困难的根究。

另有，感谢启源。

—END—

DeepSeek称谢腾讯年夜模子收集提速手艺计划奉献w2.jpg

越消费越富有？陕西永倍达疑涉传销被多地发

DeepSeek致谢腾讯大模型网络提速技术方案贡献

再见了,DeepSeek !!

关于我们

产品与服务

全网营销

加盟与合作