职贝云数AI新零售门户

标题: DeepSeek致谢腾讯!深企杭企这波联动火了 [打印本页]

作者: GBh28zHK    时间: 13 小时前
标题: DeepSeek致谢腾讯!深企杭企这波联动火了
近日,腾讯技术团队针对DeepSeek开源的DeepEP通讯框架停止深度优化,使其在多种网络环境下均完成分明功能提升。经测试,优化后的通讯框架功能在RoCE网络环境提升100%,IB网络环境提升30%,为企业展开AI大模型训练提供更高效的处理方案。相关技术方案获得了DeepSeek公开致谢,称这是一次“huge speedup”代码贡献。

640?wx_fmtpng&fromappmsg

自往年2月DeepSeek开源包括DeepEP在内的五大代码库以来,该团队便向业界展现了如何应用有限的硬件资源完成接近万卡集群的功能。在这些技术中,DeepEP仰仗打破性的方法提升了300%的通讯效率,成功处理了MoE架构大模型对英伟达NCCL的依赖成绩。
但该技术在成本较低、适用面更广的RoCE网络环境中表现不佳,限制了其在更广泛场景的运用。这一痛点引发了开源社区的持续讨论。
腾讯星脉网络团队基于在RoCE网络范畴的深沉积累,在DeepEP开源后便展开技术攻关,发现两大关键瓶颈:一是对于双端口网卡带宽应用率不足,二是CPU控制面交互存在时延。
腾讯在RoCE网络优化方面的打破,首先体如今带宽分配的智能化,经过拓扑感知的多QP建链技术,智能分配数据流,优化了双端口网卡的带宽应用率,确保每条数据通道都能得到充分运用。此举有效避免了带宽糜费,为RoCE网络的功能提升提供了有力支撑。
其次,腾讯还着力处理了GPU通讯中的CPU控制瓶颈成绩。经过基于IBGDA技术的优化,腾讯使得“控制面”场景的操作也可以绕过CPU的“中转”,进一步降低了延迟和能耗,提升了全体通讯效率。
同时,GPU直接“对话”时存在的传输顺序混乱难题,腾讯提出了“QP内时序锁”机制,使得多个GPU间的数据传输可以精准、按顺序完成,即便同时处理1000多个数据传输义务,DeepEP也能自动理顺先后顺序。
在腾讯的技术优化下,DeepEP不只在RoCE网络完成功能翻倍,反哺到IB(InfiniBand)网络时更使原有通讯效率再提升30%。

640?wx_fmtpng&fromappmsg
腾讯工程师在不同节点服务器上的测试数据
目前该技术已片面开源,并成功运用于腾讯混元大模型等项目的训练推理,在腾讯星脉与H20服务器构建的高功能环境中,这套方案异样展现出杰出的通用性。
「彩蛋来了」
640?wx_fmtjpeg&fromappmsg

640?wx_fmtpng&fromappmsg
报名咨询请联络跑堂
640?wx_fmtjpeg




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5