开启左侧

DeepSeek致谢腾讯!深企杭企这波联动火了

[复制链接]
克日,腾讯手艺团队针对于DeepSeek启源的DeepEP通信框架截至深度劣化,使其正在多种收集情况下均完毕清楚功用提拔。经尝试,劣化后的通信框架功用正在RoCE收集情况提拔100%,IB收集情况提拔30%,为企业睁开AI年夜模子锻炼供给更下效的处置计划。相干手艺计划得到了DeepSeek公然称谢,称那是一次“huge speedup”代码奉献。

DeepSeek致谢腾讯!深企杭企这波联动火了

自今年2月DeepSeek启源包罗DeepEP正在内乱的五年夜代码库此后,该团队就背业界展示了怎样使用无限的软件资本完毕靠近万卡散群的功用。正在那些手艺中,DeepEP凭仗突破性的办法提拔了300%的通信服从,胜利处置了MoE架构年夜模子对于英伟达NCCL的依靠成就。
但是该手艺正在本钱较高、合用里更广的RoCE收集情况中表示欠安,限定了其正在更普遍场景的使用。那一痛面激发了启源社区的连续会商。
腾讯星脉收集团队鉴于正在RoCE收集范围的深厚积聚,正在DeepEP启源后就睁开手艺攻闭,发明二年夜枢纽瓶颈:一是关于单端心网卡戴严使用率不敷,两是CPU掌握里接互存留时延。
腾讯正在RoCE收集劣化圆里的突破,起首体现在戴严分派的智能化,颠末拓扑感知的多QP修链手艺,智能分派数据流,劣化了单端心网卡的戴严使用率,保证每一条数据通讲皆能获得充实使用。此举有用制止了戴严糜掷,为RoCE收集的功用提拔供给了无力支持。
其次,腾讯借出力处置了GPU通信中的CPU掌握瓶颈成就。颠末鉴于IBGDA手艺的劣化,腾讯使患上“掌握里”场景的操纵也能够绕过CPU的“直达”,退一步低落了提早战能耗,提拔了部分通信服从。
共时,GPU间接“对于话”时存留的传输挨次紊乱困难,腾讯提出了“QP内乱时序锁”体制,使很多个GPU间的数据传输能够精确、按挨次完毕,即使共时处置1000多个数据传输任务,DeepEP也能主动理逆前后挨次。
正在腾讯的手艺劣化下,DeepEP不但正在RoCE收集完毕功用翻倍,反哺到IB(InfiniBand)收集时更使本有通信服从再提拔30%。

DeepSeek致谢腾讯!深企杭企这波联动火了
腾讯工程师正在差别节面效劳器上的尝试数据
今朝该手艺已经全面启源,并胜利使用于腾讯混元年夜模子等名目的锻炼拉理,正在腾讯星脉取H20效劳器建立的下功用情况中,那套计划异常展示出出色的通用性。
「彩蛋去了」
DeepSeek致谢腾讯!深企杭企这波联动火了

DeepSeek致谢腾讯!深企杭企这波联动火了
报名征询请联系茶房
DeepSeek致谢腾讯!深企杭企这波联动火了
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )