开启左侧

DeepSeek悄然开源LPLB:用线性规划处理MoE负载不均

[复制链接]
机械之心报导
编纂:Panda

今天,DeepSeek 正在 GitHub 上线了一个新的代码库:LPLB。

名目地点:https://github.com/deepseek-ai/LPLB

不收拉文,也不公家号革新,罕见的多少个手艺专主分享的拉文也存眷未几。停止今朝,该名目的 star 数目也借出超越 200。

但是仔细一瞅,那个名目却仿佛其实不简朴,值患上更多存眷。X 网友 gm8xx8 批评觉得那表白 DeepSeek 在处置准确性战吞咽质瓶颈成就,为下一版模子公布干准备。

DeepSeek悄悄启源LPLB:用线性计划处置MoE背载没有均w2.jpg

名目简介

LPLB,齐称 Linear-Progra妹妹ing-Based Load Balancer,即鉴于线性计划的背载均衡器。

望文生义,LPLB 是一个并止背载均衡器,它使用线性计划(Linear Progra妹妹ing)算法去劣化 MoE(混淆大师)模子中的大师并止事情背载分派。

具体来讲,LPLB 颠末如下三个步调完毕静态背载均衡:


    静态沉排序: 鉴于事情背载统计疑息对于大师截至沉排序(Reordering)。

    建立正本: 分离固态拓扑构造建立大师正本(Replicas)。

    供解最劣分派: 针对于每一个批次(Batch)的数据,供解最劣的 Token 分派计划。


更具体而行,LPLB 的大师沉排序历程由 EPLB 辅佐完毕。而及时事情背载统计疑息能够由用户供给、颠末 torch.distributed 汇集,或者间接从 Deep-EP 慢冲区的内部通信器中获得。至于供解器,则使用了内乱置的 LP(线性计划)供解器,其完毕了单 SM(Streaming Multiprocessor)内乱面法(IPM),并使用了 NVIDIA 的 cuSolverDx 战 cuBLASDx 库截至下效的线性代数运算。

云云一去,MoE 背载没有均的成就能够获得有用处置,即正在 MoE 模子中,某些「大师」可以比其余大师领受到更多的 Token,招致某些 GPU忙碌 而其余 GPU空闲 。

X 网友 big goose 指出那取英伟达的用于调理 SM (Streaming Multiprocessor,是英伟达 GPU 的中心计较单位) 的计划十分类似,不过将抽象提拔到了 pipeline 层级。LPLB 夸大「单 SM」,表示着它的供解历程十分沉质化,没有会占用过量计较资本。

DeepSeek悄悄启源LPLB:用线性计划处置MoE背载没有均w3.jpg

不外需要指出,LPLB 今朝该当借已被用于消耗过程。DeepSeek 正在 Readme 文献中暗示:「LPLB 今朝处于晚期钻研阶段,功用改良情况仍正在评介中。」

LPLB 的事情道理

LPLB 是正在 EPLB(大师并止背载均衡器)根底上的扩大,旨正在处置 MoE 锻炼中的静态背载不服衡成就。

EPLB vs. LPLB


    EPLB:主要 处置固态不服衡(比方,因为数据散布特征,某些大师老是持久过载)。

    LPLB: 专一于处置静态颠簸(由锻炼过程当中小批次数据的随机性引起的刹时背载颤动)。


中心体制


    冗余大师 (Redundant Experts): 每一个冗余大师(正本)皆链交到一个本初大师,进而正在 GPU 之间组成跟尾边。

    边容质 (Edge Capacity): 一条边的容质界说为目前批次平分配给该冗余大师的 Token 数目,那决定了用于均衡背载的最年夜 Token 流质。

    LP 劣化 (LP Optimization): LPLB 供解一个线性计划成就,正在服从边容质限定的条件下,沿着那些边从头分派 Token,以最小化大师并止(EP)组内乱的背载不服衡。


完毕过程


    起首颠末 EPLB 挑选需要复造的大师(仅沉排序,此时已复造)。

    而后按照选定的 LPLB 拓扑构造,复造背载最沉的大师。

    通信劣化: 及时事情背载的共步使用 NVLINK 战 NVSHMEM中止 劣化,替换了保守的 torch.distributed.allreduce,进而年夜幅低落通信开销。那恰是需要预拆 DeepEP 的启事。


范围性

固然 LPLB 供给了静态劣化,但是今朝仍存留一点儿范围:


    疏忽非线性计较本钱:以后 的计划器仅均衡 Token 总额,已思考分组矩阵乘法(Grouped GEMM)时间本钱的非线性特性。那可以招致正在某些情况下功用并不是绝对最劣。

    供解提早: 供解器正在节面内乱(intra-node)劣化约莫需要 100 µs(跨节面时间更少)。关于十分小的 Batch Size,那个提早可以不成疏忽。

    极度不服衡情况: 正在全部背载极度不服衡的情况下,LPLB 的表示可以没有如 EPLB。那是因为 LPLB 正在分派冗余大师时存留差别(LPLB防止 将多个正本分派给统一个本初大师)。


典范拓扑构造

LPLB 许可颠末改正 r2o 矩阵去界说大师正本的散布方法。如下是多少种典范的拓扑:


    坐圆体 (Cube):正在 GPU 子散上复造大师,组成戴有对于角边的坐圆体图。那请求每一个 GPU至多 2 个大师。合用场景:适宜 正在 8 GPU 的 EP 子组内乱截至均衡,且没有会捐躯跨节面通信功用。

    超坐圆体 (Hypercube):类似于 Cube,但是没有包罗对于角边。那需要 16 个 GPU。合用场景:适宜 跨 16 个 GPU 的大师并止。

    环里 (Torus):正在统一节面内乱的邻人 GPU 上复造一个大师,正在邻节面的 GPU 上复造另外一个大师,组成环里图。其请求 每一个 GPU至多 2 个大师。劣缺点: 对于全部均衡有用,但是因为涉及更多的节面内乱通信,服从凡是高于 Cube。


结语

DeepSeek 启源的那个 LPLB 库,素质上是正在试图处置年夜模子锻炼中「木桶效力」的成就,即锻炼速率常常与决于最缓(背载最沉)的谁人 GPU。

它的立异面正在于引进了线性计划那一数教东西去及时计较最劣分派,并使用下层的 NVSHMEM 手艺去突破通信瓶颈。关于在钻研 MoE 架构锻炼加快的开辟者来讲,那是一个十分有代价的参照完毕。

具体的装置战尝试指北请会见本代码库。

© THE END

转载请联系原公家号得到受权

投稿或者追求报导:liyazhou@jiqizhixin.com
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )