开启左侧

DeepSeek新论文剧透V4新框架!用闲置网卡加速智能体推理功能,打破PD分离瓶颈

[复制链接]
在线会员 a6Olk 发表于 前天 06:57 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
henry 收自 凸非寺
质子位 |大众 号 QbitAI


DeepSeek那小子最粗了,当全球皆正在盯着他的GitHub堆栈,等候V4时——

他战北年夜、浑华正在ArXiv悄咪咪天上了一篇论文,公布了一个崭新的针对于智能体的拉理框架:DualPath。

并且便跟头几天曝出的算力话题相干。

DualPath的中心正在于处置Agent少文原拉理场景下的I/O瓶颈,颠末劣化从内部保存减载KV-Cache的速率,保证计较资本没有被保存读与牵连。

它改动了保守的保存至预添补引擎(Storage-to-Prefill)单路子减载情势,引进了保存至解码引擎(Storage-to-Decode)的第两条路子。

颠末使用解码引擎忙置的保存网卡(SNIC)戴严读与慢存,并共同下速计较收集(RDMA)将其传输至预添补引擎,DualPath完毕了散群保存戴严的全部池化取静态背载均衡。

正在660B范围的消耗级模子的真测中,DualPath表示惊人:

离线拉理吞咽质进步了1.87倍,正在线效劳吞咽质均匀提拔1.96倍。

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w2.jpg

正在下背载下,尾字提早(TTFT)年夜幅劣化,而 Token间的天生速率(TPOT)险些没有受所有滋扰。

交下来,咱们共同去瞅。
单路子减载 (Dual-Path Loading)

总的来讲,DualPath是一个特地为智能系统统设想的拉理框架,它的中心洞睹是——

KV-Cache的减载没必要以预添补为中间。

正在往常的理解中,谁担当计较谁便来搬数据。但是DualPath觉得,慢存能够先减载到解码引擎中,再颠末下功用RDMA收集传输至预添补引擎。

颠末正在二条路子间静态挑选,DualPath从头分派了收集背载,减缓了预添补侧的戴严压力。

那末,为何要费这样年夜劲来“绕路”?

之以是如许干,是因为正在目前的智能体使用中,对于话轮数多且高低文少,KV-Cache掷中率凡是下达95%以上。

那表示着,每轮对于话皆要搬运海质的“旧影象”,拉理功用的瓶颈已经从“计较”转化到了“搬运”上。

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w3.jpg

正在现有的预添补-解码别离(PD-disaggregated)架构中,统统的减载任务皆拥挤正在预添补引擎(PE)的保存网卡上,招致戴严霎时鼓战;

取此共时,解码引擎(DE)的保存网卡却正在忙置,构成了严峻的资本错配。

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w4.jpg

更退一步的,目前GPU算力的增加近快于收集戴严战HBM容质的增加,也加重了I/O限定。

邪如英伟达尾席科学野Bill Dally、google架构师Jeff Dean等年夜佬重复夸大的:计较是免费的,但是数据挪动是高贵的。

针对于那些成就,DualPath建立了立异的单路子模子:

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w5.jpg

    路子 A(保守):保存→PE,慢存间接读进预添补引擎。

    路子 B(新删):保存→DE→PE,慢存先读进解码引擎的慢冲池,再颠末RDMA传输给预添补引擎。

正在架构构成上:

    拉理引擎: 每一个引擎办理一齐GPU,严峻辨别为预添补(PE)息争码(DE)。

    流质办理器: 担当H2D/D2H拷贝、引擎间传输和SNIC保存读写。

    处所调理器: 担当“年夜脑”脚色,及时决议计划每条恳求该走哪条路,进而完毕全部戴严的最年夜化使用。
中心手艺计划:保存至解码路子

如上所述,DualPath拉理体系的中心正在于突破了保守的“保存至预添补”单路子情势,立异性天引进了“保存至解码”路子。

该设想许可KV-Cache先减载至解码引擎(DE),再颠末下戴严计较收集(RDMA)无益传输给预添补引擎(PE)。

颠末正在二条路子间静态分派背载,体系将散群中原来忙置的解码侧保存网卡(SNIC)戴严完全开释,建立起一个全部可调理的保存I/O资本池。

具体来讲,为了撑持层级流式处置,DualPath正在PE战DE上均分派了多量DRAM慢冲区(PE/DE Buffer),并针对于差别阶段设想了精密的数据流:

    PE读与路子: 掷中Token的KV-Cache从保存读进PE慢冲区。正在每一层计较前,该层慢存传输至PE HBM,取计较历程重叠施行。计较完毕后,齐质KV-Cache传回DE慢冲区以组成残破高低文。

    DE读与路子: KV-Cache间接加入DE慢冲区。正在PE预添补期间,对于应层的慢存跨节面传输至PE HBM(计较重叠)。计较完毕后,PE仅需传回更生成的KV-Cache片断取DE本有慢存兼并。

    解码取耐久化: DE慢冲区领受残破KV-Cache后启用解码,施行H2D拷贝并随即开释CPU内乱存。固然引进慢冲增加了DRAM压力,但是能清楚低落GPU隐存占用并劣化尾字提早(TTFT)。天生过程当中,每一积累谦一个Block(如 64 Token)即触收同步耐久化。

但是便像前面提到的,“绕路”减载会戴去新成就:好比搬运慢存的流质碰上了模子计较的通信,如何办?

对于此,DualPath给出了二套劣化计划:

起首因此计较网卡(CNIC)为中间的流质办理,自愿统统流质颠末配对于的CNIC走GPUDirect RDMA路子。

正在InfiniBand或者RoCE收集中,使用假造层(VL/TC)手艺,将拉理通信设为“最下劣先级”并预留99%戴严,让慢存搬运只可正在间隙中“蹭”戴严,保证互没有滋扰。

其次是自适应恳求调理器: 调理器会盯着每一个节面的磁盘行列少度战Token数。体系会劣先将任务分派给I/O压力较小且计较背载较沉的节面,从底子上制止单侧网卡或者单面计较资本的堵塞。

正在尝试阶段,DualPath正在DeepSeek-V三、Qwen等模子上截至了尝试,场景笼盖了离线Rollout战正在线效劳。

如收尾所道,正在离线拉理中,DualPath 将端到端吞咽质进步了下达1.87倍,正在线效劳吞咽质均匀提拔1.96倍,清楚低落了尾字提早(TTFT),且连结了极端颠簸的Token间提早(TBT)。

总的来讲,DualPath 证实了颠末从头思考数据减载路子能够有用突破目前年夜模子拉理的I/O墙。

它胜利使用理解码引擎原来被糜掷的I/O戴严,共同自适应调理战松散的流质断绝体制,正在没有增加软件本钱的条件下,年夜幅提拔了智能体LLM拉理体系的服从。
One more thing

那篇论文的第一作家吴永彤,是北京年夜教的专士死,师从金鑫传授。

他的钻研标的目的散焦于体系硬件取年夜模子根底装备(LLM Infrastructure),特别是拉理体系的工程劣化取范围化布置。

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w6.jpg

他今朝正在DeepSeek体系组,到场下一代模子的拉理根底装备建立,担当年夜范围硬件体系正在多软件仄台上的功用劣化。

DeepSeek新论文剧透V4新框架!用忙置网卡加快智能体拉理功用,突破PD别离瓶颈w7.jpg

此前,他借曾正在腾讯、华衰整理年夜教,微硬亚研院等机构练习。

参照链交

[1]https://arxiv.org/pdf/2602.21548

[2]https://jokerwyt.github.io/

—欢送 AI产物从业者同修 —

📚「AI产物常识库」是质子位智库鉴于持久产物库跟踪战用户举动数据拉出的飞书籍常识库,旨正在成为AI止业从业者、投资者、钻研者的中心疑息关键取决议计划撑持仄台。

一键存眷 👇 面明星标
科技前沿平息逐日睹
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )