职贝云数AI新零售门户

标题: DeepSeek大模型新打破!处明智能体大模型关键推理瓶颈 [打印本页]

作者: 795eQI 时间: 3 天前
标题: DeepSeek大模型新打破!处明智能体大模型关键推理瓶颈
近日，DeepSeek、北京大学和清华大学结合研讨团队在arXiv发表了一篇论文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》，该研讨提出DualPath方法，打破agentic LLM推理瓶颈。

在多轮、基于agentic的大型言语模型（LLM）推理中，功能瓶颈次要来自于KV-Cache存储I/O操作，而不是计算功能。在主流的解耦架构中，从外部存储加载海量KV-Cache会导致根本性失衡：预填充引擎（PE）的存储网络接口卡（NIC）会达到带宽饱和，而解码引擎（DE）的存储NIC则处于闲置形态。这种不对称性严重制约了系统的全体吞吐量。DeepSeek提出DualPath推理系统，经过引入双途径KV-Cache加载机制，打破了这一瓶颈。

除了传统的存储到预填充途径外，DualPath还开拓了一条创新的存储到解码途径：KV-Cache先加载到解码引擎，再经过计算网络 RDMA 高效传输至预填充引擎。该方案将这种优化数据途径（其本质可避免网络拥塞并确保模型执行通讯的延迟关键性）与全局调度器相结合，后者能动态平衡预填充与解码引擎的负载。在真实agentic工作负载的评价中，团队发现DualPath在离线推理系统中可提高1.87倍的推理吞吐量，在线服务吞吐量平均提高1.96倍。结语agentic或者说智能体是目前各家大模型重点研发的方向，智能体需求大模型停止多轮的推理，上下文也会越来越长，因此推理功能非常关键，DeepSeek留意到了这个关键的痛点，创新性地提出了DualPath，打破了推理瓶颈，推进了agentic LLM的进一步发展。论文地址：https://arxiv.org/pdf/2602.21548<- 完 ->

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)