职贝云数AI新零售门户
标题:
DeepSeek大模型新打破!处明智能体大模型关键推理瓶颈
[打印本页]
作者:
795eQI
时间:
3 天前
标题:
DeepSeek大模型新打破!处明智能体大模型关键推理瓶颈
近日,DeepSeek、北京大学和清华大学结合研讨团队在arXiv发表了一篇论文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》,该研讨提出DualPath方法,打破agentic LLM推理瓶颈。
在多轮、基于agentic的大型言语模型(LLM)推理中,功能瓶颈次要来自于KV-Cache存储I/O操作,而不是计算功能。在主流的解耦架构中,从外部存储加载海量KV-Cache会导致根本性失衡:预填充引擎(PE)的存储网络接口卡(NIC)会达到带宽饱和,而解码引擎(DE)的存储NIC则处于闲置形态。这种不对称性严重制约了系统的全体吞吐量。DeepSeek提出DualPath推理系统,经过引入双途径KV-Cache加载机制,打破了这一瓶颈。
除了传统的存储到预填充途径外,DualPath还开拓了一条创新的存储到解码途径:KV-Cache先加载到解码引擎,再经过计算网络 RDMA 高效传输至预填充引擎。该方案将这种优化数据途径(其本质可避免网络拥塞并确保模型执行通讯的延迟关键性)与全局调度器相结合,后者能动态平衡预填充与解码引擎的负载。在真实agentic工作负载的评价中,团队发现DualPath在离线推理系统中可提高1.87倍的推理吞吐量,在线服务吞吐量平均提高1.96倍。结语agentic或者说智能体是目前各家大模型重点研发的方向,智能体需求大模型停止多轮的推理,上下文也会越来越长,因此推理功能非常关键,DeepSeek留意到了这个关键的痛点,创新性地提出了DualPath,打破了推理瓶颈,推进了agentic LLM的进一步发展。论文地址:https://arxiv.org/pdf/2602.21548<- 完 ->
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5