职贝云数AI新零售门户

标题: DeepSeek这招太绝了!不加一张显卡,让大模型提速2倍的底层黑科技 [打印本页]

作者: mInr 时间: 4 天前
标题: DeepSeek这招太绝了!不加一张显卡,让大模型提速2倍的底层黑科技
一、论文速览

(, 下载次数: 2)

论文标题： DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference（双通道：打破智能体大模型推理中的存储带宽瓶颈）

论文网址：https://arxiv.org/pdf/2602.21548

作者阵容：核心团队来自北京大学、清华大学以及当红大模型明星公司 DeepSeek-AI 。

核心关键词：智能体大模型 (Agentic LLM) / KV缓存 (KV-Cache) / 读写分离 (PD分离) / 存储带宽瓶颈 / 双通道加载 (DualPath Loading)

一句话摘要：如今的AI不只能聊天，还能当“智能打工人”（Agent），但这需求记住海量的上下文。现有系统在调取“记忆”（KV-Cache）时，专门担任阅读前文的机器网卡被挤爆，而担任写字的机器网卡却闲着。这篇论文提出了一种“双通道”拿记忆的方法，让闲着的机器帮忙拿，然后经过极速外部网络传过去，直接让大模型推理速度飙升了近2倍！

(, 下载次数: 2)

二、开篇引言：为什么我们要关注这篇论文？

提到大模型，大家能够首先想到的是“算力”，觉得只需GPU（显卡）足够快，大模型干活就快。但在真实的工业界，状况曾经变了。

以前我们用大模型，就像“你问一句，它答一句”（单轮对话）。但如今的大模型正在退化成智能体（Agent）。比如你想让AI帮你写个网站，它需求本人去搜索、写代码、报错了再改代码……这是一个漫长的多轮互动过程。

在这个过程中，AI需求记住后面发生的一切事情。这就像一个打工人要做一个大项目，桌子上堆满了参考材料。成绩来了：如今限制打工人干活速度的，曾经不是他“脑子转得快不快”（GPU算力），而是他“从书架上翻找材料的手速”（存储带宽瓶颈）！

这篇由北大、清华和DeepSeek共同发表的论文，敏锐地抓住了这个工业界极其痛点的成绩，并给出了一个极其巧妙的处理方案—— DualPath（双通道）。它没有堆硬件，而是经过聪明的“统筹调度”，打破了现有的架构瓶颈。

接上去，我们将用大白话，一步步为你拆解它的奥妙。

三、痛点分析：如今的系统到底卡在哪里了？

要搞懂DualPath有多牛，我们得先知道如今的AI工厂是怎样运作的，以及“木桶的最短板”终究在哪里。这里我们需求弄懂三个简单的概念：
1. 记忆的实体：什么是 KV-Cache？

大模型生成文字是“一个字一个字”往外蹦的。为了不让它每次蹦新字时，都要把后面的文章重新读一遍，迷信家发明了 KV-Cache（键值缓存）。你可以把它了解为大模型的 “读书笔记” 。

在智能体（Agent）干活时，由于它要经过几十上百轮的交互，这个“读书笔记”会变得无比宏大（能够高达几十万甚至上百万个Token）。GPU的内存（显存）根本装不下，只能存在外部的宏大硬盘阵列（存储节点）里。
2. 古代AI工厂流水线：什么是 PD 分离？

(, 下载次数: 2)

为了提高效率，如今的大型AI工厂采用了 “流水线作业” ，术语叫 PD分离 (Prefill-Decode Disaggregation) 。

3. 卡脖子的真凶：旱的旱死，涝的涝死

在智能体义务中，AI常常是“查阅了3万字的旧材料，只为了新写20个字的代码”。

这意味着：高达95%以上的数据都是旧的“读书笔记”！

现有的系统是这么干的：

每当有新义务，阅读机器（PE）的存储网卡（专门用来衔接外部硬盘的网线）就末尾疯狂下载海量的读书笔记。由于数据量太大，阅读机器的存储网卡瞬间大塞车（100%满载），GPU只无能瞪眼等着数据传过来。

与此同时，写字机器（DE）在干嘛呢？它的存储网卡闲得发慌，由于它往常只担任把新写出来的几个字存进硬盘，根本用不到多大带宽。

总结一下痛点：由于“阅读机器”的存储网线被撑爆了，成了整个系统的瓶颈，导致造价昂贵的GPU算力被大量白白糜费。这就是典型的“I/O（输入/输入）卡脖子”。

四、核心方法与原理：DualPath是如何“逆天改命”的？

既然找到了病因——阅读机器的网卡累死，写字机器的网卡闲死。那处理思绪听起来似乎很简单：让写字机器帮忙下载不就行了？

思绪虽然简单，但在超级计算机里完成却极具应战。DualPath 团队就像是城市交通规划大师，设计了一套完美的“双通道”物流系统。
1. 核心架构：双通道加载 (Dual-Path Loading)

在古代AI数据中心里，其实有两张网络：

DualPath 的核心操作是：

由于写字机器的存储网卡本来是闲置的，如今让它帮忙从硬盘下载“读书笔记”，下载完之后，应用GPU之间极宽、极快的“超级高铁”瞬间传输给阅读机器。这样一来，两边的存储网卡都在高效工作，全体的数据下载速度直接翻倍！
2. 应战一：如何避免“抢车道”？（流量隔离机制）

虽然想法很好，但有一个致命隐患：超级高铁（计算网络）是用来给大模型算力通讯誉的。

大模型在推理时，GPU之间需求极其频繁、毫秒级别的数据同步。假如这个时分，忽然塞出去一大堆“读书笔记”（KV-Cache）的数据，就会形成交通堵塞，严重影响大模型正常的思索速度。

(, 下载次数: 2)

DualPath 是怎样做的？

这就好比在高速公路上划出了 “VIP算力公用道”和“货车借用道” 。

团队开发了一个基于网卡（CNIC）为中心的流量管理器。他们应用了硬件底层的QoS（服务质量）技术：

当VIP车辆（算力通讯）来的时分，货车立刻让路；当VIP车道闲暇的间隙，货车疯狂冲刺。经过这种精妙的“见缝插针”，DualPath 成功完成了既应用了闲暇带宽，又完全没有拖慢大模型的计算速度。
3. 应战二：谁来当包工头？（自顺应央求调度器）

如今有了两条通道，那么每来一个新义务，到底是走“传统通道”还是“新增通道”呢？假如胡乱分配，能够会导致写字机器那边反而大堵车。

DualPath 是怎样做的？

系统里引入了一个非常聪明的“全局调度器（Scheduler）”，相当于一个拥有上帝视角的包工头。

(, 下载次数: 2)

五、创新价值与实验结果：到底有多牛？

光说不练假把式，论文团队在极高规格的硬件环境（数千张NVIDIA Hopper架构GPU）上，拿目前当红的 DeepSeek-V3 660B（6600亿参数规模）和 Qwen 32B 等大模型停止了残酷的真机测试。

结果证明，DualPath 的创新带来了宏大的工业界价值：
1. 吞吐量接近翻倍，彻底释放GPU潜能

在测试中（典型的AI打工人/RL强化学习场景），与现有没有优化的基础架构相比：

这意味着什么？

在AI数据中心，GPU是极其昂贵的。提升近一倍的吞吐量，意味着本来需求买2000张显卡才无能完的活，如今只需求1000张显卡就能搞定。这为企业节省的硬件成本和电费是以“千万”甚至“亿”为单位计算的。
2. 把硬件压榨到极致的美学

以前，大家都觉得大模型慢是由于算力不够，拼命研发算力更强的芯片。但DualPath团队向世人展现了：在智能体时代，木桶的短板曾经转移到了“存储 I/O”。

经过“双通道加载”和“精细的流量隔离”，DualPath 把每一根网线、每一个网卡的潜能都压榨到了极致，完美完成了负载平衡。他们的实验甚至证明，DualPath的成绩曾经非常逼近“假设硬盘读取不需求工夫”的物理极限下限（Oracle实际值）。
3. 极强的实践落地才能

这个方案不只是实验室里的玩具，它天生就是为超大规模的工业界场景设计的。在横跨 1152张GPU 的大规模测试中，DualPath 依然保持了极其波动的线性加速比，系统完全没有卡顿。这阐明它完全可以直接部署在我们每天都在运用的超级AI大模型背后。

六、总结

最后，让我们以“总”的方式，回顾一下这篇优秀论文的精髓：

在人工智能从“聊天机器人”向“自主智能体（Agent）”退化的明天，大模型需求记忆的上下文越来越长，导致从外部硬盘调取记忆（KV-Cache）的速度，成为了限制AI干活速度的致命瓶颈。现有的读写分离（PD分离）架构，形成了资源的严重错配（有的网卡挤爆，有的网卡闲死）。

来自DeepSeek等机构的迷信家们，交出了一份冷艳的答卷—— DualPath（双通道）系统。

它不依赖购买更昂贵的硬件，而是经过极具智慧的系统工程设计：

最终，这套方案以极小的代价，换来了大模型推理功能近2倍的提升，打破了长文本智能体推理的“存储宽带卡脖子”困境。

这篇论文深上天告诉我们： AI时代的竞争，不只仅是模型算法的竞争，更是底层系统架构的竞争。那些看起来单调的“网络调度”、“内存分配”和“带宽优化”，正是支撑起将来千行百业AI智能体运用的地基。只要地基打得牢，AI这座摩天大楼，才能建得更高、跑得更快！

(, 下载次数: 2)

(, 下载次数: 2)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)