职贝云数AI新零售门户

标题: DeepSeek这招太绝了!不加一张显卡,让大模型提速2倍的底层黑科技 [打印本页]

作者: mInr    时间: 4 天前
标题: DeepSeek这招太绝了!不加一张显卡,让大模型提速2倍的底层黑科技
一、 论文速览

(, 下载次数: 2)

论文标题: DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference(双通道:打破智能体大模型推理中的存储带宽瓶颈)

论文网址:https://arxiv.org/pdf/2602.21548

作者阵容: 核心团队来自 北京大学、清华大学以及当红大模型明星公司 DeepSeek-AI 。

核心关键词: 智能体大模型 (Agentic LLM) / KV缓存 (KV-Cache) / 读写分离 (PD分离) / 存储带宽瓶颈 / 双通道加载 (DualPath Loading)

一句话摘要: 如今的AI不只能聊天,还能当“智能打工人”(Agent),但这需求记住海量的上下文。现有系统在调取“记忆”(KV-Cache)时,专门担任阅读前文的机器网卡被挤爆,而担任写字的机器网卡却闲着。这篇论文提出了一种“双通道”拿记忆的方法,让闲着的机器帮忙拿,然后经过极速外部网络传过去,直接让大模型推理速度飙升了近2倍!

(, 下载次数: 2)

二、 开篇引言:为什么我们要关注这篇论文?

提到大模型,大家能够首先想到的是“算力”,觉得只需GPU(显卡)足够快,大模型干活就快。但在真实的工业界,状况曾经变了。

以前我们用大模型,就像“你问一句,它答一句”(单轮对话)。但如今的大模型正在退化成 智能体(Agent) 。比如你想让AI帮你写个网站,它需求本人去搜索、写代码、报错了再改代码……这是一个 漫长的多轮互动过程 。

在这个过程中,AI需求记住后面发生的一切事情。这就像一个打工人要做一个大项目,桌子上堆满了参考材料。 成绩来了:如今限制打工人干活速度的,曾经不是他“脑子转得快不快”(GPU算力),而是他“从书架上翻找材料的手速”(存储带宽瓶颈)!

这篇由北大、清华和DeepSeek共同发表的论文,敏锐地抓住了这个工业界极其痛点的成绩,并给出了一个极其巧妙的处理方案—— DualPath(双通道) 。它没有堆硬件,而是经过聪明的“统筹调度”,打破了现有的架构瓶颈。

接上去,我们将用大白话,一步步为你拆解它的奥妙。

三、 痛点分析:如今的系统到底卡在哪里了?

要搞懂DualPath有多牛,我们得先知道如今的AI工厂是怎样运作的,以及“木桶的最短板”终究在哪里。这里我们需求弄懂三个简单的概念:
1. 记忆的实体:什么是 KV-Cache?

大模型生成文字是“一个字一个字”往外蹦的。为了不让它每次蹦新字时,都要把后面的文章重新读一遍,迷信家发明了 KV-Cache(键值缓存) 。你可以把它了解为大模型的 “读书笔记” 。

在智能体(Agent)干活时,由于它要经过几十上百轮的交互,这个“读书笔记”会变得无比宏大(能够高达几十万甚至上百万个Token)。GPU的内存(显存)根本装不下,只能存在外部的宏大硬盘阵列(存储节点)里。
2. 古代AI工厂流水线:什么是 PD 分离?

(, 下载次数: 2)

为了提高效率,如今的大型AI工厂采用了 “流水线作业” ,术语叫 PD分离 (Prefill-Decode Disaggregation) 。
3. 卡脖子的真凶:旱的旱死,涝的涝死

在智能体义务中,AI常常是“查阅了3万字的旧材料,只为了新写20个字的代码”。

这意味着: 高达95%以上的数据都是旧的“读书笔记”!

现有的系统是这么干的:

每当有新义务, 阅读机器(PE)的存储网卡(专门用来衔接外部硬盘的网线)就末尾疯狂下载海量的读书笔记。由于数据量太大,阅读机器的存储网卡瞬间大塞车(100%满载) ,GPU只无能瞪眼等着数据传过来。

与此同时, 写字机器(DE)在干嘛呢?它的存储网卡闲得发慌 ,由于它往常只担任把新写出来的几个字存进硬盘,根本用不到多大带宽。

总结一下痛点: 由于“阅读机器”的存储网线被撑爆了,成了整个系统的瓶颈,导致造价昂贵的GPU算力被大量白白糜费。 这就是典型的“I/O(输入/输入)卡脖子”。

四、 核心方法与原理:DualPath是如何“逆天改命”的?

既然找到了病因——阅读机器的网卡累死,写字机器的网卡闲死。那处理思绪听起来似乎很简单: 让写字机器帮忙下载不就行了?

思绪虽然简单,但在超级计算机里完成却极具应战。DualPath 团队就像是城市交通规划大师,设计了一套完美的“双通道”物流系统。
1. 核心架构:双通道加载 (Dual-Path Loading)

在古代AI数据中心里,其实有两张网络:

DualPath 的核心操作是:

由于写字机器的存储网卡本来是闲置的,如今让它帮忙从硬盘下载“读书笔记”,下载完之后,应用GPU之间极宽、极快的“超级高铁”瞬间传输给阅读机器。这样一来,两边的存储网卡都在高效工作, 全体的数据下载速度直接翻倍!
2. 应战一:如何避免“抢车道”?(流量隔离机制)

虽然想法很好,但有一个致命隐患: 超级高铁(计算网络)是用来给大模型算力通讯誉的。

大模型在推理时,GPU之间需求极其频繁、毫秒级别的数据同步。假如这个时分,忽然塞出去一大堆“读书笔记”(KV-Cache)的数据,就会形成交通堵塞,严重影响大模型正常的思索速度。

(, 下载次数: 2)

DualPath 是怎样做的?

这就好比在高速公路上划出了 “VIP算力公用道”和“货车借用道” 。

团队开发了一个基于网卡(CNIC)为中心的流量管理器。他们应用了硬件底层的QoS(服务质量)技术:

当VIP车辆(算力通讯)来的时分,货车立刻让路;当VIP车道闲暇的间隙,货车疯狂冲刺。经过这种精妙的“见缝插针”,DualPath 成功完成了既应用了闲暇带宽,又完全没有拖慢大模型的计算速度。
3. 应战二:谁来当包工头?(自顺应央求调度器)

如今有了两条通道,那么每来一个新义务,到底是走“传统通道”还是“新增通道”呢?假如胡乱分配,能够会导致写字机器那边反而大堵车。

DualPath 是怎样做的?

系统里引入了一个非常聪明的“全局调度器(Scheduler)”,相当于一个拥有上帝视角的包工头。

(, 下载次数: 2)

五、 创新价值与实验结果:到底有多牛?

光说不练假把式,论文团队在极高规格的硬件环境(数千张NVIDIA Hopper架构GPU)上,拿目前当红的 DeepSeek-V3 660B(6600亿参数规模) 和 Qwen 32B 等大模型停止了残酷的真机测试。

结果证明,DualPath 的创新带来了宏大的工业界价值:
1. 吞吐量接近翻倍,彻底释放GPU潜能

在测试中(典型的AI打工人/RL强化学习场景),与现有没有优化的基础架构相比:

这意味着什么?

在AI数据中心,GPU是极其昂贵的。提升近一倍的吞吐量,意味着本来需求买2000张显卡才无能完的活,如今只需求1000张显卡就能搞定。这为企业节省的硬件成本和电费是以“千万”甚至“亿”为单位计算的。
2. 把硬件压榨到极致的美学

以前,大家都觉得大模型慢是由于算力不够,拼命研发算力更强的芯片。但DualPath团队向世人展现了:在智能体时代,木桶的短板曾经转移到了“存储 I/O”。

经过“双通道加载”和“精细的流量隔离”,DualPath 把每一根网线、每一个网卡的潜能都压榨到了极致,完美完成了负载平衡。他们的实验甚至证明,DualPath的成绩曾经非常逼近“假设硬盘读取不需求工夫”的物理极限下限(Oracle实际值)。
3. 极强的实践落地才能

这个方案不只是实验室里的玩具,它天生就是为超大规模的工业界场景设计的。在横跨 1152张GPU 的大规模测试中,DualPath 依然保持了极其波动的线性加速比,系统完全没有卡顿。这阐明它完全可以直接部署在我们每天都在运用的超级AI大模型背后。

六、 总结

最后,让我们以“总”的方式,回顾一下这篇优秀论文的精髓:

在人工智能从“聊天机器人”向“自主智能体(Agent)”退化的明天,大模型需求记忆的上下文越来越长,导致从外部硬盘调取记忆(KV-Cache)的速度,成为了限制AI干活速度的致命瓶颈。现有的读写分离(PD分离)架构,形成了资源的严重错配(有的网卡挤爆,有的网卡闲死)。

来自DeepSeek等机构的迷信家们,交出了一份冷艳的答卷—— DualPath(双通道) 系统。

它 不依赖购买更昂贵的硬件 ,而是经过极具智慧的系统工程设计:

最终,这套方案以极小的代价,换来了 大模型推理功能近2倍的提升 ,打破了长文本智能体推理的“存储宽带卡脖子”困境。

这篇论文深上天告诉我们: AI时代的竞争,不只仅是模型算法的竞争,更是底层系统架构的竞争。 那些看起来单调的“网络调度”、“内存分配”和“带宽优化”,正是支撑起将来千行百业AI智能体运用的地基。只要地基打得牢,AI这座摩天大楼,才能建得更高、跑得更快!

(, 下载次数: 2)

(, 下载次数: 2)






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5