开启左侧

DeepSeek-V3.2-Exp:经过 DeepSeek 稀疏留意力提升长上下文效率

[复制链接]
在线会员 hgQbJBur 发表于 2025-10-4 18:02:35 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
DeepSeek-V3.2-Exp:颠末 DeepSeek 稠密留神力提拔少高低文服从

DeepSeek-AI
    • DeepSeek-V3.2-Exp:颠末 DeepSeek 稠密留神力提拔少高低文服从
      • 择要 (Abstract)• 1. 架构 (Architecture)• 2. 锻炼 (Training)
        • 2.1.继续 预锻炼 (Continued Pre-Training)• 2.2. 后锻炼 (Post-Training)
      • 3. 评介 (Evaluations)• 附录 (Appendices)

择要 (Abstract)

咱们介绍了 DeepSeek-V3.2-Exp,一个尝试性的稠密留神力模子,它颠末连续锻炼为 DeepSeek-V3.1-Terminus配备 了 DeepSeek 稠密留神力(DSA)。借帮 DSA(一种由闪电索引器(lightning indexer)启动的细粒度稠密留神力体制),DeepSeek-V3.2-Exp 正在锻炼战拉理服从上均完毕了清楚提拔,特别是正在少高低文场景中。模子查抄面可正在 https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp 获得。
1. 架构 (Architecture)

取 DeepSeek-V3.1 的终极版原 DeepSeek-V3.1-Terminus 比拟,DeepSeek-V3.2-Exp 正在架构上唯一的改正是颠末连续锻炼引进了 DeepSeek 稠密留神力(DeepSeek Sparse Attention, DSA)。

DSA 的本型 (Prototype of DSA)。 DSA 的本型主要包罗二个组件:一个闪电索引器 lightning indexer 战一个细粒度令牌挑选体制 fine-grained token selection mechanism。

闪电索引器计较盘问令牌 (query token)  取前一个令牌 (preceding token)  之间的索引分数 ,决定哪些令牌将被盘问令牌挑选:

此中  暗示索引器头的数目; 战  源自盘问令牌 ;而  源自前一个令牌 。出于吞咽质思考,咱们挑选 ReLU 动作激活函数。基于闪电索援用具备多量头数且能够正在 FP8 中完毕,其计较服从十分清楚。

给定每一个盘问令牌  的索引分数 ,咱们的细粒度令牌挑选体制仅检索取 top-k 索引分数对于应的键值条款 。而后,颠末使用盘问令牌  取稠密挑选的键值条款  之间的留神力体制去计较留神力输出 :

正在 MLA 下真例化 DSA (Instantiate DSA Under MLA)。 出于从 DeepSeek-V3.1-Terminus中止 连续锻炼的思考,咱们鉴于 MLA (DeepSeek-AI, 2024) 为 DeepSeek-V3.2-Exp 真例化 DSA。正在内乱核层里,每一个键值条款必需正在多个盘问之间同享以完毕计较服从 (Yuan et al., 2025)。因而,咱们鉴于 MLA 的 MQA方式 (Shazeer, 2019) 完毕 DSA¹,此中每一个潜伏背质(MLA 的键值条款)将正在盘问令牌的统统盘问头之间同享。鉴于 MLA 的 DSA 架构如图 1 所示。咱们借供给了 DeepSeek-V3.2-Exp² 的启源完毕,以大白细节。

2. 锻炼 (Training)

从一个高低文少度已经扩大至 128K 的 DeepSeek-V3.1-Terminus根底 查抄面开端,咱们施行了连续预锻炼,随即截至后锻炼(post-training),以创立 DeepSeek-V3.2-Exp。
2.1.继续 预锻炼 (Continued Pre-Training)

DeepSeek-V3.2-Exp 的连续预锻炼包罗二个锻炼阶段。关于那二个阶段,锻炼数据的散布取用于 DeepSeek-V3.1-Terminus 的 128K 少高低文扩大数据完整不合。

麋集预冷阶段 (Dense Warm-up Stage)。 咱们起首使用一个长久的预冷阶段去初初化闪电索引器。正在此阶段,咱们连结麋集留神力并解冻除闪电索引器以外的统统模子参数。为了使索引器输出取主留神力散布对于齐,关于第 t 个盘问令牌,咱们起首颠末对于统统留神力头乞降去聚拢主留神力分数:

而后将该战沿序列维度截至 L1 回一化,以发生目标散布 。鉴于 ,咱们树立一个 KL 集度丧失动作索引器的锻炼目标:

关于预冷,咱们使用  的进修率。咱们仅锻炼索引器 1000 步,每一步包罗 16 个  令牌的序列,统共发生  个令牌。

稠密锻炼阶段 (Sparse Training Stage)。 索引器预冷以后,咱们引进细粒度令牌挑选体制并劣化统统模子参数,使模子适应 DSA 的稠密情势。正在此阶段,咱们持续连结索引器输出取主留神力散布的对于齐,但是仅思考挑选的令牌散 :

值患上留神的是,咱们将索引器输出从计较图平分离(detach)以截至零丁劣化。索引器的锻炼旌旗灯号仅去自 ,而主模子的劣化仅按照语言修模丧失。正在此稠密锻炼阶段,咱们使用  的进修率,并为每一个盘问令牌挑选 2048 个键值令牌。咱们锻炼主模子战索引器 15000 步,每一步包罗 480 个  令牌的序列,统共发生 943.7B 个令牌。
2.2. 后锻炼 (Post-Training)

连续预锻炼以后,咱们施行后锻炼以创立终极的 DeepSeek-V3.2-Exp。DeepSeek-V3.2-Exp 的后锻炼也接纳取稠密连续预锻炼阶段差异的方法使用稠密留神力。为了严峻评介引进 DSA 的作用,关于 DeepSeek-V3.2-Exp,咱们连结了取 DeepSeek-V3.1-Terminus 使用的差异的后锻炼过程、算法战数据,具体以下。

大师蒸馏 (Specialist Distillation)。关于 每一项任务,咱们最初开辟一个特地专一于该一定范围的大师模子,统统大师模子皆是从差异的预锻炼 DeepSeek-V3.2根底 查抄面微调而去。除写做任务战通用问问以外,咱们的框架借涵盖五个专科范围:数教、合作性编程、通用逻辑拉理、智能体编码(agentic coding)战智能体搜刮(agentic search)。每一个大师皆使用年夜范围加强进修(RL)计较截至锻炼。别的,咱们接纳差别的模子去天生少思惟链拉理(思惟情势,thinking mode)战间接照应天生(非思惟情势,non-thinking mode)的锻炼数据。一朝大师模子准备停当,它们被用去为终极查抄面天生一定范围的数据。尝试成果表白,正在蒸馏数据上锻炼的模子到达了仅略高于范围一定大师模子的功用水平,颠末后绝的 RL 锻炼,功用差异被有用打消。

混淆 RL 锻炼 (Mixed RL Training)。关于 DeepSeek-V3.2-Exp,咱们仍然接纳组绝对战略劣化(GRPO)(DeepSeek-AI, 2025; Shao et al., 2024) 动作 RL 锻炼算法。取以前使用多阶段加强进修锻炼的 DeepSeek 模子差别,咱们将拉理、智能体战人类对于齐锻炼兼并到一个 RL 阶段。这类办法有用均衡了差别范围的功用,共时制止了凡是取多阶段锻炼范式相干的劫难性忘记成就。关于拉理战智能体任务,咱们接纳鉴于划定规矩的成果嘉奖、少度处罚战语言不合性嘉奖。关于通用任务,咱们接纳天生式嘉奖模子,此中每一个提醒(prompt)皆有自己的评介尺度(rubrics)。咱们的嘉奖设想仔细均衡了二个枢纽衡量:(1)少度取精确性,和(2)语言不合性取精确性。
3. 评介 (Evaluations)

模子才气 (Model Capabilities)。 咱们正在一系列专一于差别才气的基准尝试上评介 DeepSeek-V3.2-Exp,并正在表 1 中将其取 DeepSeek-V3.1-Terminus中止 比力。固然 DeepSeek-V3.2-Exp 正在少序列上清楚进步了计较服从,但是正在短高低文战少高低文任务上,取 DeepSeek-V3.1-Terminus 比拟,咱们已察看到清楚的功用降落。别的,咱们借比力了 DeepSeek-V3.2-Exp 战 DeepSeek-V3.1-Terminus 的加强进修锻炼直线,如图 2 所示。二种模子正在 BrowseComp 战 SWE Verified 上的功用正在全部锻炼过程当中稳步进步,直线紧密对于齐,那反应了 DSA 的锻炼颠簸性。

DeepSeek-V3.2-Exp:颠末 DeepSeek 稠密留神力提拔少高低文服从w2.jpg

DeepSeek-V3.2-Exp:颠末 DeepSeek 稠密留神力提拔少高低文服从w3.jpg

拉理本钱 (Inference Costs)。 DSA 将主模子的中心留神力庞大度从 O(L²) 低落到 O(Lk),此中 k(《 L) 是所选令牌的数目。固然闪电索引器仍然具备 O(L²) 的庞大度,但是取 DeepSeek-V3.1-Terminus 中的 MLA 比拟,它所需的计较质要少很多。分离咱们劣化的完毕,DSA 正在少高低文场景中完毕了清楚的端到端加快。图 3展示 了 DeepSeek-V3.1-Terminus 战 DeepSeek-V3.2-Exp 的令牌本钱怎样随序列中令牌职位的变革而变革。那些本钱是按照布置正在 H800 GPU 上的理论效劳截至基准尝试预算的,GPU 租借价钱为每一小时 2 美圆。请留神,关于小引列预添补(prefilling),咱们特地完毕了一种掩码 MHA方式 去模仿 DSA,那能够正在短高低文前提下完毕更下的服从。

DeepSeek-V3.2-Exp:颠末 DeepSeek 稠密留神力提拔少高低文服从w4.jpg

未来的理论考证 (Future Validation in Real World)。 固然咱们的内部评介显现了 DeepSeek-V3.2-Exp 的优良成果,咱们仍正在主动追求正在实在场景中截至退一步的年夜范围尝试,以发明稠密留神力架构的潜伏范围性。
附录 (Appendices)

图 4展示 了 MLA 的二个圆里——MHA 战 MQA方式 ——和它们之间的变换。

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )