职贝云数AI新零售门户

标题: DeepSeek-3.2技术报告解读 [打印本页]

作者: s6ngzde    时间: 5 天前
标题: DeepSeek-3.2技术报告解读
1、简介



技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

2、开源模型与闭源模型的差距

开源模型在复杂义务上的表现,核心瓶颈次要有以下三点:

3、Deepseek关键技术打破:


4、技术原理

4.1 DeepSeek Sparse Attention(DSA)

DSA次要包含两个组件:疾速索引器(lightning indexer)和细粒度token选择机制(fine-grained token selection mechanism)。

疾速索引器:计算查询token ht∈Rd与前文令牌hs∈Rd之间的索引分数It,s ,确定查询token需选择的令牌:

(, 下载次数: 2)

细粒度token选择机制:仅检索索引Top-k 的键值对{cs}

(, 下载次数: 2)

基于 MLA 的 DSA 实例化:基于MLA(Multi-HeadLatentAttention)的MQA(Multi-QueryAttention)形式完成 DSA,每一个潜在向量(Latent Vector,即MLA的kv键值对)被同一个token的一切查询头(query heads)共享,从而提升计算效率。

(, 下载次数: 3)

注:绿色部分描画DSA根据索引器选择Top-k的kv键值对
4.2 持续预训练

稠密预热阶段(Dense Warm-up Stage): 首先经过短工夫预热初始化疾速索引器。此阶段保留密集留意力机制,冻结除疾速索引器外的一切模型参数。

(, 下载次数: 2)

稀疏训练阶段:索引器预热后,引入细粒度令牌选择机制,优化一切模型参数以顺应 DSA 的稀疏形式。

(, 下载次数: 2)
4.3 功能分歧性评价

4.4 推理成本

DSA 核心留意力复杂度从O(L2)降至O(Lk)(k 为选定令牌数,且k(<<L))。虽然疾速索引器复杂度仍为O(L2),但计算量远低于 DeepSeek-V3.1-Terminus 中的 MLA。
4.5 后训练

持续预训练后,经过训练后优化得到最终的 DeepSeek-V3.2,该阶段异样采用稀疏留意力机制,且保持与 DeepSeek-V3.2-Exp 相反的训练后优化流水线,包括专家蒸馏(specialist distillation)和混合强化学习训练(mixed RL training)。

(, 下载次数: 2)
4.5.1 专家蒸馏:

对于每个义务,会开发一个专门针对该特定范畴的专家模型,一切专家模型均基于相反的预训练 DeepSeek-V3.2 基础检查点停止微调。除了写作义务和通用问答之外,涵盖 6个核心范畴:数学、编程、通用逻辑推理、通用智能体义务、智能体编程、智能体搜索,一切范畴均支持思索形式(长链推理)和非思索形式(直接呼应)。每个专家模型均经过大规模强化学习训练,且针对思索形式和非思索形式采用不同数据生成策略。专家模型训练完成后,用于生成范畴专属数据,供最终模型训练。实验表明,基于蒸馏数据训练的模型功能仅略低于范畴专家模型,且经过后续强化学习可完全消弭功能差距。
4.5.2 混合强化学习训练:

采用组相对策略优化(Group Relative Policy Optimization, GRPO)作为强化学习训练算法,将推理、智能体和人类对齐训练合并到一个强化学习阶段,平衡不同范畴功能并避免多阶段训练的灾难性遗忘成绩。
4.5.3 缩放GRPO(Scaling GRPO)

无偏 KL 估计(Unbiased KL Estimate):  经过当前策略与旧策略的重要性采样比修正K3估计器,得到无偏 KL 估计,使得该KL估计器的梯度无偏,消弭系统估计误差,保障训练波动收敛。

(, 下载次数: 2)

离策略序列掩码(Off-Policy Sequence Masking):  为提升训练波动性和离策略更新容忍度,经过旧策略与当前策略的 KL 散度衡量策略偏向,对偏向过大的负序列停止掩码处理。

(, 下载次数: 2)

这种离策略序列掩码操作可以在某些本来容易出现不波动的训练场景中提升波动性。

保持路由(Keep Routing):保留推理框架采样时的专家路由途径,训练过程中强迫运用相反途径,确保混合专家(MoE)模型训练波动性。

保持采样掩码(Keep Sampling Mask):将top-p采样与保留采样掩码策略相结合,可以在强化学习训练中有效保持言语的分歧性。
4.6 工具运用中的思想才能

4.6.1 思想上下文管理

在工具调用中引入思想推理才能。

(, 下载次数: 2)

注:工具调用场景中的思想保持机制
4.6.2 冷启动

基于现有推理数据(非智能体)和非推明智能体数据,经过精心设计提示词将两种才能整合,假设模型可准确遵照明白指令,完成工具执行与推理过程的无缝交融。不同义务提示词对应不同系统提示词,经过特殊标签标注推理途径、明白工具调用指点等,为后续强化学习阶段提供基础。
4.6.3 大规模智能体义务


    1) 从大规模网络语料中采样多范畴长尾实体;

    2) 成绩构建智能体经过搜索工具探务实体,生成问答对;

    3) 多配置答案生成智能体产出多样化候选答案;

    4) 验证智能体经过多次搜索验证答案,仅保留 ground-truth 正确且候选答案均错误的样本;

    5) 补充过滤后的适用强化学习数据集,结合生成式奖励模型停止多维度评分,平衡理想准确性与适用性。

  1) 给定义务类别(如游览规划)和沙箱工具(bash、搜索工具),生成或检索相关数据并存储;

         2) 合成特定义务专属工具(以函数方式完成);

         3) 基于数据库生成简单义务,用python完成处理方案和验证函数,处理方案仅经过工具调用或逻辑计算完成,经过迭代提升义务难度并扩展工具集;

  按照此流程,最后获得并仅保留pass@100不为零的实例,最终得到1827个环境及对应的4417个义务。

5.评价

在 MMLU-Pro、GPQA Diamond、HLE Text-only 等多个基准测试中评价模型,工具运用基准测试采用标准函数调用格式,配置为思索形式;数学相关义务采用特定提示词模板。结果显示:


6.将来工作






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5