职贝云数AI新零售门户
标题:
DeepSeek-3.2技术报告解读
[打印本页]
作者:
s6ngzde
时间:
5 天前
标题:
DeepSeek-3.2技术报告解读
1、简介
DeepSeek-V3.2:平衡推理才能与输入长度,合适日常运用,例如问答场景和通用 Agent 义务场景。DeepSeek-V3.2-Speciale:极致推理才能,具有出色的指令跟随、严谨的数学证明与逻辑验证才能,基准测试媲美 Gemini-3.0-Pro,斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大先生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。
技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf
2、开源模型与闭源模型的差距
开源模型在复杂义务上的表现,核心瓶颈次要有以下三点:
架构瓶颈:传统留意力机制(Vanilla Attention)严重限制长序列文本处理效率。资源分配:后训练(Post-training)阶段算力投入不足。智能体才能:泛化才能和指令遵照才能明细落后闭源模型。
3、Deepseek关键技术打破:
DeepSeek稀疏留意力(DSA):保持模型长上下文功能,大幅降低计算复杂度。 可扩展强化学习框架:经过完成一套波动且可扩展的强化学习协议,扩展模型后训练阶段计算资源,使其达到GPT-5或Gemini-3.0-pro的推理才能。大规模智能体义务合成管线:将推理才能融入工具运用场景,加强模型在复杂交互环境中泛化才能和指令遵照的鲁棒性。
4、技术原理
4.1 DeepSeek Sparse Attention(DSA)
DSA次要包含两个组件:疾速索引器(lightning indexer)和细粒度token选择机制(fine-grained token selection mechanism)。
疾速索引器:计算查询token
h
t
∈R
d
与前文令牌
h
s
∈R
d
之间的索引分数
I
t
,
s
,确定查询token需选择的令牌:
(, 下载次数: 2)
上传
点击文件名下载附件
细粒度token选择机制:仅检索索引Top-k 的键值对{cs}
(, 下载次数: 2)
上传
点击文件名下载附件
基于 MLA 的 DSA 实例化:基于MLA(Multi-HeadLatentAttention)的MQA(Multi-QueryAttention)形式完成 DSA,每一个潜在向量(Latent Vector,即MLA的kv键值对)被同一个token的一切查询头(query heads)共享,从而提升计算效率。
(, 下载次数: 3)
上传
点击文件名下载附件
注:绿色部分描画DSA根据索引器选择Top-k的kv键值对
4.2 持续预训练
稠密预热阶段(Dense Warm-up Stage): 首先经过短工夫预热初始化疾速索引器。此阶段保留密集留意力机制,冻结除疾速索引器外的一切模型参数。
(, 下载次数: 2)
上传
点击文件名下载附件
学习率:10-3训练步数:1000 步每步数据量:16 个序列 × 128K token/序列,总token量 2.1B
稀疏训练阶段:索引器预热后,引入细粒度令牌选择机制,优化一切模型参数以顺应 DSA 的稀疏形式。
(, 下载次数: 2)
上传
点击文件名下载附件
学习率:7.3×10-6 每个查询token选择键值对数量:2048 个训练步数:15000 步每步数据量:480 个序列 × 128K token/序列,总token量 943.7B
4.3 功能分歧性评价
标准基准测试:2025 年 9 月,在多维度才能基准测试中评价 DeepSeek-V3.2-Exp,其表现与 DeepSeek-V3.1-Terminus 相近,长序列计算效率分明提升且未出现短 / 长上下文义务功能退步。人类偏好评价:采用 ChatbotArena 作为间接评价框架,DeepSeek-V3.1-Terminus 与 DeepSeek-V3.2-Exp 采用相反训练后优化策略,2025 年 11 月 10 日评价结果显示两者 Elo 分数接近,表明引入稀疏留意力机制后,新基础模型功能与上一版本持平。长上下文评价:DeepSeek-V3.2-Exp 发布后,多项独立长上下文评价显示,其在 AA-LCR 推理形式下比 DeepSeek-V3.1-Terminus 高出 4 分,在 Fiction.liveBench 多个目的中持续抢先,证明基础检查点未出现长上下文义务功能退步。
4.4 推理成本
DSA 核心留意力复杂度从O(L2)降至O(Lk)(k 为选定令牌数,且k(<<L))。虽然疾速索引器复杂度仍为O(L2),但计算量远低于 DeepSeek-V3.1-Terminus 中的 MLA。
4.5 后训练
持续预训练后,经过训练后优化得到最终的 DeepSeek-V3.2,该阶段异样采用稀疏留意力机制,且保持与 DeepSeek-V3.2-Exp 相反的训练后优化流水线,包括专家蒸馏(specialist distillation)和混合强化学习训练(mixed RL training)。
(, 下载次数: 2)
上传
点击文件名下载附件
4.5.1 专家蒸馏:
对于每个义务,会开发一个专门针对该特定范畴的专家模型,一切专家模型均基于相反的预训练 DeepSeek-V3.2 基础检查点停止微调。除了写作义务和通用问答之外,涵盖 6个核心范畴:数学、编程、通用逻辑推理、通用智能体义务、智能体编程、智能体搜索,一切范畴均支持思索形式(长链推理)和非思索形式(直接呼应)。每个专家模型均经过大规模强化学习训练,且针对思索形式和非思索形式采用不同数据生成策略。专家模型训练完成后,用于生成范畴专属数据,供最终模型训练。实验表明,基于蒸馏数据训练的模型功能仅略低于范畴专家模型,且经过后续强化学习可完全消弭功能差距。
4.5.2 混合强化学习训练:
采用组相对策略优化(Group Relative Policy Optimization, GRPO)作为强化学习训练算法,将推理、智能体和人类对齐训练合并到一个强化学习阶段,平衡不同范畴功能并避免多阶段训练的灾难性遗忘成绩。
推理和智能体义务采用基于规则的结果奖励、长度惩罚和言语分歧性奖励;通用义务采用生成式奖励模型,每个提示词均有专属评价标准。
4.5.3 缩放GRPO(Scaling GRPO)
无偏 KL 估计(Unbiased KL Estimate): 经过当前策略与旧策略的重要性采样比修正K3估计器,得到无偏 KL 估计,使得该KL估计器的梯度无偏,消弭系统估计误差,保障训练波动收敛。
(, 下载次数: 2)
上传
点击文件名下载附件
离策略序列掩码(Off-Policy Sequence Masking): 为提升训练波动性和离策略更新容忍度,经过旧策略与当前策略的 KL 散度衡量策略偏向,对偏向过大的负序列停止掩码处理。
(, 下载次数: 2)
上传
点击文件名下载附件
这种离策略序列掩码操作可以在某些本来容易出现不波动的训练场景中提升波动性。
保持路由(Keep Routing):保留推理框架采样时的专家路由途径,训练过程中强迫运用相反途径,确保混合专家(MoE)模型训练波动性。
保持采样掩码(Keep Sampling Mask):将top-p采样与保留采样掩码策略相结合,可以在强化学习训练中有效保持言语的分歧性。
4.6 工具运用中的思想才能
4.6.1 思想上下文管理
在工具调用中引入思想推理才能。
(, 下载次数: 2)
上传
点击文件名下载附件
注:工具调用场景中的思想保持机制
4.6.2 冷启动
基于现有推理数据(非智能体)和非推明智能体数据,经过精心设计提示词将两种才能整合,假设模型可准确遵照明白指令,完成工具执行与推理过程的无缝交融。不同义务提示词对应不同系统提示词,经过特殊标签标注推理途径、明白工具调用指点等,为后续强化学习阶段提供基础。
4.6.3 大规模智能体义务
搜索智能体:基于 DeepSeek-V3.2 构建多智能体流水线,生成训练数据:
1) 从大规模网络语料中采样多范畴长尾实体;
2) 成绩构建智能体经过搜索工具探务实体,生成问答对;
3) 多配置答案生成智能体产出多样化候选答案;
4) 验证智能体经过多次搜索验证答案,仅保留 ground-truth 正确且候选答案均错误的样本;
5) 补充过滤后的适用强化学习数据集,结合生成式奖励模型停止多维度评分,平衡理想准确性与适用性。
代码智能体:从 GitHub 发掘数百万 “成绩 - 拉取央求(PR)” 对,经严厉挑选后,由自动化环境搭建智能体构建可执行软件成绩处理环境,覆盖多种编程言语。代码解释器智能体:以 Jupyter Notebook 为代码解释器,精选数学、逻辑、数据迷信范畴复杂成绩,要求模型借助代码执行才能求解。通用智能体:经过自动环境合成智能体生成1827个面向义务的环境,义务特点为“难求解、易验证”,合成流程如下:
1) 给定义务类别(如游览规划)和沙箱工具(bash、搜索工具),生成或检索相关数据并存储;
2) 合成特定义务专属工具(以函数方式完成);
3) 基于数据库生成简单义务,用python完成处理方案和验证函数,处理方案仅经过工具调用或逻辑计算完成,经过迭代提升义务难度并扩展工具集;
按照此流程,最后获得并仅保留pass@100不为零的实例,最终得到1827个环境及对应的4417个义务。
5.评价
在 MMLU-Pro、GPQA Diamond、HLE Text-only 等多个基准测试中评价模型,工具运用基准测试采用标准函数调用格式,配置为思索形式;数学相关义务采用特定提示词模板。结果显示:
推理义务:DeepSeek-V3.2 推理义务表现与 GPT-5-high 相当,略逊于 Gemini-3.0-Pro,与 Kimi-K2-Thinking 相比,功能相当且输入令牌分明更少。代码智能体:在 SWE-bench Verified 和 Terminal Bench 2.0 上大幅超越开源大型言语模型,不同框架和形式下测试结果波动。搜索智能体:受128K上下文长度限制,20%+测试用例超纲,采用上下文管理策略后功能提升,无上下文管理时得分为51.4。工具运用:大幅减少开源与闭源模型功能差距,虽仍低于前沿模型,但在未见过的环境和工具集上展现出强泛化才能。
6.将来工作
扩展预训练计算规模,补偿世界知识广度不足的差距;优化模型推理链的智能密度,提升 token 效率;改进完善基础模型与后训练方案,加强复杂义务的处理才能;
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5