开启左侧

DeepSeek-3.2技术报告解读

[复制链接]
一、简介

    DeepSeek-V3.2:均衡拉理才气取输出少度,适宜一样平常使用,比方问问场景战通用 Agent 任务场景。DeepSeek-V3.2-Speciale:极致拉理才气,具备超卓的指令跟从、松散的数教证实取逻辑考证才气,基准尝试媲好 Gemini-3.0-Pro,斩获 IMO 2025(国内数教奥林匹克)、CMO 2025(华夏数教奥林匹克)、ICPC World Finals 2025(国内年夜师长教师法式设想比赛环球总决赛)及 IOI 2025(国内疑息教奥林匹克)金牌。


手艺陈述:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

二、启源模子取关源模子的差异

启源模子正在庞大任务上的表示,中心瓶颈主要有如下三面:
    架构瓶颈:保守留神力体制(Vanilla Attention)严峻限定少序列文原处置服从。资本分派:后锻炼(Post-training)阶段算力加入不敷。智能体才气:泛化才气战指令依照才气明细落伍关源模子。

三、Deepseek枢纽手艺突破:

    DeepSeek稠密留神力(DSA):连结模子少高低文功用,年夜幅低落计较庞大度。 可扩大加强进修框架:颠末完毕一套颠簸且可扩大的加强进修和谈,扩大模子后锻炼阶段计较资本,使其到达GPT-5或者Gemini-3.0-pro的拉理才气。年夜范围智能体任务分解管线:将拉理才气融进东西使用场景,增强模子正在庞大接互情况中泛化才气战指令依照的鲁棒性。

四、手艺道理

4.1 DeepSeek Sparse Attention(DSA)

DSA主要包罗二个组件:快速索引器(lightning indexer)战细粒度token挑选体制(fine-grained token selection mechanism)。

快速索引器:计较盘问token ht∈Rd取前文令牌hs∈Rd之间的索引分数It,s ,肯定盘问token需挑选的令牌:

DeepSeek-3.2手艺陈述解读w2.jpg

细粒度token挑选体制:仅检索索引Top-k 的键值对于{cs}

DeepSeek-3.2手艺陈述解读w3.jpg

鉴于 MLA 的 DSA 真例化:鉴于MLA(Multi-HeadLatentAttention)的MQA(Multi-QueryAttention)情势完毕 DSA,每个潜伏背质(Latent Vector,即MLA的kv键值对于)被统一个token的统统盘问头(query heads)同享,进而提拔计较服从。

DeepSeek-3.2手艺陈述解读w4.jpg

注:绿色部门描绘DSA按照索引器挑选Top-k的kv键值对于
4.2继续 预锻炼

浓密预冷阶段(Dense Warm-up Stage): 起首颠末长工妇预冷初初化快速索引器。此阶段保存麋集留神力体制,解冻除快速索引器中的统统模子参数。

DeepSeek-3.2手艺陈述解读w5.jpg
    进修率:10-3锻炼步数:1000 步每一步数据质:16 个序列 × 128K token/序列,总token质 2.1B

稠密锻炼阶段:索引器预冷后,引进细粒度令牌挑选体制,劣化统统模子参数以适应 DSA 的稠密情势。

DeepSeek-3.2手艺陈述解读w6.jpg
    进修率:7.3×10-6 每一个盘问token挑选键值对于数目:2048 个锻炼步数:15000 步每一步数据质:480 个序列 × 128K token/序列,总token质 943.7B
4.3功用 不合性评介

    尺度基准尝试:2025 年 9 月,正在多维度才气基准尝试中评介 DeepSeek-V3.2-Exp,其表示取 DeepSeek-V3.1-Terminus 附近,少序列计较服从清楚提拔且已呈现短 / 少高低文任务功用退化。人类偏偏佳评介:接纳 ChatbotArena 动作直接评介框架,DeepSeek-V3.1-Terminus 取 DeepSeek-V3.2-Exp 接纳差异锻炼后劣化战略,2025 年 11 月 10 日评介成果显现二者 Elo 分数靠近,表白引进稠密留神力体制后,新根底模子功用取上一版原持仄。少高低文评介:DeepSeek-V3.2-Exp 公布后,多项自力少高低文评介显现,其正在 AA-LCR 拉理情势下比 DeepSeek-V3.1-Terminus 超出跨越 4 分,正在 Fiction.liveBench 多个目标中连续争先,证实根底查抄面已呈现少高低文任务功用退化。
4.4 拉理本钱

DSA中心 留神力庞大度从O(L2)落至O(Lk)(k 为选定令牌数,且k(<<L))。固然快速索引器庞大度仍为O(L2),但是计较质近高于 DeepSeek-V3.1-Terminus 中的 MLA。
4.5 后锻炼

连续预锻炼后,颠末锻炼后劣化获得终极的 DeepSeek-V3.2,该阶段异常接纳稠密留神力体制,且连结取 DeepSeek-V3.2-Exp 差异的锻炼后劣化流火线,包罗大师蒸馏(specialist distillation)战混淆加强进修锻炼(mixed RL training)。

DeepSeek-3.2手艺陈述解读w7.jpg
4.5.1 大师蒸馏:

关于每一个任务,会开辟一个特地针对于该一定范围的大师模子,统统大师模子均鉴于差异的预锻炼 DeepSeek-V3.2根底 查抄面截至微调。除写做任务战通用问问以外,涵盖 6个中心范围:数教、编程、通用逻辑拉理、通用智能体任务、智能体编程、智能体搜刮,统统范围均撑持思考情势(少链拉理)战非思考情势(间接照应)。每一个大师模子均颠末年夜范围加强进修锻炼,且针对于思考情势战非思考情势接纳差别数据天生战略。大师模子锻炼完毕后,用于天生范围博属数据,供终极模子锻炼。尝试表白,鉴于蒸馏数据锻炼的模子功用仅略高于范围大师模子,且颠末后绝加强进修可完整打消功用差异。
4.5.2 混淆加强进修锻炼:

接纳组绝对战略劣化(Group Relative Policy Optimization, GRPO)动作加强进修锻炼算法,将拉理、智能体战人类对于齐锻炼兼并到一个加强进修阶段,均衡差别范围功用并制止多阶段锻炼的劫难性忘记成就。
    拉理战智能体任务接纳鉴于划定规矩的成果嘉奖、少度处罚战语言不合性嘉奖;通用任务接纳天生式嘉奖模子,每一个提醒词汇均有博属评介尺度。
4.5.3 缩搁GRPO(Scaling GRPO)

无偏偏 KL估量 (Unbiased KL Estimate):  颠末目前战略取旧战略的主要性采样比改正K3估量器,获得无偏偏 KL估量 ,使患上该KL估量器的梯度无偏偏,打消体系估量偏差,保证锻炼颠簸支敛。

DeepSeek-3.2手艺陈述解读w8.jpg

离战略序列掩码(Off-Policy Sequence Masking):  为提拔锻炼颠簸性战离战略革新忍耐度,颠末旧战略取目前战略的 KL 集度权衡战略倾向,对于倾向过年夜的背序列截至掩码处置。

DeepSeek-3.2手艺陈述解读w9.jpg

这类离战略序列掩码操纵能够正在某些原来简单呈现没有颠簸的锻炼场景中提拔颠簸性。

连结路由(Keep Routing):保存拉理框架采样时的大师路由路子,锻炼过程当中自愿使用差异路子,保证混淆大师(MoE)模子锻炼颠簸性。

连结采样掩码(Keep Sampling Mask):将top-p采样取保存采样掩码战略相分离,能够正在加强进修锻炼中有用连结语言的不合性。
4.6 东西使用中的思惟才气

4.6.1 思惟高低文办理

正在东西挪用中引进思惟拉理才气。

DeepSeek-3.2手艺陈述解读w10.jpg

注:东西挪用场景中的思惟连结体制
4.6.2 热启用

鉴于现有拉理数据(非智能体)战非拉理智能体数据,颠末经心设想提醒词汇将二种才气调整,假定模子可精确依照大白指令,完毕东西施行取拉理历程的无缝融合。差别任务提醒词汇对于应差别体系提醒词汇,颠末特别标签标注拉理路子、大白东西挪用辅导等,为后绝加强进修阶段供给根底。
4.6.3 年夜范围智能体任务

    搜刮智能体:鉴于 DeepSeek-V3.2 建立多智能体流火线,天生锻炼数据:

    1) 从年夜范围收集语猜中采样多范围少尾真体;

    2)成果 建立智能体颠末搜刮东西探务虚体,天生问对答;

    3) 多设置谜底天生智能体产出百般化候选谜底;

    4) 考证智能体颠末屡次搜刮考证谜底,仅保存 ground-truth 准确且候选谜底均毛病的样原;

    5) 弥补过滤后的合用加强进修数据散,分离天生式嘉奖模子截至多维度评分,均衡幻想精确性取合用性。
    代码智能体:从 GitHub开掘 数百万 “成就 - 推与恳求(PR)” 对于,经严峻选择后,由主动化情况拆修智能体建立可施行硬件成就处置情况,笼盖多种编程语言。代码注释器智能体:以 Jupyter Notebook 为代码注释器,粗选数教、逻辑、数据科学范围庞大成就,请求模子借帮代码施行才气供解。通用智能体:颠末主动情况分解智能体天生1827个里背任务的情况,任务特性为“易供解、易考证”,分解过程以下:

  1) 给界说务种别(如旅游计划)战沙箱东西(bash、搜刮东西),天生或者检索相干数据并保存;

         2)分解 一定任务博属东西(以函数方法完毕);

         3) 鉴于数据库天生简朴任务,用python完毕处置计划战考证函数,处置计划仅颠末东西挪用或者逻辑计较完毕,颠末迭代提拔任务易度并扩大东西散;

  根据此过程,最初得到并仅保存pass@100没有为整的真例,终极获得1827个情况及对于应的4417个任务。

5.评介

正在 MMLU-Pro、GPQA Diamond、HLE Text-only 等多个基准尝试中评介模子,东西使用基准尝试接纳尺度函数挪用格局,设置为思考情势;数教相干任务接纳一定提醒词汇模板。成果显现:
    拉理任务:DeepSeek-V3.2 拉理任务表示取 GPT-5-high 相称,略逊于 Gemini-3.0-Pro,取 Kimi-K2-Thinking 比拟,功用相称且输出令牌清楚更少。代码智能体:正在 SWE-bench Verified 战 Terminal Bench 2.0 上年夜幅逾越启源庞大语言模子,差别框架战情势下尝试成果颠簸。搜刮智能体:受128K高低文少度限定,20%+尝试用例超目,接纳高低文办理战略后功用提拔,无尚下文办理时患上分为51.4。东西使用:年夜幅削减启源取关源模子功用差异,虽仍高于前沿模子,但是正在已睹过的情况战东西散上展示出强泛化才气。


6.未来事情

    扩大预锻炼计较范围,抵偿天下常识广度不敷的差异;劣化模子拉理链的智能稀度,提拔 token 服从;改良完美根底模子取后锻炼计划,增强庞大任务的处置才气;
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )