DeepSeek-V3.1 的亮点在哪里?

K7tRx · 发表于 2025-8-26 01:15:37

⇧面蓝色字存眷“AI小小将”

上周，DeepSeek民间已经邪式公布新版原：DeepSeek-V3.1。战以前各人的推测一致，DeepSeek-V3.1是一个混淆拉理模子，即是既撑持非拉理情势的快速答复，又撑持戴思考链的缓答复。那个是DeepSeek-V3.1的第一年夜明面。

可否启开思考情势是颠末chat template去掌握的。假设要使用非拉理，那末要使用以下的模版（前面逃减一个</think>，报告模子前面没有需要思考了）：
<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>
关于多轮对于话，能够类似天树立：
Context: <｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>...<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜> Prefix: <｜User｜>{query}<｜Assistant｜></think>
要启开思考，需要接纳以下的模版（战R1一致前面逃减一个<think>，报告模子开端思考了）：
<｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜><think>
多轮对于话的时候要留神高低文要战非思考情势一致，即是咱们要来失落答复中的思考历程，只戴进终极答复，而且前面加之</think>：
Context: <｜begin▁of▁sentence｜>{system prompt}<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜>...<｜User｜>{query}<｜Assistant｜></think>{response}<｜end▁of▁sentence｜> Prefix: <｜User｜>{query}<｜Assistant｜><think>
DeepSeek-V3.1的第两明面是更下的拉理服从：比拟 DeepSeek-R1-0528，DeepSeek-V3.1-Think 能正在更长工妇内乱给出谜底。以前的DeepSeek-R1的思考十分烦琐，而DeepSeek-V3.1的思考历程绝对粗简。民间的尝试成果显现，V3.1-Think 正在输出 token 数削减 20%-50% 的情况下，各项任务的均匀表示取 R1-0528 持仄：

DeepSeek-V3.1 的明面正在那里?w2.jpg

别的，非思考情势下的 V3.1 的输出少度也粗简了，比拟于 DeepSeek-V3-0324 ，V3.1 能够正在输出少度清楚削减的情况下连结差异的模子功用。

DeepSeek V3.1的第三年夜明面是更强的 Agent才干：颠末 Post-Training 劣化，V3.1 正在东西使用取智能体任务中的表示有较年夜提拔。那个也能从民间收文的题目瞅进去：

DeepSeek-V3.1 公布，迈背 Agent 时期的第一步

正在代码建设测评 SWE 取号令止末端情况下的庞大任务（Terminal-Bench）尝试中（使用内部agent框架），DeepSeek-V3.1 比拟以前的 DeepSeek 系列模子有清楚进步：

DeepSeek-V3.1 的明面正在那里?w3.jpg

正在搜刮智能体尝试中，出格正在需要多步拉理的庞大搜刮尝试（browsecomp）取多教科大师级困难尝试（HLE）上，DeepSeek-V3.1功用年夜幅争先 R1-0528：

DeepSeek-V3.1 的明面正在那里?w4.jpg

并且民间借知心肠供给了Code-Agent战Search-Agent的模版：

DeepSeek-V3.1 的明面正在那里?w5.jpg

值患上留神的是DeepSeek-V3.1并非从整锻炼的，而是正在DeepSeek-V3预锻炼模子根底长进一步锻炼劣化的，以是V3.1正在模子设置上战V3是一致的，皆是总参数目为671B激活参数为37B的MoE模子。此次公布的新模子也包罗预锻炼版原DeepSeek-V3.1-Base和后锻炼版原DeepSeek-V3.1：

DeepSeek-V3.1 的明面正在那里?w6.jpg

此中DeepSeek-V3.1-Base是鉴于V3预锻炼模子根底上颠末二阶段少高低文扩大办法建立的。锻炼办法战DeepSeek-V3 手艺陈述中过程不合，只不外汇集了更多少文档数据清楚扩大了锻炼数据散，并年夜幅延长了二个阶段的锻炼范围。此中，32K 高低文扩大阶段的锻炼质增加了 10 倍，到达 630B tokens，而 128K 高低文扩大阶段的锻炼质扩大了 3.3 倍，到达 209B tokens。

出格天，DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数粗度，而UE8M0 FP8是针对于行将公布的下一代国产芯片设想，DeepSeek实是国产之光。

上面是DeepSeek-V3.1思考战非思考版原战以前的V3战R1正在支流基准尝试上的比照，部分上是较年夜提拔的：

DeepSeek-V3.1 的明面正在那里?w7.jpg

那末DeepSeek-V3.1比拟其余模子怎样呢？Artificial Analysis仄台已经干了评测：DeepSeek V3.1 正在拉理情势下的野生阐发智能指数为 60，下于 R1 的 59；正在非拉理情势下患上分为 49，比拟 V3 0324 的 44 有更年夜提拔。不外，V3.1（拉理情势）仍落伍于阿里最新的 Qwen3-235B-2507（拉理情势），还没有从头夺回争先职位。

DeepSeek-V3.1 的明面正在那里?w8.jpg