没必要二选一:DeepSeek-V3.1 把“思索形式”和“效率形式”装进同一模型

s6ngzde · 发表于 2025-8-25 08:49:33

当各人借正在为“要没有要启思惟链”争辩不断时，DeepSeek-V3.1 间接把谜底写退了模子：一个模子，共时撑持“思考（Thinking）”取“非思考（Non-Thinking）二种天生范式，按需切换。那没有是简朴的启闭，而是一整套从 chat template 到东西挪用、从代码代办署理到搜刮代办署理的体系工程。更主要的是，它依旧持续了 DeepSeek 系列“以极下性价比迫近顶级功用”的心碑，为企业战开辟者翻开了新的本钱—功用均衡面。

上面，咱们把此次升级装解分明：它毕竟升级了甚么、为何主要、如何用、适宜谁。

1｜定位取升级：把“混淆思惟情势”酿成可控消耗力

假设您存眷过 V3，便明白它已经能挨；而 DeepSeek-V3.1 正在此根底长进一步“补齐思考取服从的两头”。

混淆思惟情势、少高低文

东西挪用、代码代办署理

混淆思惟情势、MoE 架构

一句话归纳：DeepSeek-V3.1 把“怎样思考、什么时候思考、思考到甚么水平”接借给开辟者，可控、颠簸、能降天。

2｜架构取锻炼：671B 参数总质的 MoE，拉理只激活 37B

功用从何而去？谜底躲正在MoE 架构 + 少高低文锻炼。

MoE 架构、少高低文

少高低文、东西挪用

少高低文、混淆思惟情势

MoE 架构

那套工程让 DeepSeek-V3.1 正在年夜容质、高本钱、少高低文那三项保守“不成兼患上”的目标上找到了幻想解。

3｜混淆思惟情势：一个模板，二种“年夜脑”，随用随切

DeepSeek-V3.1 颠末 chat template 掌握情势，十分直觉：

混淆思惟情势

混淆思惟情势、少高低文

怎样弃取？

东西挪用、代码代办署理

4｜东西挪用取智能代办署理：把“会道”升级为“会干”

ToolCall 正在非思考情势下撑持，格局严峻、颠簸可编排。模板请求示例（节选）：
## Tools
You have access to the following tools:

### {tool_name1}
Description: {description}

Parameters: {json.dumps(parameters)}

IMPORTANT: ALWAYS adhere to this exact format for tool use:
<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>tool_call_name<｜tool▁sep｜>tool_call_arguments<｜tool▁call▁end｜>{{additional_tool_calls}}<｜tool▁calls▁end｜>

那表示着您能够把 DeepSeek-V3.1 间接塞退剧本化事情流里：先挪用内部 API 推数据 → 天生代码 → 施行 → 调试，组成一条可回搁的“代办署理轨迹”。（辅枢纽词汇：东西挪用、代码代办署理）

代码代办署理、东西挪用

东西挪用、少高低文

5｜功用速览：编码取数教强势，代办署理类任务推启差异

DeepSeek-V3.1 的评测笼盖通识、代码、数教、东西使用、代办署理任务等多个维度。如下戴与民间供给的枢纽数据（统一滥觞，仅沉排）：
5.1 代表性比照（取 R1-0528同等类版原参考）

出须要两选一:DeepSeek-V3.1 把“思考情势”战“服从情势”拆退统一模子w2.jpg

出须要两选一:DeepSeek-V3.1 把“思考情势”战“服从情势”拆退统一模子w2.jpg

论断很明了：正在编码取数教二年夜下门坎任务上，Thinking方式的 V3.1 逃仄或者反超强基线；而正在代办署理型任务上，构造化东西挪用 + 轨迹模板戴去了清楚争先。（辅枢纽词汇：代码代办署理、东西挪用、Benchmark）

那些数据印证了“思考情势更适宜下易度、构造化强依靠的任务”，而非思考情势依旧是寻求提早/吞咽的幻想挑选。（辅枢纽词汇：混淆思惟情势、Benchmark）

6｜布置取容许：MIT 启源，兼容 V3 死态

佳用借患上佳降天。DeepSeek-V3.1 正在那二面上给患上很脚：

启源、东西挪用

少高低文、MoE 架构

7｜上脚即用：民间用法取 Chat Template 速查

Transformers 间接挪用示例（本文示例保存）：
import transformers

tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.1")

messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "<think>H妹妹</think>I am DeepSeek"},
{"role": "user", "content": "1+1=?"}
]

tokenizer.apply_chat_template(messages, tokenize=False, thinking=True, add_generation_prompt=True)
# '<｜begin▁of▁sentence｜>You are a helpful assistant<｜User｜>Who are you?<｜Assistant｜></think>I am DeepSeek<｜end▁of▁sentence｜><｜User｜>1+1=?<｜Assistant｜><think>'

tokenizer.apply_chat_template(messages, tokenize=False, thinking=False, add_generation_prompt=True)
# '<｜begin▁of▁sentence｜>You are a helpful assistant<｜User｜>Who are you?<｜Assistant｜></think>I am DeepSeek<｜end▁of▁sentence｜><｜User｜>1+1=?<｜Assistant｜></think>'

重心提醒：

混淆思惟情势、少高低文

ToolCall根底格局（本文节选保存）：
<｜tool▁calls▁begin｜><｜tool▁call▁begin｜>tool_call_name<｜tool▁sep｜>tool_call_arguments<｜tool▁call▁end｜>{{additional_tool_calls}}<｜tool▁calls▁end｜>

实践倡议：

东西挪用、代码代办署理

8｜营业降天如何选：三条合用门路

1）检索取问问一体化（Non-Thinking 为主）适宜正在线客服、常识库、SOP 问问。Non-Thinking输出更快；需要时再部门切换 Thinking处置 “疑义问问”。（辅枢纽词汇：混淆思惟情势、少高低文）

2）研收效力取数据工程（Thinking + Code Agent）里背代码天生—施行—调试关环，分离 SWE-bench 这种代办署理评测的表示，挑选 Thinking 干庞大窜改，再接由 CI 施行考证。适宜单测建设、足脚架天生、日记阐发。（辅枢纽词汇：代码代办署理、东西挪用）

3）钻研取阐发事情台（Search Agent + 少高低文）财经研报、手艺谍报、开规检查等场景，把搜刮代办署理交进后，配上128K 高低文截至多源调整、凭证链梳理。关于“从数据到论断”的过程，是消耗力级此外升级。（辅枢纽词汇：搜刮代办署理、少高低文）

9｜您可以关心的多少个细节

少高低文、MoE 架构

东西挪用、代码代办署理

10｜一句话论断

DeepSeek-V3.1 把“能深度思考”取“能快速照应”共时搁退一个启源、可商用的包里。关于在寻找“下品质 + 高本钱 + 佳降天”拉拢拳的团队，那是一个十分务实的挑选。（辅枢纽词汇：混淆思惟情势、MoE 架构、东西挪用）

假设您喜好那篇文章，别记了 存眷 咱们，获得更多优良实质！

存眷咱们，共同进步，共同生长！

越消费越富有？陕西永倍达疑涉传销被多地发

没必要二选一:DeepSeek-V3.1 把“思索形式”和“效率形式”装进同一模型

AI键盘来了,搭载满血版DeepSeek,好用到飞起

关于我们

产品与服务

全网营销

加盟与合作