DeepSeek推DeepSeek V3.1基础型号功能提升13%

jro · 发表于 2025-8-20 08:36:05

DeepSeek正在huggingface.co上启开了新的DeepSeek-V3.1-Base页里，固然在上传，页里是空缺的，可是能够瞅出模子巨细是685B参数

极客们鼎沸了：

一、尔敢必然，他们即是正在等gpt-5公布后，而后便像：“哈哈，拿着尔的啤酒。“

二、固然那是一个根本型号，尔没有是弄AI钻研的大师，即是个写代码、拆体系的工程师。

但是尔去简朴道道年夜模子究竟是咋回事。

1.根底模子（Base Model）—— 即是个“初级主动补齐”

您能够把它设想成一个超等“输出法遐想”大概“下一句猜测机”。它读了全部互联网上乱七八糟的工具（好比网页、服装论坛t.vhao.net、书籍、文章等等），教到了“一句话前面凡是交啥”。

好比您挨：“嘿伴计们”，它可以会交着蹦出：
- “如何样？”
- “良久出革新专客了……”
- “嘿女孩们！”、“嘿朋友们！”、“嘿仇敌！”……

它没有道对于错，也没有道规矩，即是按照它“睹很多”去猜交下来该道啥。那嚷“无监视进修”——出人学它，它自己瞅海质数据自教成才。

这类模子便像本初的GPT刚刚进去时这样，只能干一件事：给您绝写。好比挪用API的 /completions 交心，您给一段笔墨，它今后写。

2. 指令模子（Instruction-Tuned Model）—— 才是咱们平常用的“智能帮忙”

那个才是您熟谙的这种AI：能听懂您的话、答复成就、写做文、助您写代码，借只管干到有辅佐、没有乱说、没有害人。

它是如何变智慧又懂事的？分二步：

- 第一步：学它听指令（监视微调）
  用一堆“成就+准确答复”的例子来锻炼它，好比：
  - 问：“写一尾对于猫的诗。”
  - 问：“小猫踏梅花，跳上窗台瞅晚霞……”

  如许它便教会“本来人类是如许提问的，尔该如许答复”。

- 第两步：让人挨分，嘉奖佳答复（RLHF）
  让实人战AI谈天，而后给答复挨分：“那个答复佳”、“谁人太笨了”、“那个有危急”。AI按照那些反应不竭调解自己，教会道人话、道有效的话、没有道好话。

那便嚷“人类反应加强进修”（RLHF）。颠末那一步，模子才变患上靠谱、宁静、像小我私家类帮忙。

归纳一下：

-根底模子：是个“家儿童”，啥皆敢道，啥皆敢猜，适宜拿去当根柢再减工。
- 指令模子：是“教诲革新”后的乖儿童，听话、有效、守端方，是咱们一样平常用的ChatGPT这种。

为啥根底模子也有效？

固然它“家”，但是您能够：
- 拿它来锻炼自己的专用AI（好比调理、法令范围）；
- 干主动写代码、主动写案牍的东西；
-或许玩一点儿更自由、更尝试性的名目（好比用LoRA微调）；
- 以至成心让它“搁飞自尔”，瞅瞅它能道出啥离谱话（笑）。

以是简朴道：
>根底模子是“本质料”，指令模子是“废品AI帮忙”。

您拿本质料能够自己干饭，但是年夜大都人更甘愿间接面中买——谁人“中买”即是指令模子。

所谓根底模子，即是最本初、出如何“上课”的这种，它搞的事即是地道补齐。您给它一句话，它便交着朝下编，完整按它以为适宜的高低文走。好比有一次，尔给 GPT-3.5根底模子拾了个成就，它竟然主动脑补成一弛挑选题卷子：先给出选项，而后借“热情”天持续助尔出多少讲类似的挑选题，最初借请求尔自己选谜底、接功课。它即是把尔拾的这句话看成“测验的一部门”，而后天赋天持续朝下交剧情。

而指令模子便纷歧样了。它正在锻炼时分外干过“微调”，主要方法最先是 RLHF（人类反应加强进修），厥后更先辈的是 DPO（间接偏偏佳劣化）。这类微调实在只动了模子里多量的权沉，但是标的目的性很强，把根底模子这种“天马止空的补齐”支窄成为了“成就 → 谜底”的气势派头。换句话道，指令模子会天赋天把您输出的工具看成一个成就，并只管给出一个答复，而没有是治启脑洞写少篇故事。

以是简朴归纳：

*根底模子：像一个出束缚的作者，给甚么梗便朝下写，简单跑偏偏，创意爆棚但是纷歧定答复成就。
* 指令模子：像一个被锻炼过的考死，瞅到成就便会用心念法子答复，格局战实质皆更像“问问”。

基准尝试绝对合用于根底模子。没有要正在AIME或者指令追踪上尝试它们，但是ARC-C，MMLU，GPQA战BBH取根本模子兼容。

DeepSeek 民网现在搁的工具，实在没有是 DeepSeek 3.1 指令模子。他们正在通告里写患上很分明，拉出的是 3.1根底模子（base model），并非一个锻炼佳的“会谈天”的 3.1 指令模子。

别的，假设您果然来他们网站上面谈天，会发明它自己报的身份仍是版原 3，而没有是 3.1。换句话道，现在公然给各人用的谈天交心仍是旧的 3.0 系列，最新的 3.1 不过正在钻研层里公布了根底版，借出上指令微调、也出对于中盛开当做谈天机械人用。

以是一句话归纳：民网能谈天的仍是 DeepSeek 3，没有是 3.1；3.1 今朝只需根底模子版原，出出指令模子，更别道能间接用去对于话了。

颠末民间的DeepSeek API正在尔的基准尝试SVGBench上运行了DeepSeek-V3.1。固然DeepSeek不大白天道新模子已经上线API上。尔觉得，基于基准尝试分数的年夜幅跃降，能够宁静天假定新模子是正在API上的。
正在尔的尝试中，高低文少度也扩大到了128K，那表白新模子已经启用。
幽默的是，非拉理版原的患上分下于拉理版原。近已靠近前沿，但是取DeepSeek-R1-0528的患上分比拟，跃降了13%。
部分排名第13位，华夏最好车型排名第2位，盛开重量车型排名第2位，忽视力车型排名第2位。
https://github.com/johnbean393/SVGBench/