DeepSeek-V3.1更新背后,你需求知道这3个「真相」

U4MxpqoQqf · 发表于 4 小时前

昨早，DeepSeek截至了一次“突袭式”革新。

民间的明面是128K高低文，但是那，可以是升级中最没有主要的一个部门。

为何道V3.1是一个从头锻炼的模子？和V3.1可否初度接纳了混淆拉理的手艺门路？

现在，便让咱们去聊聊DeepSeek V3.1革新面前，真实值患上存眷的手艺门路，那野公司远乎偏偏执的贸易计谋。

作家：四月丨滥觞：拟开论睹

V3.1 是甚么？

从今朝的线索去瞅，V3.1更像是DeepSeek一次“融合模子”的尝试，它在测验考试将担当谈天的V3模子，战担当深度拉理的R1模子，开两为一。

V3.1 = V3 + R1 = Chat + Reasoner
V3.1 的三年夜革新

模子高低文

为何道128K少下文并非革新重心？

因为正在V3/R1的版原里已经具备撑持128K高低文少度的下层才气，但是不竭此后，用户端心和民间API交心限定了64K的少度，很年夜可以是出于本钱战颠簸性思考。

DeepSeek-V3.1革新面前 ,您需要明白那3个「本相」w2.jpg

DeepSeek V3手艺文档
此次的‘翻倍’，能够理解为资本层里的劣化，主要有二个层里启事：

模子版原号

对于版原号的变革，也走漏了一点儿细节疑息。根据老例，DeepSeek凡是用日期后缀，代表正在本有根底模子上的小幅劣化，如DeepSeekV3-0528。

而此次的版原号是V3.1，颇有可以表示着，其下层的根底模子也截至了革新。也即是道那咱们现在瞅到的，是一个从头锻炼过的新模子。
模子手艺门路

假设道V3.1换了内乱核。这那个新内乱核，新正在哪？

那便引出了最中心的话题，也是目前年夜模子范围的根究标的目的之一：混淆拉理模子。

简朴来讲，是把「快思考-Chat」战「缓思考-Reasoner」塞退统一个年夜脑里，按照用户输出成就，去主动决定正在几算力、几 tokens 上“使劲”。

因为正在对于话模子大概道模子的Chat情势下，寻求的是下服从、下情商战语言上的“开理性”。它的答复要快、要天然、要像人，哪怕幻想没有完整精确，也要包管对于话的流畅性。

而拉理模子寻求的则是逻辑的松散性、步调的可合成性战成果的“准确性”。它需要缓思考、挪用东西、组成思惟链（Chain of Thought），历程比成果更主要。

那个观点的提出，是为了处置统统年夜模子皆面对的二个底子冲突：

为了完毕那个目标，止业巨子们已经开端了各类测验考试，但是走患上其实不顺遂。

起首是OpenAI 的 GPT-5，它是混淆拉理门路最典范的代表，按照其手艺通告，它有一个担当快思考的主模子Chat 模子，一个担当缓思考的Reasoning 模子，中心再减一个“路由器”去分派任务。

DeepSeek-V3.1革新面前 ,您需要明白那3个「本相」w3.jpg

路由器动作全部体系的“总批示”或者“调理员”，及时阐发用户的每个输出（Prompt），鉴别其企图战庞大性，而后决定该当将那个任务接给“主模子”去快速处置，仍是接给“思考模子”去截至深度减工。

但是即是那个路由器，正在8月初刚刚上线时翻了车，因为它鉴别禁绝，把困难分给“快年夜脑”，招致GPT-5瞅起去变愚了。

最初，OpenAI不能不把挑选“快缓情势”的权益借给用户，才停歇了争议。

独一无二。Qwen3 正在刚刚公布时，也测验考试过融合拉理，它将二种才气间接融合正在一个模子里，但是很快，正在后绝的革新中又把它们从头分隔成 Instruct 战 thinking二个情势。

前边二个顶级玩野的例子，便分析了“融合”那条路的易度有多年夜，大要是患上出了混淆模子结果更好的论断。

这类门路最年夜的挑战正在于，劣化模子有几标识表记标帜被糜掷正在拉理情势，和怎样界说过分拉理。

咱们再返来瞅DeepSeek V3.1，它的挑选便隐患上非分特别斗胆了。

凭证是甚么呢？很简朴。您现在来问新版原，哪怕启开了深度思考情势，它也只观点自己是V3。而旧的拉理模子，是能分明认知到自己“R1”身份的。

DeepSeek-V3.1革新面前 ,您需要明白那3个「本相」w4.jpg

并且比照新旧二个版原，尽管翻开了深度思考情势，DeepSeek正在答复一点儿根底简朴成就，也能很快给出谜底，而非纠结半天。

那些线索皆指背 V3.1，很可以那对于快缓思考二种情势截至了融合劣化。它试图将对于话战拉理那二个形状，真实天分离正在共同，鉴于用户企图按需挪用。

关于布置来讲，从前需要保护二个模子，现在只要供一套体系，节流许多布置运维的肉体，服从年夜幅提拔。

但是假设走模子融合的门路，大概等没有到R2，只需一个更遥远的V4了。
V3.1的部分功用

对于V3.1的理论功用，毕竟是欣喜仍是失望？

坦白道，从许多用户的反应战尔自己的体会去瞅，成果是……喜忧各半，以至失望的声音占了没有小的比率。

起首，让人失望之处很清楚：老生常谈的幻觉成就仍然存留。别的，它的通用才气仿佛也不清楚提拔。

但是答复气势派头变患上更精辟、更有洞悉力。语言气势派头也更像一个真实的人类帮忙，而没有是一个话痨。这类对于语义更精确的理解战表示，正在某些场景下，体会是更佳的。

要道V3.1真实的改良，主要仍是体现在算力服从层里。

方才提到的布置事情上，从从前的根底情势+拉理模子简化成为了一个根底模子，运维本钱低落了。

其次，也是最枢纽的一面，它的Token使用质，颠末知乎网友真测，比旧版降落了约莫13%。正在一寡寻求‘简明扼要’的国产模子里，那绝对是一股‘浑流’。

因为高低文增加、输出削减，那个“一删一加”关于需要精确掌握本钱战过程的Agent类使用来讲，该当是个佳消息。

但是那些下层的劣化，仿佛借出能完整说服一线的用户。

今朝手艺社群里的遍及声音是：怀复古版原，可是可惜，民间的API已经没有撑持旧版原了。

而这类“回没有来”的觉得，恰好引出了咱们最初一个，也是最值患上会商的话题：DeepSeek这远乎偏偏执的手艺计谋。
研收迭代＞贸易使用

有保守的概念觉得：现阶段的DeepSeek，大概底子没有念将资本加入到效劳庞大B端客户身上。

因为它的API端心只供给了最新的模子，而旧版原则会毫无征象天间接下线。

比照年夜大都模子公司的API 仄台，最少会保存一年以上的旧模子保护取撑持。那可以恰是DeepSeek的保守的地方。

关于思考将消耗营业交进DeepSeek的公司来讲，固然是没法承受的。相称于，您花多少个月调试佳的事情流，可以因为下流模子厂商的一次自愿革新，一晚上之间可以全面瓦解。

现在正在HuggingFace战HackerNews上，已经有很多对于那圆里的咽槽了。

那面前大要是DeepSeek正在计谋主次上做出的弃取，以贸易使用的颠簸性为价格，调换自己极致的研收迭代速率。

换句话道，现阶段，DeepSeek的中心目标没有是API收入，而是把统统用户皆看成一个宏大的数据源战尝试收集，用最快速度、最高本钱，去豢养战迭代它的根底模子。

所有会拖缓那个足步的工具，好比保护旧版原的手艺战算力加入，城市被绝不犹豫天砍失落。

而这类作法的底气鼓鼓，大要是源于一种远乎偏偏执的自大。

“尔的下一个版原，必然会佳到让您脚以忘记旧的”。

那无信是一场下危急的赌注，赌的即是自己的手艺进步速率，可否永久逾越用户的适应本钱。

这类把“手艺迭代”置于“贸易颠簸”之上的气势派头，也恰是那野公司最使人沉迷，也最使人担心之处。

「拟开论睹」

取思考者为伍，只给您颠末审阅的实质
参照质料

[1]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

[2]https://www.zhihu.com/question/1941218073152587548

越消费越富有？陕西永倍达疑涉传销被多地发

DeepSeek-V3.1更新背后,你需求知道这3个「真相」

DeepSeek V3.1发布,DeepSeek也要做混合推理

关于我们

产品与服务

全网营销

加盟与合作