DeepSeek上线两天后再回看:一次“小更新”,一场架构“豪赌”

o9WJWZs · 发表于 2025-8-22 09:04:14

文｜专阴

编纂｜可君

8月19日早间，DeepSeek民间悄悄上线了崭新的V3.1版原。

民间通告夸大了高低文少度拓展至128k，但是跟着社区的深入开掘战真测，此次“小革新”之下实在有着更多模子架构的变化战模子重心才气的微调，正在编程才气上的提拔也可圈可面，本钱劣势沉回清楚。

可是，模子融合的手艺门路也激发剧烈争辩，部门用户反应旧版模子的“恶疾”复现，对于此次革新的评介显现出南北极崩溃的态势。

公布二天后，DeepSeek民间正在公家号上公布了相干消息。

此时，邪适宜咱们回瞅V3.1，更详尽天装解此次“小革新”。

架构之变：V3.1吞失落R1，减少布置庞大度

固然DeepSeek民间正在革新报告中将“高低文少度拓展至128k”动作中心明面，但是此前的V3版原早已经撑持128K高低文，不过民间API交心此前仅盛开至64K。

因而，此次革新的真实中心并不是高低文少度，而是模子下层的架构演退。

按照民间最新公布的公家号实质，确认了V3.1为混淆拉理架构，即使用一个模子共时撑持思考情势取非思考情势。

今朝正在DeepSeek的民间网页战APP上，即使用户启开“深度思考”情势，模子的标记也已经从已往的“R1”变成了分歧的“V3”。

用户颠末API挪用拉理模子时，模子也大白“见告”自己是V3模子。

不外那里战GPT-5主动路由差别，可否翻开思考情势，仍然是用户掌握，而非颠末主动的模子路由鉴别。

正在过从的经历中，这类混淆模子可以会招致非拉理任务，如创意写做战情商表示等才气的降落。不外，按照社区内乱用户阐发，这类混淆能够简化布置战运维，进步算力使用服从。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w2.jpg

才气劣化：编程再提拔，本钱再降落

除架构改动中，V3.1被起首留神到的是编程才气的年夜幅提拔。

按照社区普遍引用的Aider编程基准尝试数据显现，DeepSeek V3.1得到了71.6%的下分，正在启源模子中胜利“霸榜”。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w3.jpg

那一成就不但逾越了此前的DeepSeek R1，以至打败了强大的关源模子Claude 4 Opus。

正在其余声威基准尝试中，V3.1异常表示超卓。

不外，正在钻研死级别问问（GPQA）战硬件工程（SWE-Bench verified）等范围，V3.1取GPT-5比拟仍存留必然差异。

正在V3.1备受瞩目的编程才气真战中，其表示可圈可面但是并不是完善。

正在新智元天生一个“乌客帝国气势派头”的three.js静态天下的任务里，V3.1胜利满意了根本的功用请求，但是关于绘里气势派头战色彩变更等细节的完毕不敷精确，终极结果被测评者评为“80分”。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w5.jpg

乌客帝国气势派头静态天下

正在DeepSeek的保守刚强——本钱效率上，V3.1的退步也很是可不雅。

正在社区用户的尝试下，完毕异常一次残破的编程任务，V3.1的本钱仅需约1.01美圆，近高于Claude 4 Opus（自制68倍）。从拉特网友收拾整顿的各支流模子性价近来瞅，DeepSeek V3的性价比数一数二。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w6.jpg

那里的数值越高越佳

按照DeepSeek民间颁布发表的最新V3.1价钱表，其输出价钱为，0.5元/百万 tokens （慢存掷中），4元 /百万 tokens （慢存已掷中）。输出价钱为12元 /百万 tokens ，该价钱于2025 年 9月6日 00：00 起生效。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w7.jpg

按照民间注释，本钱降落主要去自于思惟链收缩锻炼。颠末削减故意义的思惟链输出，V3.1-Think正在输出token数削减20%-50%的情况下，各项任务的均匀表示取R1-0528持仄。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w8.jpg

那一手艺改良不但戴去本钱的降落，也让天生速率清楚提拔。社区用户的第一影像皆是V3.1比R1速率快了许多。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w9.jpg

最年夜的升级：智能体才气跃迁

正在头几天会商中，DeepSeek V3.1的Agent才气的清楚增强并无获得太年夜留神。

因为那一才气是下层的搜刮战东西挪用才气的提拔，从内部瞅咱们只可瞅到具体才气，如编程等才气的提拔。

正在8月21日邪式的公布中，DeepSeek民间特地夸大了那一面。颠末特地的Post-Training（后锻炼）劣化，新模子正在东西使用取智能体任务中有弘大提拔。

这次升级正在庞大的硬件工程战末端掌握任务上表示患上尤其凸起，险些完毕了逾越式的进步。

正在权衡实在天下代码建设才气的SWE-bench Verified基准上，V3.1得到了66.0分，近超前代V3-0324的45.4分战R1-0528的44.6分。而正在更具挑战性的Terminal-Bench（末端操纵）尝试中，V3.1的患上分（31.3）更是到达了前代拉理模子R1-0528（5.7）的五倍以上，展示了强大的主动化操纵后劲。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w10.jpg

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w10.jpg

除正在专科范围的突破，V3.1正在通用的网页浏览战东西挪用才气上也得到了全面增强。正在权衡网页自立导航取疑息获得才气的Browsecomp尝试中，其患上分从R1-0528的8.9分飙降至30.0分，提拔超越三倍。

共时，正在模仿多种东西使用的Seal0基准上，V3.1的患上分也从29.7年夜幅提拔至42.6。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w11.jpg

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w11.jpg

即使战今朝开始退的模子比照，DeepSeek V3.1的Agent才气也没有勇场。

好比SWE-bench Verified那一尝试中，Anthropic的最新模子Claude Opus 4.1 正在此基准上更是到达了74.5%的先辈水平。而DeepSeek V3.1最新患上分为66.0%，下于排名第三的GLM 4.5。

而正在Terminal-Bench中，Claude 4 Opus以43.2%的患上分正在该名目上表示最好。GLM-4.5（37.5%）战Claude 4 Sonnet（35.5%）松随厥后。DeepSeek V3.1的31.3分超越了GPT-4.1（30.3%）战Gemini 2.5 Pro（25.3%）。

正在统统根底模子皆重视的Agent才气的布景下，DeepSeek的此次升级逃上了时期，也抹失落了短板。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w12.jpg

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w12.jpg

V3.1的隐忧：兼并模子，是一场豪赌

固然V3.1正在编程战智能体范围得到了突破，但是其中心的“模子融合”战略却正在社区激发了弘大争议。

阿里的Qwen模子正在测验考试过融合拉理后，终极正在新版原中仍是分隔公布了Instruct战Thinking二种别离的模子。

而GPT-5的“一体化体系”也则是使用一个智能路由（Router）去调理差别的中心组件，而非间接将模子保守天融合。

那是因为正在上一代模子中，许多根底模子的“出厂树立”是一个思考模子，其非思考版原只是是封闭了体系给模子树立的思考估算。

但是思考模子的锻炼，特别是正在加强进修（RL）微调阶段，存留一个固有的、易以躲避的衡量成就。

为了让模子善于逻辑、数教战代码等需要松散拉理的任务，加强进修的嘉奖（Reward）会下度偏向于这些能够展示明了、准确、分步式解题历程的输出。

这类对于“历程准确性”的极致劣化，会深入地改动模子的下层举动情势。

模子正在处置这些没有需要紧密逻辑、更需要缔造力、同情才气或者知识性理解的通用任务时，可以会隐患上“不服水土”。

很多用户反应，V3.1版原从头呈现了幻觉严峻（如正在年报归纳成就上枢纽疑息局部堕落）战中英搀杂的成就，后者正在旧版中险些没有存留。

别的，模子正在面临庞大成就时表示出“能省则省”的偏向，正在屡次测验考试无因后会主动“抛却”，而没有是持续深度拉理，那大概是民间为劣化Token使用而干出的衡量。

那些短处皆可以是混淆模子戴去的。

更令贸易API用户怨恨的是DeepSeek保守的革新战略。DeepSeek偏向于用新模子间接笼盖旧模子，且没有供给所有旧版原的API。

这类作法表示着，线上消耗营业的API可以正在毫无预警的情况下被变动，招致下流事情流瓦解，严峻作用了贸易使用的颠簸性。今朝正在Hugging Face社区，已经有API用户对于此表示了剧烈怨恨，请求进款并期望能持续使用颠簸的0324版原。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w13.jpg