开启左侧

DeepSeek上线两天后再回看:一次“小更新”,一场架构“豪赌”

[复制链接]
在线会员 o9WJWZs 发表于 2025-8-22 09:04:14 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
文|专阴

编纂|可君

8月19日早间,DeepSeek民间悄悄上线了崭新的V3.1版原。

民间通告夸大了高低文少度拓展至128k,但是跟着社区的深入开掘战真测,此次“小革新”之下实在有着更多模子架构的变化战模子重心才气的微调,正在编程才气上的提拔也可圈可面,本钱劣势沉回清楚。

可是,模子融合的手艺门路也激发剧烈争辩,部门用户反应旧版模子的“恶疾”复现,对于此次革新的评介显现出南北极崩溃的态势。

公布二天后,DeepSeek民间正在公家号上公布了相干消息。

此时,邪适宜咱们回瞅V3.1,更详尽天装解此次“小革新”。

架构之变:V3.1吞失落R1,减少布置庞大度

固然DeepSeek民间正在革新报告中将“高低文少度拓展至128k”动作中心明面,但是此前的V3版原早已经撑持128K高低文,不过民间API交心此前仅盛开至64K。

因而,此次革新的真实中心并不是高低文少度,而是模子下层的架构演退。

按照民间最新公布的公家号实质,确认了V3.1为混淆拉理架构,即使用一个模子共时撑持思考情势取非思考情势。

今朝正在DeepSeek的民间网页战APP上,即使用户启开“深度思考”情势,模子的标记也已经从已往的“R1”变成了分歧的“V3”。

用户颠末API挪用拉理模子时,模子也大白“见告”自己是V3模子。

不外那里战GPT-5主动路由差别,可否翻开思考情势,仍然是用户掌握,而非颠末主动的模子路由鉴别。

正在过从的经历中,这类混淆模子可以会招致非拉理任务,如创意写做战情商表示等才气的降落。不外,按照社区内乱用户阐发,这类混淆能够简化布置战运维,进步算力使用服从。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w2.jpg

才气劣化:编程再提拔,本钱再降落

除架构改动中,V3.1被起首留神到的是编程才气的年夜幅提拔。

按照社区普遍引用的Aider编程基准尝试数据显现,DeepSeek V3.1得到了71.6%的下分,正在启源模子中胜利“霸榜”。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w3.jpg

那一成就不但逾越了此前的DeepSeek R1,以至打败了强大的关源模子Claude 4 Opus。

正在其余声威基准尝试中,V3.1异常表示超卓。

    SVGBench:气力仅次于GPT-4.1-mini,近超前代DeepSeek R1。

    DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w4.jpg

    MMLU:正在多任务语言理解圆里,V3.1的表示绝不减色于GPT-5,患上分到达88.5%。

不外,正在钻研死级别问问(GPQA)战硬件工程(SWE-Bench verified)等范围,V3.1取GPT-5比拟仍存留必然差异。

正在V3.1备受瞩目的编程才气真战中,其表示可圈可面但是并不是完善。

正在新智元天生一个“乌客帝国气势派头”的three.js静态天下的任务里,V3.1胜利满意了根本的功用请求,但是关于绘里气势派头战色彩变更等细节的完毕不敷精确,终极结果被测评者评为“80分”。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w5.jpg

乌客帝国气势派头静态天下

正在DeepSeek的保守刚强——本钱效率上,V3.1的退步也很是可不雅。

正在社区用户的尝试下,完毕异常一次残破的编程任务,V3.1的本钱仅需约1.01美圆,近高于Claude 4 Opus(自制68倍)。从拉特网友收拾整顿的各支流模子性价近来瞅,DeepSeek V3的性价比数一数二。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w6.jpg

那里的数值越高越佳

按照DeepSeek民间颁布发表的最新V3.1价钱表,其输出价钱为,0.5元/百万 tokens (慢存掷中) ,4元 /百万 tokens (慢存已掷中) 。输出价钱为12元 /百万 tokens ,该价钱于2025 年 9月6日 00:00 起生效。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w7.jpg

按照民间注释,本钱降落主要去自于思惟链收缩锻炼。颠末削减故意义的思惟链输出,V3.1-Think正在输出token数削减20%-50%的情况下,各项任务的均匀表示取R1-0528持仄。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w8.jpg

那一手艺改良不但戴去本钱的降落,也让天生速率清楚提拔。社区用户的第一影像皆是V3.1比R1速率快了许多。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w9.jpg

最年夜的升级:智能体才气跃迁

正在头几天会商中,DeepSeek V3.1的Agent才气的清楚增强并无获得太年夜留神。

因为那一才气是下层的搜刮战东西挪用才气的提拔,从内部瞅咱们只可瞅到具体才气,如编程等才气的提拔。

正在8月21日邪式的公布中,DeepSeek民间特地夸大了那一面。颠末特地的Post-Training(后锻炼)劣化,新模子正在东西使用取智能体任务中有弘大提拔。

这次升级正在庞大的硬件工程战末端掌握任务上表示患上尤其凸起,险些完毕了逾越式的进步。

正在权衡实在天下代码建设才气的SWE-bench Verified基准上,V3.1得到了66.0分,近超前代V3-0324的45.4分战R1-0528的44.6分。而正在更具挑战性的Terminal-Bench(末端操纵)尝试中,V3.1的患上分(31.3)更是到达了前代拉理模子R1-0528(5.7)的五倍以上,展示了强大的主动化操纵后劲。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w10.jpg

除正在专科范围的突破,V3.1正在通用的网页浏览战东西挪用才气上也得到了全面增强。正在权衡网页自立导航取疑息获得才气的Browsecomp尝试中,其患上分从R1-0528的8.9分飙降至30.0分,提拔超越三倍。

共时,正在模仿多种东西使用的Seal0基准上,V3.1的患上分也从29.7年夜幅提拔至42.6。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w11.jpg

即使战今朝开始退的模子比照,DeepSeek V3.1的Agent才气也没有勇场。

好比SWE-bench Verified那一尝试中,Anthropic的最新模子Claude Opus 4.1 正在此基准上更是到达了74.5%的先辈水平。而DeepSeek V3.1最新患上分为66.0%,下于排名第三的GLM 4.5。

而正在Terminal-Bench中,Claude 4 Opus以43.2%的患上分正在该名目上表示最好。GLM-4.5(37.5%)战Claude 4 Sonnet(35.5%)松随厥后。DeepSeek V3.1的31.3分超越了GPT-4.1(30.3%)战Gemini 2.5 Pro(25.3%)。

正在统统根底模子皆重视的Agent才气的布景下,DeepSeek的此次升级逃上了时期,也抹失落了短板。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w12.jpg

V3.1的隐忧:兼并模子,是一场豪赌

固然V3.1正在编程战智能体范围得到了突破,但是其中心的“模子融合”战略却正在社区激发了弘大争议。

阿里的Qwen模子正在测验考试过融合拉理后,终极正在新版原中仍是分隔公布了Instruct战Thinking二种别离的模子。

而GPT-5的“一体化体系”也则是使用一个智能路由(Router)去调理差别的中心组件,而非间接将模子保守天融合。

那是因为正在上一代模子中,许多根底模子的“出厂树立”是一个思考模子,其非思考版原只是是封闭了体系给模子树立的思考估算。

但是思考模子的锻炼,特别是正在加强进修(RL)微调阶段,存留一个固有的、易以躲避的衡量成就。

为了让模子善于逻辑、数教战代码等需要松散拉理的任务,加强进修的嘉奖(Reward)会下度偏向于这些能够展示明了、准确、分步式解题历程的输出。

这类对于“历程准确性”的极致劣化,会深入地改动模子的下层举动情势。

模子正在处置这些没有需要紧密逻辑、更需要缔造力、同情才气或者知识性理解的通用任务时,可以会隐患上“不服水土”。

很多用户反应,V3.1版原从头呈现了幻觉严峻(如正在年报归纳成就上枢纽疑息局部堕落)战中英搀杂的成就,后者正在旧版中险些没有存留。

别的,模子正在面临庞大成就时表示出“能省则省”的偏向,正在屡次测验考试无因后会主动“抛却”,而没有是持续深度拉理,那大概是民间为劣化Token使用而干出的衡量。

那些短处皆可以是混淆模子戴去的。

更令贸易API用户怨恨的是DeepSeek保守的革新战略。DeepSeek偏向于用新模子间接笼盖旧模子,且没有供给所有旧版原的API。

这类作法表示着,线上消耗营业的API可以正在毫无预警的情况下被变动,招致下流事情流瓦解,严峻作用了贸易使用的颠簸性。今朝正在Hugging Face社区,已经有API用户对于此表示了剧烈怨恨,请求进款并期望能持续使用颠簸的0324版原。

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w13.jpg

GPT-5保守 革新的前车可鉴,可见 DeepSeek 并已引觉得戒。

(原文作家微疑 haoboyang001,欢送交换及供给线索)

DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w14.jpg
AI能质站聚集AI使用实践的根底科普取学程,笼盖环球热门公司、顶尖科学野、钻研员和商场机构输出的野生智能的根底实践、手艺钻研、代价对于齐实践战财产开展陈述,和环球的AI羁系策略。辅佐AI小利剑初学,替退阶选脚追踪最新的AI常识。


举荐浏览
DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w15.jpg
斯坦祸最新钻研:硅谷AI守业潮,是一场庞大的资本错配
DeepSeek上线二天后再回瞅:一次“小革新”,一场架构“豪赌”w16.jpg
奥特曼AI Ascent关门会最新博访:2025,AI智能体邪加快退场

2025,华夏芯片“第一战”挨响
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )