开启左侧

DeepSeek V3.1 测评

[复制链接]
在线会员 ty19 发表于 2025-8-20 00:01:49 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
短的论断:加质没有加量

根本情况:

DeepSeek革新模子历来以稳重知名,不敷爆炸的革新通通算“小革新”,而此次民间竟然连“小革新”皆出提,只道了增加高低文到128K(以前64K)。能够预感正在功用圆里生怕不太多欣喜。

真测下来有一个佳消息战一个坏消息,佳消息是V3.1的Token使用质比0324版降落了约13%,那正在一寡国产根底模子的输出少度比赛中是一股“顺流”。坏消息是分析拉理功用确实不变革。但是思考到高低文提拔,一删一加,正在Agent类使用中可以结果会有提拔。

逻辑成就:

*表格为了凸起比照干系,仅展示部门可比较模子,没有是残破排序。

**题目及尝试方法,拜见:狂言语模子-逻辑才气横评 25-07月榜

奸淫残破榜单革新正在Github(https://github.com/malody2014/llm_benchmark)

奸淫此次尝试鉴于8月题目,已经增加#4五、#4六、#47题,以是统统模子的分数比拟7月有变更。

上面便V3.1取前一个迭代0324(如下称旧版)干比照阐发。

改良:

    少度掌握:前面已经表述过,V3.1正在Token使用上有较年夜改良。别的,旧版存留小几率逝世轮回输出,和正在一点儿庞大成就上没有受控的重复验算。而V3.1中久已发明此类成就。即使庞大成就,V3.1也会观点到自己解没有进去后挑选抛却,没有会无脑拉理上来。

    字符才气:正在典范的字符才气查询拜访上,V3.1有可观察的改良,如#9单词汇缩写,#11岛屿里积,#37三维投影,#46字母拉拢等题目,V3.1部分患上分,颠簸性均没有高于旧版。不外字符才气的改良并无反应正在编程才气上,从粗选的多量编程题尝试去瞅,V3.1的变革没有清楚。


不敷:

    幻觉严峻:幻觉是V3和R1的恶疾,V3.1正在那圆里天然瞅没有到改进迹象,好比#42年报归纳成就,V3.1正在统统枢纽疑息戴录上齐错,以至没有如旧版。正在拉理历程会发生大批中心数据/疑息的题目上,如#4魔圆扭转,#40代码拉导,异常表示没有如旧版。

    能省则省:V3.1正在许多成就上有较年夜的“躲懒”偏向,好比#24数字纪律,正在拉导十几回,输出3000多Token时颁布发表抛却,“因为时间干系,尔间接给出罕见谜底”。#29数教标记沉界说,也是正在长久拉理后抛却。#39水车票成就因为prompt请求不克不及写法式,V3.1更是直言不讳,以为太省事,没有会干,告别。类似Case另有许多。大概是DeepSeek为了劣化Token时候干的弃取。

    中英搀杂:搀杂成就正在旧版是没有存留的,以至用英文提问,也会复兴华文。而正在V3.1里,中英搀杂却到处看来,特别拉理到必然少度后,大要率会开端切换到英文截至思考。而且V3.1的搀杂成就比其余存留类似成就的国产模子要略微严峻一点儿,他会正在单词汇的粒度上来回换语言,那给浏览输出实质构成了极年夜的滋扰。


赛专史民曰:

人们对于DeepSeek的存眷热忱清楚的超越其余海内所有一野年夜模子团队,致使于要让DeepSeek违起挨爆OpenAI+Google+Anthropic+Grok的弘大义务,但是那明显没有没有其实践的,手艺开展有其一定纪律。

从V3.1的变革中,咱们能一窥DeepSeek团队的思考逻辑,测度他们自己发明了甚么成就,截至了何种测验考试,和如许的测验考试戴去了如何的成果战经验。如许的历程大概是所有一个对准AGI的年夜模子团队绕不外来的。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )