职贝云数AI新零售门户
标题:
DeepSeek V3.1 测评
[打印本页]
作者:
ty19
时间:
2025-8-20 00:01
标题:
DeepSeek V3.1 测评
短的结论:减量不减质
基本状况:
DeepSeek更新模型向来以慎重著称,不够爆炸的更新统统算“小更新”,而这次官方居然连“小更新”都没提,只说了添加上下文到128K(之前64K)。可以预见在功能方面恐怕没有太多惊喜。
实测上去有一个好音讯和一个坏音讯,好音讯是V3.1的Token运用量比0324版下降了约13%,这在一众国产基础模型的输入长度竞赛中是一股“逆流”。坏音讯是综合推理功能的确没有变化。但思索到上下文提升,一增一减,在Agent类运用中能够效果会有提升。
逻辑成绩:
*表格为了突出对比关系,仅展现部分可对照模型,不是残缺排序。
**标题及测试方式,参见:大言语模型-逻辑才能横评 25-07月榜
***残缺榜单更新在Github(https://github.com/malody2014/llm_benchmark)
***这次测试基于8月标题,曾经添加#45、#46、#47题,所以一切模型的分数相比7月有变动。
下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。
改进:
长度控制:后面曾经表述过,V3.1在Token运用上有较大改进。此外,旧版存在小概率死循环输入,以及在一些复杂成绩上不受控的反复验算。而V3.1中暂未发现此类成绩。即便复杂成绩,V3.1也会看法到本人解不出来后选择放弃,不会无脑推理下去。
字符才能:在典型的字符才能调查上,V3.1有可观测的改进,如#9单词缩写,#11岛屿面积,#37三维投影,#46字母组合等标题,V3.1全体得分,波动性均不低于旧版。不过字符才能的改进并没有反映在编程才能上,从精选的大批编程题测试来看,V3.1的变化不分明。
不足:
幻觉严重:幻觉是V3以及R1的顽疾,V3.1在这方面自然看不到改善迹象,比如#42年报总结成绩,V3.1在一切关键信息摘录上全错,甚至不如旧版。在推理过程会产生大量中间数据/信息的标题上,如#4魔方旋转,#40代码推导,异样表现不如旧版。
能省则省:V3.1在很多成绩上有较大的“偷懒”倾向,比如#24数字规律,在推导十几次,输入3000多Token时宣布放弃,“由于工夫关系,我直接给出常见答案”。#29数学符号重定义,也是在短暂推理后放弃。#39火车票成绩由于prompt要求不能写程序,V3.1更是直抒己见,觉得太费事,不会做,告辞。相似Case还有很多。或许是DeepSeek为了优化Token时分做的取舍。
中英夹杂:夹杂成绩在旧版是不存在的,甚至用英文发问,也会回复中文。而在V3.1里,中英夹杂却随处可见,尤其推理到一定长度后,大概率会末尾切换到英文停止思索。并且V3.1的夹杂成绩比其他存在相似成绩的国产模型要稍微严重一些,他会在单词的粒度下去回换言语,这给阅读输入内容形成了极大的干扰。
赛博史官曰:
人们对DeepSeek的关注热情分明的超过其他国内任何一家大模型团队,以致于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的宏大责任,但这显然不不实在践的,技术发展有其必然规律。
从V3.1的变化中,我们能一窥DeepSeek团队的思索逻辑,揣测他们本人发现了什么成绩,停止了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5