职贝云数AI新零售门户

标题: DeepSeek V3.1 测评 [打印本页]

作者: ty19    时间: 2025-8-20 00:01
标题: DeepSeek V3.1 测评
短的结论:减量不减质

基本状况:

DeepSeek更新模型向来以慎重著称,不够爆炸的更新统统算“小更新”,而这次官方居然连“小更新”都没提,只说了添加上下文到128K(之前64K)。可以预见在功能方面恐怕没有太多惊喜。

实测上去有一个好音讯和一个坏音讯,好音讯是V3.1的Token运用量比0324版下降了约13%,这在一众国产基础模型的输入长度竞赛中是一股“逆流”。坏音讯是综合推理功能的确没有变化。但思索到上下文提升,一增一减,在Agent类运用中能够效果会有提升。

逻辑成绩:

*表格为了突出对比关系,仅展现部分可对照模型,不是残缺排序。

**标题及测试方式,参见:大言语模型-逻辑才能横评 25-07月榜

***残缺榜单更新在Github(https://github.com/malody2014/llm_benchmark)

***这次测试基于8月标题,曾经添加#45、#46、#47题,所以一切模型的分数相比7月有变动。

下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。

改进:


不足:


赛博史官曰:

人们对DeepSeek的关注热情分明的超过其他国内任何一家大模型团队,以致于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的宏大责任,但这显然不不实在践的,技术发展有其必然规律。

从V3.1的变化中,我们能一窥DeepSeek团队的思索逻辑,揣测他们本人发现了什么成绩,停止了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5