职贝云数AI新零售门户
标题:
实测DeepSeek V3.1:不止拓展上下文长度
[打印本页]
作者:
rC9s7r2
时间:
2025-8-22 09:21
标题:
实测DeepSeek V3.1:不止拓展上下文长度
作者 | 量子位
原文链接:https://mp.weixin.qq.com/s/x0X481MgH_8ujjB0_XL4SQ
点击下方卡片,关注“大模型之心Tech”公众号
戳我-> 支付大模型巨卷干货
>>点击进入→大模型没那么大Tech技术交流群
本文只做学术分享,如有侵权,联络删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
DeepSeek V3.1和V3相比,到底有什么不同?
官方说的模模糊糊,就提到了上下文长度拓展至128K和支持多种张量格式,但别急,我们曾经上手实测,为你奉上更多新颖信息。
我们比较了V3.1和V3,留意到它在编程表现、创意写作、翻译程度、回答语气等方面都出现了不同程度的变化。
不过要说最分明的更新,大概是DeepSeek网页端界面的【深度思索(R1)】悄然变成了【深度思索】。
手机端还在渐渐对齐(笑)
(, 下载次数: 2)
上传
点击文件名下载附件
当前DeepSeek V3.1 Base可在抱抱脸上下载,也可经过网页、APP和小程序运用残缺版本。
开学考试如今末尾
鉴于如今网页端已全部交换成了V3.1,我们经过阿里云调用了DeepSeek V3的API(最大上下文长度还是65K)作为对比。
(, 下载次数: 1)
上传
点击文件名下载附件
马上就是开学季,我们给二个版本的模型出了一套“试卷”,从以下五个“学科”停止测试:
计算机:编程才能语文:情境写作数学:了解运用外语:翻译程度拓展:冷门知识
让我们一同看看它们表现如何~
(, 下载次数: 1)
上传
点击文件名下载附件
编程才能
在更新前,我曾向DeepSeek V3问过这样的成绩:
帮我用python写一段代码,把输入的gif图紧缩到10M以下。
它的回答如下(图片可上下滑动)。
(, 下载次数: 1)
上传
点击文件名下载附件
更新后,问V3.1异样的成绩,则得到了这样的结果:
(, 下载次数: 1)
上传
点击文件名下载附件
很直观地就能感遭到,相比起V3,V3.1要愈加片面,思索到了更多的能够性(比如运用更激进的紧缩策略,以及检查原文件能否是GIF格式)。
还“手把手”地给出了这段代码的运用阐明,需求提早安装必要的依赖库,怎样运用命令行……甚至还有工作原理。
没有优化建议,大概是由于它觉得曾经足够了吧(?)
拿之前在世界机器人大会上拍摄的众擎机器人作为示例,原文件大小为18.3MB,用V3给出的代码,紧缩后依然大于10MB,假如要满足条件的话还需求再紧缩一次。
(, 下载次数: 2)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
而V3.1给出的结果则直接“一步到位”(代码针对Jupyter环境停止了一点小调整,逻辑不变),并输入了处理步骤:
(, 下载次数: 2)
上传
点击文件名下载附件
最后的两张GIF图如下(上为V3,下为V3.1):
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
可以看到上图的速度比下图要快一些。
情境写作
我们选择了往年上海卷高考作文的标题:
有学者用“专”“转”“传”概括当下三类文章:“专”指专业文章;“转”指被转发的粗浅文章;“传”指获得广泛传播的佳作,甚至是传世文章。他提出,专业文章可以变成被转发的粗浅文章,而面对大量“转”文,读者又不免等待可传世的文章。由“专”到“传”,必定要经过“转”吗?请联络社会生活,写一篇文章,谈谈你的看法与思索。要求:(1)自拟标题;(2)不少于800字。
输入结果如下,可左右滑动对比,左边为V3,左边为V3.1:
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
两个版本在文字风格上具有很大的不同,从V3感性(人机味)的平铺直叙,到V3.1文艺(心情化)的诗意表达,看起来像文科生和文科生的区别。
假如你是主考官,会更喜欢哪一篇呢?
了解运用
考验模型的数学才能,光问“9.11和9.8哪个大”这种对于实践用户没什么协助的标题还是有点不够看。
高考数学题按理来讲应该是能做对的吧?
以下是往年数学全国一卷的第3题,考的是双曲线。
若双曲线C的虚轴长为实轴长的√7倍,则C的离心率为?
答案是2√2,两个版本的模型都得到了正确结果,但在呈现上有所不同。
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
翻译程度
我们向V3和V3.1输入了同一篇生物学论文的摘要(含专有名词),并要求它们将其翻译成中文。
摘要选自Nature最新研讨:《独特毛颚动物体型的基因组来源》。
两个版本模型的输入结果如下:
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
可以看出,相比起V3喜欢用括号来补充阐明,V3.1对长难句的了解程度更高;但V3.1出现了没有翻译出several这种简单词的状况。
冷门知识
结合同事的专业和最近在小红书上刷到的内容,我们问了一个比较“偏门”的成绩:
构树的单个果实(不是由花序组成的聚花果)是核果还是瘦果?
这个成绩的答案在不同教材上存在分歧,V3和V3.1分别给出了以下回答,均以为其属于核果:
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
神奇的是V3.1依然存在运用conclusion替代“结论”这样的表述,以及对于“为什么会想到瘦果”这个成绩的回答偏题到该果实属于聚花果的方向了。
特地一提,小红书的博主经过解剖实验,以为其属于瘦果。
(, 下载次数: 2)
上传
点击文件名下载附件
对这个结论感兴味的冤家可以去小红书上搜索一下。
非推理模型SOTA
网友们对这次更新颇为关怀,即便还未发布模型卡,就在抱抱脸上成为了第四的抢手话题。
(, 下载次数: 1)
上传
点击文件名下载附件
截至发稿已荣登第二。
(, 下载次数: 2)
上传
点击文件名下载附件
网友们也在运用后得到了一些风趣的发现。
Reddit就有人测试,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。
(, 下载次数: 1)
上传
点击文件名下载附件
这是什么概念——有网友解释到,这意味着它比Claude Opus 4得分多1%,但价格便宜68倍。
(, 下载次数: 2)
上传
点击文件名下载附件
也有人在SVGBench基准上发现:V3.1的表现>V3.1(思索)>R1 0528。
(, 下载次数: 1)
上传
点击文件名下载附件
这能够和V3.1的配置有关?
有网友察觉到它添加了四个特殊的token,并留意到现版本的V3.1在关闭搜索形态下也会自动搜索。
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
此外,它的物理了解才能似乎有所提升,下面两个GIF图分别是V3.1和V3对于”在旋转六边形内弹跳的球“的呈现。
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 2)
上传
点击文件名下载附件
但也有人发现了一些成绩,多与线上API相关……嗯,曾经有人开骂了。
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
不过,最让人猎奇的是,V3.1发布了,R2呢?
参考链接:
[1]https://x.com/deepsseek/status/1957886077047566613
[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/
[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望可以帮你把复杂的东西拆开,揉碎,整合,帮你疾速打通从0到1的技术途径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位引荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不称心可随时退款,欢迎扫码加入一同窗习一同卷!
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5