职贝云数AI新零售门户

标题: 聊聊DeepSeek V3.1体验,稳健晋级但惊喜不足 [打印本页]

作者: amgGWumZq    时间: 2025-8-21 12:08
标题: 聊聊DeepSeek V3.1体验,稳健晋级但惊喜不足
小伙伴们大家好呀,我是甲木。

抱歉断更了这么久,前几天不断在忙企业服务相关的事情,

去河南调研分享了几天,回北京后又跟百度的小伙伴们对「养猪吧少年— AI养猪」活动停止复盘直播~

忙完后看这几天AI的发展,真的是AI一天,人世一年。

阿里的Qwen-Image-Edit,智谱的AutoGLM,还有奥秘的nano banana等等..

就在整个AI圈都在翘首以盼,猜测DeepSeek传说中的推理模型R2何时能“亮剑”的时分,19号早晨七点,DeepSeek悄无声息地上线了V3.1版本。

(, 下载次数: 2)
还是自始自终地低调,群里发个音讯,完事了
明天就来看看DeepSeek的V3.1效果如何,结论先行:

一句话总结,符合+0.1版本的更新,除了上下文外全体效果提升并不分明,本次版本尝试混合推理和一些其他的小改进。

没有漫山遍野的宣传,就是这么一次版本号+0.1的更新,却也是在AI圈里激起了一阵不小的涟漪。

(, 下载次数: 1)

(, 下载次数: 1)
trending榜
那么成绩来了,这次版本号仅添加0.1的更新,到底更新了哪些东西?

先说UI界面最分明的变化,就是把深度思索(R1)中的「R1」去掉了...

(, 下载次数: 1)
意味着什么呢...
我们来看看DeepSeek V3.1的实践才能,看看它在这次退化中,到底藏了哪些“真功夫”?
V3.1的核心更新速览

我们先来看看这次更新的“官方阐明书”和社区里的第一波反馈。V3.1的核心晋级点非常明白,次要集中在两个方面:
关键更新 1:上下文窗口翻倍至128k

假如说大模型的上下文窗口是它的“记忆力”,那这次晋级,相当于直接把DeepSeek的短期记忆从能记住一本杂志,提升到了能记住一本中篇小说的程度。

128k的上下文窗口,意味着模型可以一次性“阅读”和处理10万个汉字的内容。

实践测试也很准确,我将一份大约300万字的《十日终焉》发送给DeepSeek,让他帮我总结内容。它告诉我们它只能阅读了前3%,也就是将近9-10万字。

(, 下载次数: 0)

同时也给到了前10万字,也就是第1章至第43章内容的总结。

(, 下载次数: 2)

这块就不多说了,其它家的模型很多都曾经支持128k了,这算是一个常规的更新,在多轮对话、长文档分析、代码库了解层面有一些运用。
关键更新 2:编程与代码才能再精进

这次更新在开发者社区里反响最热烈的,就是其代码才能的再次加强。

在Hugging Face和Reddit上,曾经有不少开发者放出了初步的评测结果。

特别是在Aider这个专门评价AI代码才能的基准测试上,V3.1的表现也比较亮眼,有网友曾经抢先测试,V3.1得分是71.6%,在开源模型中表现很突出。

(, 下载次数: 2)

当然,我们得客观一点,基准测试的成绩斐然,就像是“考试状元”,但这并不完全等同于在真实、复杂多变的开发环境中的“实战才能”。

所以,它到底是不是真的那么能打,还得我们亲身上手试试。
V3.1的实践场景表现

接上去,就是大家最喜欢的“talk is cheap, show me the case”环节,我们直接上实测!
场景一:128k长文本处理才能

由于之前我们上传的《十日终焉》第一卷内容,DeepSeek只阅读了前3%。这次我们就截取前3%的内容,也就是前43章,字数大约10万字。

(, 下载次数: 2)

上传给DeepSeek后,让它帮我们概括内容,同时加上常规长文本“大海捞针”的测试。

(, 下载次数: 2)
DeepSeek概括《十日终焉》第一卷前43章的部分内容
可以看到这次V3.1的表现还不错。它准确地概括了文章的核心设定,章节的次要情节发展总结的也很不错。

这证明了它的确“读完”并“读懂”了整份长文档。
场景二:文本创作才能

小七姐之前开源过一次风格化迁移的prompt,用来对中文经典文学风格停止提炼,

之后再把提炼出来的结果给到AI模型停止参考,这里结合deepseek的长文本提升就能做更多的尝试。

这里用当时测评Qwen3的案例:“中文经典文学风格迁移测评”,看一下这次DeepSeek的表现。(Prompt可以看之前小七姐的文章)
提炼出来的风格化Json 「此处略」

基于上述文本风格,为我编写一篇3000字的小说(两回合),关键词:哪吒,敖丙,抽龙筋,闹海,自尽

留意:
直接生成文本内容,不要做任何标注和解释。
留意年代与叙事顺序符合史序
不要采用原风格中与西游记相关的特定人名、地名、特定修辞

仿照《西游记》的叙事风格,来写哪吒闹海的故事。

(, 下载次数: 1)

假如你之前看到过小七姐的测评,就会知道,这次DeepSeek的表现和Qwen3的表现相比,是不相上下的。

这里再看我在我们皆为历史尘埃,但 AI 或能听见其间的心跳 -- “每个大人物,都值得一部史诗”(附Prompt)中写的大事情中的大人物描写prompt,

文本风格和流利度还是很不错的。

(, 下载次数: 3)
场景三:常规编程义务

接上去,我们来检验一下社区里被吹爆的“代码才能”。
案例1:“表情符号反应堆”

我们来模拟一个真实的前端开发需求,让它来完成一个甲木之前用Qwen3的做过“表情符号反应堆”的游戏。

先来看一下之前Qwen3的表现。

再把异样的提示词发送给DeepSeek,来看一下它的表现。

我以为DeepSeek在这个案例中生成的要比当时的Qwen3版本效果好上一丢丢。

首先美观度上要比Qwen3稍微强一点,其次运用Web Audio API生成了不同状况下的音效反馈,最后在功能上完成了本地存储,运用localStorage来保存最高分记录,还在玩法层面加入了combo连击机制。
案例2:“心情价值营销的大师”

再来用甲木之前的“心情价值营销的大师”的卡片,测试一下DeepSeek v3.1的才能。 感兴味的可以看Claude帮你来做「心情价值营销」(附prompt)文章

输入「国产3A游戏 黑神话:钟馗」,直接生成:

(, 下载次数: 1)

最终生成的卡片虽然美观度差了一些,但是对文本的了解才能还是可以的。

用一句充满画面感、力气感和宿命感的话,直接唤醒了大家血液中的文明基因和英雄情结,直接与那些盼望变强、不惧应战的玩家共鸣。
案例3: 文本杂志编排才能

这里我拿@摸鱼小李的文本杂志排版prompt停止测试,直接把一段长文本给到deepseek,然后让它基于文本内容出设计方案,

(, 下载次数: 3)
用冯骥微博做个测试
确定格式方案之后,它可以直接停止处理:

(, 下载次数: 2)
杂志排版风格,deepseek直出!
(, 下载次数: 3)

这样就把冯骥微博上的那段文字变成了一份杂志,排版温馨,样式精巧。

之后我们对于长文本的展现都可以采用这种方法。
场景四:常识与推理才能初探

再看看V3.1在处理一些交融了常识和逻辑的“圈套”成绩时表现如何。

这类成绩往往更能考验一个模型能否只会“算术”,还是真的具有了一定的“世界知识”。

案例1: 每次模型更新大家都热衷问的成绩....

(, 下载次数: 2)

案例2:再来看一个2025年年高考全国一卷的一道数学题。

(, 下载次数: 1)

发送给DeepSeek后,立刻就末尾了证明过程,

(, 下载次数: 2)

最后给到了答案。

(, 下载次数: 2)

可以看出,V3.1展现了本人具有基础的数学才能和推理才能。

在这之后,我也拿之前写的商业分析运用的prompt逐一测试,

效果相比之前一个版本略有提升,但效果不太分明,这里就不给大家展现了。
结语

测评上去,可以感觉到DeepSeek V3.1的才能有所提升但并不分明。

关于代码层面难以给我们特别突出的体验,一方面是Qwen的模型、K2的模型以及智谱GLM-4.5,效果都很优秀,而Deepseek V3.1在这些模型中的表现并没有特别亮眼的地方。

V3.1并没有给大家带来特别大的预期,但更像是一次“承上启下”的稳健晋级。

它在现有V3的优秀架构基础上,针对长文本处理和代码方向停止了“一些优化”,而且在这个迭代中,它也尝试着把混合推理归入它的范畴,做一些尝试。

这能够是DeepSeek的策略:在推出新模型(V4/R2)之前,先将现有基础模型的才能打磨到极致,巩固本人的优势范畴,同时多做一些尝试,多做一些探求。

假如说V3.1是在“术”的层面如虎添翼,

我们当然等待R2,可以在“道”的层面的质变飞跃。

让我们保持耐烦,

于无声处听惊雷,静待“R2”亮剑时,

那时,DeepSeek能像年终那样,

再一次,

冷艳全世界。


我是甲木,热衷于分享一些AI干货内容,我们下期再见👋🏻

觉得明天的内容对你有“一点点”启示吗?

老规矩,【点赞👍】+【在看👀】+【转发↗️】走一波!

你的每一个支持,都是甲木持续探求AI硬核运用的核动力!




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5