职贝云数AI新零售门户

标题: DeepSeek新版本低调却不简单 [打印本页]

作者: QrO8sdW4Wh    时间: 3 天前
标题: DeepSeek新版本低调却不简单
(, 下载次数: 0)

界面旧事821日音讯,DeepSeek-V3.1正式发布。DeepSeek用户没能等到传闻中的R2模型,但V3.1版先来了。821日,界面旧事从DeepSeek官方公众号获悉,其最新大言语模型DeepSeek-V3.1正式发布。此时间隔DeepSeek-V3-0324推出已过去5个月工夫。据DeepSeek引见,新晋级版本的变化次要体如今三个方面:混合推理架构、更高的思索效率、更强的Agent(智能体)才能。假如仅从命名来看,DeepSeek-V3.1更像是前一代DeepSeek-V3模型的小版本迭代。

DeepSeek-V3.1完成了一个模型同时支持思索形式与非思索形式。它就像一个拥有两种工作形式的超级大脑,当面对简单成绩时,能以非思索形式疾速给出答案。而在处理复杂成绩时,可切换到思索形式,给出更具深度和逻辑的解答。官方数据显示,与DeepSeek-R1-0528相比,DeepSeek-V3.1在思索形式下效率大幅提升,能在更短工夫内给出答案,且经过思想链紧缩训练,token(大模型文本处理的最小单位)耗费量可减少20%50%,各项义务的平均表现与R1-0528持平。R1-0528DeepSeek于往年5月发布的旗舰推理模型DeepSeek R1的晋级版本。

(, 下载次数: 0)

同时,V3.1在非思索形式下的输入长度也得到了有效控制,相比于DeepSeek-V3-0324,可以在输入长度分明减少的状况下保持相反的模型功能。经过Post-Training(后训练,大言语模型训练流程中的关键阶段)优化,新模型在工具运用与编程、搜索等智能体义务中的表现大幅提升。在代码修复和命令行终端义务测试中,DeepSeek-V3.1相较以往模型提高分明。社区第三方测试数据显示,在Aider多言语编程基准测试中,V3.1获得了71.6%的高分,超越了AnthropicClaude 4 Opus等多个知名模型,且完成一次编程义务的成本仅为1.01美元,成本效益优势分明。

随着V3.1发布,DeepSeek也同步调整了API接口调用价格,并取消夜间优惠。自北京工夫202596日清晨起,输入价格方面,缓存命中时为0.5/百万tokens,缓存未命中时则涨至4/百万tokens(此前V32/百万tokens);输入价格调整为12/百万tokens(此前V38/百万tokens)。值得留意的是,DeepSeek还在评论区中提到,DeepSeek-V3.1运用了UE8M0 FP8 Scale的参数精度。另外,V3.1对分词器及chat template停止了较大调整,与DeepSeek-V3存在分明差异。DeepSeek官微在置顶留言里表示,UE8M0 FP8是针对即将发布的下一代国产芯片设计。

【胡盛行评论】DeepSeek一直保持一向的低调,这一次新版本发布,没有刻意宣传,媒体们都只能去官网自行搜索相关信息。版本号定在V3.1,既不是R2,也不是V4,看上去是一个不起眼的小版本迭代。但结合这次官方的引见和各方分析,掌管者以为V3.1称得上是一个严重的里程碑。

首先是大模型的基础才能以及训练成本。兼容思索形式和非思索形式的混合架构,上下文长度从64K128K,扩增一倍,这都是目前大模型发展的趋向。和原有用户必须自行选择能否“深度思索”不同,混合架构下的大模型有了自行判别的才能,对一些简单的成绩,会自动切换到非思索形式,疾速给出答案,而不会糜费算力资源停止深度的推理。上下文长度的扩展,意味着大模型可以记住更多你和它此前的对话,或者可以一次性处理更多的成绩信息,128K的长度,大约是一本《骆驼祥子》的规模。这方面,DeepSeek看似并不处于抢先,不久前刚发布的GPT-5256K,而几乎同时发布的字节的Seed-OSS-36B模型,更是达到了512K。但是高产出背后是高投入,训练的成本和效果的全体性价比才是DeepSeekR1以来的看家优势,V3.1得到延续。虽然细节数据都并未公开,但有专业分析以为,无论是GPU的运用小时,用电量,碳排放还是经费投入,V3.1都是GPT-5的几非常之一左右。新版本中,DeepSeek还优化了大模型运转时的成本,回答异样的成绩,token的耗费量大约减少了20%50%,各类测试的评分却依然保持顶尖程度。

V3.1版本另一分明提升就是对智能体和企业级运用的支持,都说人工智能曾经进入智能体(Agent)时代,可见这方面是将来大模型的发展重点。DeepSeek将本人定位为开源基础大模型后,在设计研发的方向上就愈加明白。前文所说的大模型运转时对硬件,动力以及全体基础设备的高要求,这正是阻止大模型走向智能体,智能体走向企业场景的普遍痛点之一,可以说DeepSeek切中了关键。另一个关键是大模型对工程化的支持,也就是基于大模型开发智能体或实践运用软件的难易程度。V3.1确认支持Strict Function Calling,这也在众多竞争对手中保持一定的抢先。更称得上“贴心”的设计是V3.1支持其开源大模型次要竞争对手Antropic Claude的接口调用格式,这意味着其潜在客户即便此前基于Claude开发,也可以在无需任何改动的状况下,切换至DeepSeek。这一方面表现了DeepSeek对工程运用思索的周道,另一方面也表现了其面对竞争对手弱小的自信。

最后但也能够是最重要的,DeepSeek只在评论区里捎带提到:V3.1运用了UE8M0 FP8 Scale的参数精度,但还是很快被专业人士捕捉到了这一技术选择的严重意义。这里的技术细节非常复杂,最简单的解释是数字表达格式的设计与大模型训练时芯片算力功能的发挥有重要的关联,英伟达GPU的一个独到之处就是他们经过不断降低数字表达格式的精度,协助完成其每一代芯片产品的功能优势。而DeepSeek采用了异样的思绪,在加州理工大学一篇论文的启示下,设计了UE8M0 FP8的低精度数字表达格式,有效降低了大模型训练对芯片的功能(带宽和算力)要求。换句话说,DeepSeek和英伟达分别在软件层面和硬件层面做了相似的事。后者作为芯片厂商,其意图是“想训练最好的大模型,就必须用我们的产品”,而前者作为大模型厂商,反过来说“用我的这个技术训练大模型,可以不用最好的芯片”。这就是DeepSeek为什么说为“下一代国产芯片设计”,大模型本人补偿了部分芯片功能的不足。在国产芯片追逐英伟达尚需时日的状况下,DeepSeek的这一创新无疑意义严重。它不只仅意味着将来国内大模型训练可以一定程度上摆脱对英伟达的依赖。更重要的是,这一技术随着V3.1开源后,全世界非头部的大模型厂商,在硬件资源短缺或经费不足的状况下,可以尝试选择中国的功能略差的芯片产品,国产芯片朝思暮想的生态也许能因此逐渐构成。

此时此刻,黄仁勋是不是恨透了梁文锋?掌管者觉得恰恰相反,他只会“爱上”这个年轻后辈。不要忘了,英伟达低精度数字表达的研发曾经到了FP4的程度,而黄仁勋专门选了DeepSeek-R1作为验证,亲身研发DeepSeek-R1-FP4版本。这就是我们希望看到的良性竞争,一个大模型厂商,一个芯片厂商,既是客户和供应商,又是竞争对手,其实还是合作者,亦敌亦友,商讨共进,造福的是整个行业和社会。




更多好文↓↓↓

我单月用电量“火箭般升空”

“满天星斗”的“文博热”将来可期

假如人工智能真的会消灭中产阶级

对影视行业“松绑”是严重利好

日本的做法非常过分

特朗普的终极遁词

【本周话题】“投资于人”

恒大退市遗留的三大成绩

美国政府成英特尔最大股东

反内卷需求坚持市场化途径

“关不掉”的免密支付

滴滴阻击美团 在巴西“短兵相接”

所谓“康熙乱世”,背后是可怕的财政危机




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5