职贝云数AI新零售门户

标题: DeepSeek深夜发布新模型,但不是R2 [打印本页]

作者: NWI    时间: 2025-8-20 15:54
标题: DeepSeek深夜发布新模型,但不是R2

DeepSeek在深夜上线了新模型V3.1:128k上下文、API无缝切换。


昨晚DeepSeek 宣布其线上模型版本已晋级至 V3.1。此次更新虽非市场等待的 R2 系列,但在长文本处理才能上完成分明打破,将上下文窗口从 64K 扩展至 128K,相当于可处理 10 万至 13 万汉字内容。





(, 下载次数: 2)





新模型采用稀疏混合专家架构(MoE)与多头潜在留意力机制(MLA),总参数量达到 685B,激活参数量为 37B per token,在保持高功能的同时控制计算成本。关键技术创新包括分块留意力机制和旋转地位编码优化,有效降低长序列处理的显存占用。




总的来说,新模型与 DeepSeek-V3-0324 相比,在参数量等方面没有分明变化。

媒体与社区信息显示,线上网页、App与小程序入口已切换到新版本,API 调用方式保持不变;开源侧则上传了 Base 权重。




目前,该模型曾经冲上了 Hugging Face 抢手模型榜第 2 位:

(, 下载次数: 1)




值得留意的是, Base 权重放到平台而不急于公布一长串基准分数,意味着团队更看重把可复现与可部署的阈值拉低,让社区先行试跑,搜集真实场景反馈,再补齐系统性的评测材料。对于希望做公有化适配的团队,这样的节拍反而更敌对:先验证推理链路、量化与张量格式,再决议能否大规模迁移。




当然,V3.1 并不等于 R2。后者背负的外界预期更多在新范式与更高下限,而前者强调的是当下可用性。在下游硬件与供应链仍有不确定性的时分,模型道路的快与稳很难兼得。




V3.1 是一个强调可用性的版本,它不会处理一切对 R2 的等待,却能在当下把体验拉齐,维持产品与生态的活跃




回顾 DeepSeek 往年的几次更新,基本都是变动不大的小更新,这里我整理了 DeepSeek-R1 发布以来的一系列模型更新的工夫节点:




工夫

  模型称号

  特点

2025年1月底

DeepSeek-R1

初始发布。

2025年3月

DeepSeek-V3-0324

模型参数约660B,网页端、App和API提供64K上下文,开源版本上下文长度为128K。

2025年5月底

DeepSeek-R1-0528

R1模型的小版本晋级,在数学、编程与通用逻辑等多个基准测评中表现优秀,并改善了幻觉、创意写作、工具调用等功能。

2025年8月19日

DeepSeek-V3.1

线上模型版本晋级,上下文长度拓展至128K;多步推理义务功能提升,模型幻觉减少;编程和Agent功能分明加强




虽然 V3.1 有一定改进,市场关注的 R2 模型仍未公布详细发布工夫。大家以为 R2 将会在哪些方面完成新打破?欢迎交流讨论!

END

往期引荐

秒懂算家 | 算家云长租优惠指南:最高66折,活动期折后再赠500算家币!
(, 下载次数: 0)

2025智能体大迸发!云计算驱动万亿级市场革命

(, 下载次数: 0)

更多活动

(, 下载次数: 0)

(, 下载次数: 2)

(, 下载次数: 1)

(, 下载次数: 0)

左滑查看更多引荐

联络我们

  商务合作 | 成绩咨询 | AI定制服务   

Tel:18085138124(企微同号)






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5