职贝云数AI新零售门户

标题: DeepSeek深夜发布新模型,但不是R2 [打印本页]

作者: NWI 时间: 2025-8-20 15:54
标题: DeepSeek深夜发布新模型,但不是R2

DeepSeek在深夜上线了新模型V3.1：128k上下文、API无缝切换。

昨晚，DeepSeek 宣布其线上模型版本已晋级至 V3.1。此次更新虽非市场等待的 R2 系列，但在长文本处理才能上完成分明打破，将上下文窗口从 64K 扩展至 128K，相当于可处理 10 万至 13 万汉字内容。

(, 下载次数: 2)

新模型采用稀疏混合专家架构（MoE）与多头潜在留意力机制（MLA），总参数量达到 685B，激活参数量为 37B per token，在保持高功能的同时控制计算成本。关键技术创新包括分块留意力机制和旋转地位编码优化，有效降低长序列处理的显存占用。

总的来说，新模型与 DeepSeek-V3-0324 相比，在参数量等方面没有分明变化。

媒体与社区信息显示，线上网页、App与小程序入口已切换到新版本，API 调用方式保持不变；开源侧则上传了 Base 权重。

目前，该模型曾经冲上了 Hugging Face 抢手模型榜第 2 位：

(, 下载次数: 1)

值得留意的是，将 Base 权重放到平台而不急于公布一长串基准分数，意味着团队更看重把“可复现与可部署”的阈值拉低，让社区先行试跑，搜集真实场景反馈，再补齐系统性的评测材料。对于希望做公有化适配的团队，这样的节拍反而更敌对：先验证推理链路、量化与张量格式，再决议能否大规模迁移。

当然，V3.1 并不等于 R2。后者背负的外界预期更多在新范式与更高下限，而前者强调的是当下可用性。在下游硬件与供应链仍有不确定性的时分，模型道路的快与稳很难兼得。

V3.1 是一个强调可用性的版本，它不会处理一切对 R2 的等待，却能在当下把体验拉齐，维持产品与生态的活跃。

回顾 DeepSeek 往年的几次更新，基本都是变动不大的小更新，这里我整理了 DeepSeek-R1 发布以来的一系列模型更新的工夫节点：

工夫	模型称号	特点
2025年1月底	DeepSeek-R1	初始发布。
2025年3月	DeepSeek-V3-0324	模型参数约660B，网页端、App和API提供64K上下文，开源版本上下文长度为128K。
2025年5月底	DeepSeek-R1-0528	R1模型的小版本晋级，在数学、编程与通用逻辑等多个基准测评中表现优秀，并改善了幻觉、创意写作、工具调用等功能。
2025年8月19日	DeepSeek-V3.1	线上模型版本晋级，上下文长度拓展至128K；多步推理义务功能提升，模型幻觉减少；编程和Agent功能分明加强。

虽然 V3.1 有一定改进，市场关注的 R2 模型仍未公布详细发布工夫。大家以为 R2 将会在哪些方面完成新打破？欢迎交流讨论！

END

往期引荐

秒懂算家 | 算家云长租优惠指南：最高66折，活动期折后再赠500算家币！
(, 下载次数: 0)

2025智能体大迸发！云计算驱动万亿级市场革命

(, 下载次数: 0)

更多活动

(, 下载次数: 0)

(, 下载次数: 2)

(, 下载次数: 1)

(, 下载次数: 0)

左滑查看更多引荐

联络我们

商务合作 | 成绩咨询 | AI定制服务

Tel：18085138124（企微同号）

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)