职贝云数AI新零售门户
标题:
关于Deepseek的一些核心成绩
[打印本页]
作者:
o9WJWZs
时间:
前天 12:52
标题:
关于Deepseek的一些核心成绩
Deepseek为什么这么火那些真正的技术创新点支撑了他的出圈
Deepseek对行业内其他模型厂商、硬件生态、运用生态影响
Deepseek本地化部署Deepseek最新动态
01
—
Deepseek为什么这么火
1. 低成本:用极低算力成本获得了比肩GPT 4o等闭源模型才能
2. 模型开源:借助开源力气疾速出圈
3. 中国元素:中国AI行业的发展状况能够与OpenAI所代表的最先进程度之间,没有想象中差距那么大
4. 推理模型:真正公开了用强化学习(Reinforcement Learning,)做推理模型的能够途径
02
—
Deepseek技术创新点
一. V3模型次要技术创新点
1. MoE(Mixture of Experts,专家混合模型)的专家模型架构,“用空间换工夫”
详细来说,DeepSeek的MoE架构把前向推理网络划分成了1个共享专家以及256个独立专家。模型每次预测的时分,只会激活共享专家以及另外256个专家中的8个专家,大大降低了算力耗费。
此外,DeepSeek还在训练过程中经过偏离函数,调整专家负载,避免出现“强者越强,弱者越弱”的马太效应。
2. MLA(Multi-head Latent Attention,多头潜在留意力),“用工夫换空间”
详细来说,大模型推理离不开Attention计算,而Attention计算中,KV缓存(Key-Value 缓存)是次要的存储开支。在Transformer模型的自留意力机制中,输入元素会被转换成查询(Query)、键(Key)和值(Value)这三种类型。KV 缓存就是在推理过程中,把先前步骤计算得到的 Key 和Value矩阵缓存起来,避免在生成新token时反复计算整个序列的Key和Value。DeepSeek经过矩阵分解的方法,将KV缓存紧缩后再投影回高维空间,从而大幅降低了存储开支。这种技术原理简单但非常有效,完成了推理价格骤降。
MOE和MLA结合在一同,降低了模型对硬件算力和显存带宽的需求,因此,DeepSeek让全体成本下降了一个数量级。
二. R1模型(推理模型)次要技术创新点
1. deepseek R1是对标OpenAI o1系列的推理模型,虽然大模型在诸多义务上表现出色,但在需求深度推理和专业知识的复杂成绩上,它们依然面临宏大应战,此类模型次要处理相似痛点
2. 用强化学习完成了比肩o1的推理大模型,并开源了相关的工作
3. Test-Time Compute方法:经过延伸推理工夫,来提高输入质量
DeepSeek R1核心的贡献是协助强化学习、Test-Time Comput这两个范式疾速出圈并且直接把工作开源了
03
—
Deepseek对行业内其他模型厂商、硬件生态、运用生态影响
一. 对其他模型厂商影响
在ToC范畴,部分厂商能够会感遭到较大的冲击。这些厂商面临的应战更多在于开源与商业化的选择:假如保持闭源,能否能达到一线模型程度?假如选择开源,能否会颠覆现有的商业形式?
ToB的模型厂商也遭到了一定的影响。长期来看,企业客户会做出感性决策,但在短期内,能够受市场心情影响,尝试运用DeepSeek。这有助于教育市场,但长期效果还需观察。
二.DeepSeek对硬件生态影响
DeepSeek采用的Mixture of Experts (MoE) 架构分明降低了对芯片间互联才能的要求,从而减少了对高端互连技术的依赖,提供了潜在“绕过”CUDA的能够性。DeepSeek提出了适配其模型的硬件架构设计需求,暗示着将来“绕过”英伟达的CUDA生态系统的能够性
三.DeepSeek对运用生态影响
DeepSeek R1验证了大模型蒸馏小模型是可行的,这对于端侧模型部署和运用有很大推进作用
04
—
Deepseek本地化部署
一. 部署流程(以昇腾 Atlas 800I A2 (8*64G)裸金属服务器为例)
1.软件预备
1)安装与配置服务器的底层操作系统,如 Ubuntu、Debian、openEuler 等。
2)安装昇腾 NPU(AI 计算卡)固件及驱动。
3)安装与配置昇腾提供的各类配套软件包,包括 Mindle(推理引擎)、CANN(异构计算架构)、MindSpore(AI 框架)等
2. 模型获取:下载对应参数大小(671B 满血版或 70B 等蒸馏模型)的模型代码及权重,并转换为相应精度(FP8 或 FP16 等)
3. 推理服务部署:配置环境变量,启动推理服务容器并验证
4. 功能调优:调优推理引擎等软件栈的参数配置,从而达到最优推理效率。
5.安全与监控:停止网络安全设置、管理日志信息、配置监控看板等
二. 本地化部署选型思索要素
1. 模型参数(满血版或蒸馏版)和运转参数(上下文长度、批次大小)
(, 下载次数: 0)
上传
点击文件名下载附件
2.算力硬件(显存容量、显存带宽、计算才能、互联带宽)(1)显存容量 以常见企业级消费部署环境为例:DeepSeek-R1-70B 模型,FP8 计算精度,序列长度(模型一次能处理的最大 token 数)8192,批次大小(Batch size,决议了模型一次处理的央求数量)16,一共需求约 70GB 的显存容量=模型参数:70B×模型精度:1 字节(FP8)。 还需求思索一部分其他显存花销(激活值缓存、输入张量缓存、固定开支) (2)AI 算力大小、显存带宽、互联带宽等 计算才能决议算力天花板。计算才能代表芯片在单位工夫内完成矩阵乘法、卷积等核心运算的峰值才能,即每秒浮点运算次数的实际峰值。不同 AI 计算卡的计算架构与配套软件栈的优化状况存在差异,其实践计算效率会存在不同程度的折扣 显存带宽决议数据传输效率。显存带宽代表显存与计算核心间的数据传输峰值速率,当模型参数或激活值的数据量(次要由 batch size 决议)超过带宽供给才能时,则模型推理功能与效率的瓶颈由显存带宽决议。 互联带宽则决议多卡互联的效率。在实践企业消费环境中,多为服务器内多卡互联的场景,互联带宽决议了服务器内多张 AI 计算卡之间的数据传输峰值速率 (3)配套生态及软件栈支持 AI 计算卡的固件及驱动决议了其底层计算效率,由芯片厂商提供与维护。以华为昇腾为例,固件的次要功能包括昇腾计算芯片自带的 OS、电源器件和功耗管理器件控制软件,分别用于后续加载到 AI 处理器的模型计算、处理器启动控制和功耗控制。驱动次要用于管理查询昇腾 AI 处理器,同时为下层 CANN 软件提供处理器控制、资源分配等接口。 配套软件包的作用在于协助开发者优化基于 AI 计算卡训练和推理的效率和流程,更方便快捷地开发 AI 运用。以华为昇腾硬件平台为例,部署 Deepseek-R1 时能够需求的配套软件包有异构计算架构(CANN)、推理引擎(Mindle)、集合通讯库(HCCL)、基础设备管理平台(DCS 套件)等。
05
—
Deepseek最新动态(V3.1模型)
一. Deepseek V3.1
1. 混合推理架构(思索与非思索形式):DeepSeek-V3.1 引入了混合推理架构,一个模型同时支持“思索形式”和“非思索形式”。App或网页端的“深度思索”按钮自在切换。
2. 上下文长度大幅添加:上下文窗口长度从之前版本的 64K tokens 扩展至 128K tokens。 模型能处理更长的文档,如学术论文、法律文件和复杂代码库
3. 智能体(Agent)与工具调用才能加强:后训练(Post-Training)优化分明提升了模型在工具运用和智能体义务中的表现
4. API接口调用价格
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5