职贝云数AI新零售门户

标题: 一本书读懂DeepSeek核心技术(文末送书) [打印本页]

作者: mInr    时间: 9 小时前
标题: 一本书读懂DeepSeek核心技术(文末送书)
2025年年终,DeepSeek 成为全球人工智能(AI)范畴的焦点,其DeepSeek-V3 和DeepSeek-R1 版本内行业内引发了却构性震动。

DeepSeek-V3 是一个拥有 6710 亿个参数的混合专家模型(MoE),每个token(模型处理文本的基本单位)激活 370 亿个参数。该模型在 14.8 万亿个高质量 token上停止预训练,采用 MLA 和 MoE 架构。DeepSeek-V3 的发布几乎没有预热和炒作,仅仰仗其出色的效果和超低的成本迅速走红。

DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练阶段大规模运用强化学习技术,仅凭极少标注数据便大幅提升了模型的推理才能。在数学、代码、自然言语推理等义务上,DeepSeek-R1 的效果已可比肩 OpenAI-o1 正式版。

DeepSeek-R1 在基准测试中的表现

DeepSeek-V3技术打破

DeepSeek-V3 的模型架构全体上基于 Transformer 的 MoE 架构,并在细节完成上做了大量的创新和优化,如大量小专家模型、多头潜在留意力、无辅助损失的负载平衡、多 token预测技术(MTP)等,大幅提升了模型的功能。

在模型训练方面,DeepSeek 依托自研的轻量级分布式训练框架 HAI-LLM,经过算法、框架和硬件的严密配合,打破了跨节点 MoE 训练中的通讯瓶颈,完成了高效波动的训练。DeepSeek-V3 是业界率先运用 FP8 停止混合精度训练的开源模型。

在推理部署方面,DeepSeek-V3 采用预填充(Prefilling)和解码(Decoding)分离的策略,以及冗余专家策略,在提高推理速度的同时确保了系统的波动性和牢靠性。

(, 下载次数: 0)

DeepSeek 架构图
DeepSeek-R1技术打破
01.纯强化学习训练
DeepSeek-R1-Zero 的核心创新之一是采用纯强化学习(Reinforcement Learning,RL)停止训练。这一方法颠覆了传统的依赖有监督微调(Supervised Fine-Tuning,SFT)和人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)的训练形式,初次验证了无须任何 SFT 数据,仅经过强化学习即可完成推理才能的自主退化。
02.GRPO 算法GRPO 算法是 DeepSeek-R1-Zero 运用的另一个重要的创新算法。与传统的强化学习算法(如 PPO、DPO)不同,GRPO 算法经过组内奖励对比直接优化策略网络。详细而言,GRPO 算法将同一成绩生成的 N 条候选答案划为一组,以组内平均奖励为基线,计算相对优势值。这种方法不需求额外训练价值模型,降低了训练复杂度,提高了训练效率。
(, 下载次数: 0)

GRPO 与 PPO 对比表示图
03.奖励模型的创新在强化学习的训练过程中,DeepSeek 研讨团队选择面向结果的奖励模型,而不是通常的面向过程的奖励模型。这种方式可以较好地避免奖励诈骗,同时,由于不需求大量标注数据,可以降低训练复杂度。
(, 下载次数: 0)

结果奖励和过程奖励

“冷启动 + 多阶段 RL”

为了处理纯强化学习训练带来的可读性差和多言语混杂等成绩,DeepSeek-R1 采用“冷启动 + 多阶段 RL”的训练策略。在冷启动阶段,引入数千条高质量的长思想链数据对基础模型停止微调,强迫规范输入格式,提高可读性。随后,经过两阶段强化学习进一步优化模型的功能。



《DeepSeek核心技术揭秘》是分析 DeepSeek 技术原理的专业技术书,以片面的内容、深化的技术原了解析和前瞻性的行业洞察,为技术人员、研讨人员和大模型相关技术爱好者提供了宝贵的学习材料。

(, 下载次数: 0)
本书目录结构 第1章引见 DeepSeek 的一系列技术打破与创新,如架构创新、训练优化、推理与部署优化等,让读者对 DeepSeek 的功能打破构成直观的看法。同时,引见 DeepSeek 的模型家族,涵盖通用言语模型、多模态模型、代码生成与了解等范畴,展现了 DeepSeek 在大模型的不同细分范畴获得的成就。
第2章为初学者深化浅出地讲解 DeepSeek 的运用方法。从推理模型与通用模型的差异,到详细的运用案例,读者可以直观地感受 DeepSeek 在实践运用中的弱小功能。对提示工程的详细引见,可以协助读者了解如何经过精心设计的提示词更好地发挥 DeepSeek 的才能。对提示词链的高级运用技巧的引见,为读者进一步提升 DeepSeek 运用效果提供参考。

第3章和第4章是本书的核心与精髓。

第3章深化分析 DeepSeek-V3 的模型架构、训练框架、推理阶段优化、后训练优化等关键技术。从混合专家模型(MoE)的来源与发展,到 DeepSeek-V3 的 MoE 优化,再到对多头潜在留意力(MLA)机制和多 token 预测的详细解读,协助读者片面了解 DeepSeek-V3 在技术上的先进性和创新性。同时,对训练框架的并行策略、FP8 混合精度训练及推理阶段的优化等内容的深化分析,展现了 DeepSeek 在提升效率和功能方面的不懈追求。

第4章关于 DeepSeek-R1 的技术分析异样精彩纷呈。预备知识的引见为读者了解后续内容打下了坚实的基础。对 DeepSeek-R1-Zero 的组相对策略优化(GRPO)算法、奖励模型等关键技术的深化分析,可以协助读者了解 DeepSeek 在强化学习范畴的创新性探求。对DeepSeek-R1 的训练过程和推理才能的蒸馏等内容的详细阐述,能让读者对这一创新技术的特点有片面的认知。

第5章从宏观的角度分析 DeepSeek 对人工智能技术格局的影响,包括打破硬件依赖迷思、冲击英伟达 CUDA 护城河、引发大模型技术道路的重新思索等多个方面。同时,总结了DeepSeek 成功背后的启示,如指导者敏锐的技术直觉、长期主义的坚持、极致的工程优化等,为读者提供了宝贵的阅历和启示。

第6章对 DeepSeek“开源周”的多个技术项目停止了深化的分析。经过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的引见,展现了 DeepSeek 在开源范畴的积极探求,表现了其推进大模型技术普及和发展的决计。这些技术项目的详细解读,能让读者了解 DeepSeek 在降低人工智能技术门槛、促进技术交流与合作方面的宏大贡献。

第7章对大模型的发展停止了讨论。从 MoE 的发展趋向、MLA 的展望,大模型的训练方法、推理部署,到 GPU 硬件及推理模型的发展趋向,以前瞻性的视角为读者描画了大模型的发展蓝图。

(, 下载次数: 0)
DeepSeek核心+配套视频课程

本书由一线资深技术人员编写,知识点讲解明晰。内容完全DeepSeek核心技术展开提炼精髓,不讨论与DeepSeek有关的大模型基础,而是关注DeepSeek本身。

卢菁,北京科技大学博士,北京大学博士后,B站、视频号优秀科技博主。曾任职于腾讯、爱奇艺等知名互联网公司,次要从事人工智能技术的运用和研发工作,次要研讨方向为大模型、多模态、自然言语处理、知识图谱、引荐系统等。著有《速通机器学习》《速通深度学习数学基础》。

戴志仕,资深AI架构师,“寒武纪人工智能”公众号的创立者。2024CCF国际AIOps应战赛优秀奖获得者。拥有十余年人工智能算法研讨和产业落地阅历,成功实施过多个人工智能项目。

赠书活动
1.本次一共赠送2本书籍,取留言点赞数最多的2位小伙伴,包邮到家。2.留言开启挑选,需关注公众号7天以上,水字数或者不良发言取消资历。3.中奖名额2位,兑奖工夫为2025年5月21日半夜12:00,过期不候。4.中奖同窗看到博主留言后,请加我好友(微信-Z11aoe),私发收货地址。5.最近2个月曾经经过本渠道中奖的同窗不再赠书,请知悉。
6.本次活动由电子工业出版社结合本公众号一同推出,解释权归本人一切。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5