开启左侧

一本书读懂DeepSeek核心技术(文末送书)

[复制链接]
在线会员 mInr 发表于 3 小时前 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
2025年年末,DeepSeek 成为环球野生智能(AI)范围的核心,其DeepSeek-V3 战DeepSeek-R1 版原老手业内乱激发了结构性震惊。

DeepSeek-V3 是一个具有 6710 亿个参数的混淆大师模子(MoE),每一个token(模子处置文原的根本单元)激活 370 亿个参数。该模子正在 14.8 万亿个下品质 token上截至预锻炼,接纳 MLA 战 MoE 架构。DeepSeek-V3 的公布险些不预冷战炒做,仅凭仗其超卓的结果战超高的本钱疾速走白。

DeepSeek-R1 则是正在 DeepSeek-V3 的根底上建立的拉理模子,它正在后锻炼阶段年夜范围使用加强进修手艺,仅凭少少标注数据就年夜幅提拔了模子的拉理才气。正在数教、代码、天然语言拉理等任务上,DeepSeek-R1 的结果已经可比肩 OpenAI-o1 邪式版。

DeepSeek-R1 正在基准尝试中的表示

DeepSeek-V3手艺突破

DeepSeek-V3 的模子架构部分上鉴于 Transformer 的 MoE 架构,并正在细节完毕上干了大批的立异战劣化,如大批小大师模子、多头潜伏留神力、无帮助丧失的背载均衡、多 token猜测手艺(MTP)等,年夜幅提拔了模子的功用。

正在模子锻炼圆里,DeepSeek 依靠自研的沉质级散布式锻炼框架 HAI-LLM,颠末算法、框架战软件的紧密共同,突破了跨节面 MoE 锻炼中的通信瓶颈,完毕了下效颠簸的锻炼。DeepSeek-V3 是业界领先使用 FP8中止 混淆粗度锻炼的启源模子。

正在拉理布置圆里,DeepSeek-V3 接纳预添补(Prefilling)息争码(Decoding)别离的战略,和冗余大师战略,正在进步拉理速率的共时保证了体系的颠簸性战可靠性。

一原书籍读懂DeepSeek中心手艺(文终收书籍)w2.jpg

DeepSeek 架构图
DeepSeek-R1手艺突破
01.杂加强进修锻炼
DeepSeek-R1-Zero 的中心立异之一是接纳杂加强进修(Reinforcement Learning,RL)截至锻炼。那一办法推翻了保守的依靠有监视微调(Supervised Fine-Tuning,SFT)战人类反应加强进修(Reinforcement Learning from Human Feedback,RLHF)的锻炼情势,初度考证了不必所有 SFT 数据,仅颠末加强进修便可完毕拉理才气的自立退步。
02.GRPO 算法GRPO 算法是 DeepSeek-R1-Zero 使用的另外一个主要的立异算法。取保守的加强进修算法(如 PPO、DPO)差别,GRPO 算法颠末组内乱嘉奖比照间接劣化战略收集。具体而行,GRPO 算法将统一成就天生的 N 条候选谜底划为一组,以组内乱均匀嘉奖为基线,计较绝对劣势值。这类办法没有需要分外锻炼代价模子,低落了锻炼庞大度,进步了锻炼服从。
一原书籍读懂DeepSeek中心手艺(文终收书籍)w3.jpg

GRPO 取 PPO比照 暗示图
03.嘉奖模子的立异正在加强进修的锻炼过程当中,DeepSeek 钻研团队挑选里背成果的嘉奖模子,而没有是凡是的里背历程的嘉奖模子。这类方法能够较佳天制止嘉奖欺骗,共时,因为没有需要大批标注数据,能够低落锻炼庞大度。
一原书籍读懂DeepSeek中心手艺(文终收书籍)w4.jpg

成果嘉奖战历程嘉奖

“热启用 + 多阶段 RL”

为了处置杂加强进修锻炼戴去的可读性好战多语言稠浊等成就,DeepSeek-R1 接纳“热启用 + 多阶段 RL”的锻炼战略。正在热启用阶段,引进数千条下品质的少思惟链数据对于根底模子截至微调,自愿标准输出格局,进步可读性。随即,颠末二阶段加强进修退一步劣化模子的功用。

    拉理导背 RL:分离划定规矩嘉奖(如谜底精确性、语言不合性),劣化模子正在数教、编程等构造化任务中的表示。

    通用对于齐 RL:融进人类偏偏佳嘉奖模子,保证模子正在盛开域任务中的宁静性取合用性。

    一原书籍读懂DeepSeek中心手艺(文终收书籍)w5.jpg

    DeepSeek-R1 的锻炼历程

    DeepSeek-R1-Zero 正在锻炼早期不野生树模,完整靠自己探究。便像让小孩自己解谜题,成果他竟然悟出了许多强大的解题本领!但是仅靠自尔探究的 DeepSeek-R1-Zero 给出的谜底偶然很易读懂,以至会中英文稠浊,大概偏偏离人们习惯的表示方法。

    因而,正在锻炼 DeepSeek-R1 时,DeepSeek 钻研团队对于模子截至了二次分外的调解:第一次是喂给它一点儿热启用的例子,相称于给模子挨佳根底,让它明白答复时的根本礼节战明了度;第两次是正在加强进修以后,汇集正在锻炼中表示优良的解题示例,再混淆一点儿野生收拾整顿的题目,从头锻炼模子。颠末如许的过程,DeepSeek-R1 便像一个经历了自教、纠错、再进修、再真战的师长教师,已经生长为解题妙手。

    上述历程借提醒了一个罕见人留神的根本绳尺,这即是要让模子自由天思考。正在很多 AI尝试中,模子的构造束缚越少,则当计较资本增加时,终极功用的上限越下。反之,假设正在晚期给模子增加过量的构造束缚,则它的终极表示可以会受到限定,获得了更多自立根究的可以性。正在各类锻炼模子拉理才气的范式中,鉴于成果嘉奖的加强进修给模子的束缚起码。以成果为导背,用成果去鼓励——“Don’t teach, incentivize.”也即是道,没有要来“学”模子,而要“鼓励”它自立根究。




《DeepSeek中心手艺掀秘》是阐发 DeepSeek 手艺道理的专科手艺书籍,以全面的实质、深入的手艺本理解析战前瞻性的止业洞悉,为手艺职员、钻研职员战年夜模子相干手艺喜好者供给了贵重的进修质料。

一原书籍读懂DeepSeek中心手艺(文终收书籍)w6.jpg
原书籍目次构造 第1章介绍 DeepSeek 的一系列手艺突破取立异,如架构立异、锻炼劣化、拉理取布置劣化等,让读者对于 DeepSeek 的功用突破组成直觉的观点。共时,介绍 DeepSeek 的模子家属,涵盖通用语言模子、多模态模子、代码天生取理解等范围,展示了 DeepSeek 正在年夜模子的差别细分范围得到的成绩。
第2章为入门者深入浅出天解说 DeepSeek 的使用办法。从拉理模子取通用模子的差别,到具体的使用案例,读者能够直觉天感触感染 DeepSeek 正在理论使用中的强大功用。对于提醒工程的具体介绍,能够辅佐读者理解怎样颠末经心设想的提醒词汇更佳天阐扬 DeepSeek 的才气。对于提醒词汇链的初级使用本领的介绍,为读者退一步提拔 DeepSeek 使用结果供给参照。

第3章战第4章是原书籍的中心取精华。

第3章深入阐发 DeepSeek-V3 的模子架构、锻炼框架、拉理阶段劣化、后锻炼劣化等枢纽手艺。从混淆大师模子(MoE)的滥觞取开展,到 DeepSeek-V3 的 MoE 劣化,再到对于多头潜伏留神力(MLA)体制战多 token 猜测的具体解读,辅佐读者全面理解 DeepSeek-V3 正在手艺上的先辈性战立异性。共时,对于锻炼框架的并止战略、FP8 混淆粗度锻炼及拉理阶段的劣化等外容的深入阐发,展示了 DeepSeek 正在提拔服从战功用圆里的没有懈寻求。

第4章对于 DeepSeek-R1 的手艺阐发异常出色纷呈。准备常识的介绍为读者理解后绝实质挨下了坚固的根底。对于 DeepSeek-R1-Zero 的组绝对战略劣化(GRPO)算法、嘉奖模子等枢纽手艺的深入阐发,能够辅佐读者理解 DeepSeek 正在加强进修范围的立异性根究。对于DeepSeek-R1 的锻炼历程战拉理才气的蒸馏等外容的具体论述,能让读者对于那一立异手艺的特性有全面的认知。

第5章从微观的角度阐发 DeepSeek 对于野生智能手艺格式的作用,包罗突破软件依靠迷思、打击英伟达 CUDA 护乡河、激发年夜模子手艺门路的从头思考等多个圆里。共时,归纳了DeepSeek 胜利面前 的启迪,如指点者灵敏的手艺直观、持久主义的对峙、极致的工程劣化等,为读者供给了贵重的经历战启迪。

第6章对于 DeepSeek“启源周”的多个手艺名目截至了深入的阐发。颠末对于 FlashMLA、DeepEP、DeepGEMM、DualPipe 取 EPLB、3FS 等名目的介绍,展示了 DeepSeek 正在启源范围的主动根究,表示了其促进年夜模子手艺提高战开展的决意。那些手艺名目的具体解读,能让读者理解 DeepSeek 正在低落野生智能手艺门坎、增进手艺交换取协作圆里的弘大奉献。

第7章对于年夜模子的开展截至了会商。从 MoE 的开展趋势、MLA 的瞻望,年夜模子的锻炼办法、拉理布置,到 GPU 软件及拉理模子的开展趋势,从前瞻性的望角为读者描绘了年夜模子的开展宏图。

一原书籍读懂DeepSeek中心手艺(文终收书籍)w7.jpg
DeepSeek中心+配套望频课程

原书籍由一线资深手艺职员编辑,常识面解说明了。实质完整DeepSeek中心手艺睁开提取精华,没有会商取DeepSeek相关的年夜模子根底,而是存眷DeepSeek自己。

卢菁,北京科技年夜教专士,北京年夜教专士后,B站、望频号优良科技专主。曾任职于腾讯、爱偶艺等出名互联网公司,主要处置野生智能手艺的使用战研收事情,主要钻研标的目的为年夜模子、多模态、天然语言处置、常识图谱、举荐体系等。著有《速通机械进修》《速通深度进修数教根底》。

带志仕,资深AI架构师,“热武纪野生智能”公家号的创建者。2024CCF国内AIOps挑战赛优良奖得到者。具有十余年野生智能算法钻研战财产降天经历,胜利施行过量小我私家工智能名目。

赠书籍举动
1.原次一同赠予2原册本,与留行面赞数至多的2位小同伴,包邮抵家。2.留行启开选择,需存眷公家号7天以上,火字数大概没有良讲话打消资格。3.中奖名额2位,兑奖时间为2025年5月21日三鼓12:00,过时没有候。4.中奖同学瞅到专主留行后,请减尔密友(微疑-Z11aoe),公收支货地点。5.近来2个月已经颠末原渠讲中奖的同学再也不赠书籍,请知悉。
6.原次举动由电子产业出书社分离原公家号共同拉出,注释权回自己统统。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )