开启左侧

DeepSeek 到底是怎样工作的?120 幅彩图深度分析国产大模型!

[复制链接]
在线会员 K7tRx 发表于 2025-8-11 13:50:31 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
正在当前人工智能兴旺开展、年夜模子手艺如火如荼的时期,咱们对于新手艺的酷爱已经痴迷。特别是今朝动作国产年夜模子扛鼎之做的 DeepSeek,您尔是否是皆很好奇它的下层手艺呢?

固然,咱们需要一部能够深入浅出、明了提醒年夜模子下层手艺玄妙的做品,而《图解DeepSeek手艺》无信是如许的一原好做。那原书籍它好像一扇窗户,为咱们启开了通朝年夜模子前沿手艺天下的年夜门。

01

逻辑明了的深度根究

齐书籍分为三章战附录,实质架构松散而公道,层层递退,引发读者逐步深入年夜模子手艺的中心范围。那里具体战各人分享一下具体的实质:

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w2.jpg

第一章散焦于拉理年夜模子的范式改变,即从“锻炼时计较”到“尝试时计较”。那瞅似简朴的改变,真则包罗着年夜模子开展的深化变化。

“锻炼时计较”是一种保守的计较情势,正在这类情势下,模子正在锻炼阶段会尽可以天进修战影象数据中的情势战纪律,以期望正在尝试阶段(也即是拉理的时候)能够泛化到已睹过的数据上。

而“尝试时计较”则是一种越发活络战静态的计较情势。正在这类范式下,模子正在尝试阶段会按照输出数据的特性,截至及时的计较。许可模子正在面临新的任务的时候,能够越发活络天调解自己的战略战举动,进而进步模子的适应性战泛化才气,提拔模子的结果。

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w3.jpg

02

深入浅出的中心阐发

原书籍第两章偏重解读了 DeepSeek-R1 的架构——混淆大师(MoE)。

MoE 架构是比年去年夜模子范围的一个主要立异,它颠末将多个大师收集并止拉拢,并引初学控体制去静态挑选差别的大师截至计较,进而正在模子范围战计较服从之间得到了优良的均衡。

混淆大师模子 (MoE)的特性:

    R 取浓密模子比拟, 预锻炼速率更快

    R 取具备差异参数数目的模子比拟,具备更快的拉理速率

    R消耗 大批隐存,统统大师体系皆需要减载到内乱存中(内乱存换速率)

    R 混淆大师模子的微调存留诸多挑战


DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w4.jpg

正在 MoE 架构中,每一个大师收集皆是一个自力的神经收集,它们能够专一于进修数据的差别特性战情势。

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w5.jpg

别的混淆大师的路由器(Router)输出几率,用于混淆大师(MoE)模子挑选最好匹配大师(Expert),挑选的大师(Expert)也是一个前馈神经收集(FFNN)。

MoE 架构能够更佳天使用年夜范围的散布式计较资本,进而完毕更下效的锻炼战拉理历程。很明显那关于年夜模子正在理论使用中的布置战利用具备主要的意思。尔小我私家以为,能布置能使用佳使用是一个磨练年夜模子才气的主要目标

别的原章作家借以图示的方法介绍了 DeepSeek 分离三种办法完毕大师的有用合作的计划,感兴致的小同伴能够自己截至浏览。

03

深入DeepSeek-R1

第三章则展示了 DeepSeek-R1 的具体锻炼历程及中心手艺,包罗年夜模子的锻炼历程、鉴于 GRPO 的加强进修等主要实质。

锻炼历程是年夜模子开辟中的枢纽关节,作家正在那里毫无保存天分享了他们的经历战手艺细节,好比作家背咱们解释了 DeepSeek-R1 的锻炼历程:

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w6.jpg

和一个下品质的 LLM 的三个阶段:

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w7.jpg

鉴于 GRPO(Generalized Reward Prediction Objective)的加强进修是 DeepSeek-R1 锻炼中的一个中心手艺。GRPO 是一种新的加强进修目标函数,它颠末将嘉奖猜测战战略劣化相分离,使患上模子能够正在锻炼过程当中越发有用天进修战调解自己的举动。那里再也不过量截至论述了,感兴致的小同伴能够检察相干的论文完毕。

04

图解取真战的完善分离

图解的常识常常能戴去最直觉的理解,曲打心灵。恰好原书籍的一年夜特性正在于其深刻图解的方法。远 118 幅齐彩插图为读者供给了直觉的望觉帮助,使患上原来艰涩难明的手艺观点变患上明了易懂、活泼幽默。这类图文并茂的方法,让读者能够更轻快天理解庞大的计较历程战模子架构,极地面提拔了浏览体会,加强理解常识系统。

DeepSeek究竟  是如何事情的?120 幅彩图深度阐发国产年夜模子!w8.jpg

05

做译者专科布景强大

原书籍的作家杰伊·阿推马我(Jay Ala妹妹ar)战马我滕·格鲁滕多斯特(Maarten Grootendorst)正在年夜模子范围享有极下的名誉。

译者李专杰战孟好颖也凭仗各自由教术战研收范围的深厚布景,为原书籍的华文版逊色很多。

06

举荐浏览工具

小我私家以为如下读者适宜浏览《图解DeepSeek手艺》:

(1)年夜模子范围的钻研职员:钻研职员需要不竭理解年夜模子范围的最新实践平息。原书籍深入阐发了拉理年夜模子的范式改变,从“锻炼时计较”到“尝试时计较”,为钻研职员供给了新的钻研望角战实践根底。

(2)野生智能相干专科的师长教师:关于野生智能专科的师长教师来讲,那原书籍是建立战完美其常识系统的贵重质料。它体系天解说了年夜模子的中心观点战手艺,如拉理年夜模子的道理、架构设想战锻炼计划等,辅佐师长教师从实践层里深入理解年夜模子手艺,挨下坚固的专科根底。

(3)数据科学野战机械进修工程师:数据科学野战机械进修工程师正在理论事情中,经常需要使用年夜模子去处置庞大的成就。原书籍供给了 DeepSeek 手艺的具体解读,包罗 DeepSeek-R1-Zero 的拉理才气战 DeepSeek-V3 的服从劣化战略等,辅佐他们更佳天理解战使用年夜模子手艺。

(4)对于年夜模子手艺感兴致的非专科读者:原书籍深刻易懂,接纳大批图解的方法截至解说,低落了年夜模子手艺的进修门坎。关于非专科但是对于年夜模子手艺感兴致的读者来讲,那原书籍能够激起他们的进修兴致。

07

结语

正在野生智能快速开展的来日诰日,年夜模子手艺在不竭天改动着咱们的糊口战事情方法。而《图解DeepSeek手艺》那原书籍,无信将成为读者正在那个范围根究战前止的主要指北。它不但为读者提醒了年夜模子手艺的玄妙,也为读者翻开了通朝未来野生智能天下的年夜门。关于许多非手艺职员,相信也能借帮 DeepSeek 去下效完毕自己的事情,成为年夜模子手艺海潮中的“到场者”。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )