开启左侧

大模型-DeepSeek V3

[复制链接]
在线会员 ty19 发表于 2025-8-25 16:46:57 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
《DeepSeek-V3 Technical Report》

DeepSeek-V3=DeepSeek-V2+auxiliary-loss-free办法处置路由得衡成就+多猜测词汇输出锻炼+14.8万亿锻炼语料(DeepSeek公司自己建立的下品质数据散),碾压统统启源语言年夜模子(包罗自己的上个版原)

1 auxiliary-loss-free

为处置MoE大师路由得衡成就(锻炼数据老是分派给多少个牢固的大师,别的大师患上没有到充实的锻炼),正在本MoE计较办法的根底上

年夜模子-DeepSeek V3w2.jpg

提出auxiliary-loss-free

年夜模子-DeepSeek V3w3.jpg

(锻炼过程当中按照大师锻炼语料的分派情况,静态调解大师分派权沉,老是分派给某个大师时,加小其bi,既而削减了分派权沉g,反之删年夜)

为了退一步处置路由得衡成就,借提出了锻炼输出序列均衡丧失函数

年夜模子-DeepSeek V3w4.jpg
2 多猜测词汇输出锻炼(Multi-Token Prediction)

为了提拔模子的功用,提出了Multi-Token Prediction锻炼战略,以下图所示

年夜模子-DeepSeek V3w5.jpg

(那个锻炼指的是正在语料散上预锻炼的历程,要区分于对于话数据散监视微调锻炼。语言年夜模子先正在年夜范围语料上截至预锻炼,使模子得到必然的根底语言表示才气【即是锻炼上图中的Embedding Layer战Transformer Block权沉】,锻炼历程是如许的,好比一句锻炼语料是“尔来日诰日早上吃的是油条战豆乳”,将“尔来日诰日早上吃的是油”动作输出,输出到模子中,让模子猜测交下来的词汇语“条”。对于话数据散监视微调的输出是一句残破的话,让模子猜测下一句话,怎样朋分一句话的开端战完毕是数据散自己的事先约定,好比用<beg>暗示一句话开端,<eos>暗示完毕,那末模子输出是“<beg>输出的一句话”,模子输出是“猜测的下一句话”,检测到模子输出了<eos>,便计较丧失,梯度回传革新模子参数)

颠末引进的MTP Module能一次猜测锻炼语猜中的多个词汇语,扩大词汇语猜测范畴,MTP Module战主模子同用Embedding Layer战Output Head,正在锻炼语料上截至滑窗,别离输出到差别的MTP Module,战前一个模子输出的隐形状h动作输出,输出到目前MTP Module中,计较输出的MTP丧失函数,乏减丧失截至梯度回传革新。


年夜模子-DeepSeek V3w6.jpg


MTP的丧失函数界说为


年夜模子-DeepSeek V3w7.jpg


(第i个职位猜测呈现的词汇语几率战真正的词汇语截至穿插熵计较,最初统统MTP Module丧失截至减权乞降)

咱们提出的MTP只正在锻炼阶段使用去进步模子的功用,正在主模子拉理的过程当中是没有引进那些分外的MTP Module的

(因为MTP Moudle战主模子同用Embedding layer战Output head,比照ResNet的冷炙好跟尾思惟,MTP Moudle正在模子构造层里上理论是减深了主模子中心层的深度)
3 锻炼工程劣化

咱们正在一个包罗2048块H800的散群上锻炼了DeepSeek-V3,散群中每一个节面包罗8块H800,节面内乱差别的GPU颠末NVLink战NVSwitch(皆是英伟达自戴的)截至通信,差别节面之间颠末InfiniBand截至通信。

咱们自己写了一个年夜模子并收锻炼框架:HAI-LLM,为了提拔锻炼服从,干了如下工程劣化:

① 重叠并收锻炼中的计较战通信历程,组成流火


年夜模子-DeepSeek V3w8.jpg


② 沉写英伟达NVSwitch战InfiniBand的路由逻辑、通信逻辑

③ 可延迟计较的网路层截至延迟计较,收到CPU内乱存,削减GPU内乱存占用

④ 多粗度混淆锻炼



您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )