开启左侧

Deepseek V2论文解读

[复制链接]
一 V2的奉献

V2模子的论文介绍了一种强大的混淆大师(MoE)模子,它统共包罗 2360 亿个参数。可是一个token的输出只激活 210 亿个参数,并撑持 128,000 token的高低文少度。该模子借接纳多头潜伏留神力(MLA)架构,MLA 颠末清楚收缩键值(KV)慢存到一个潜伏背质中,包管了下效的拉理。

因为那二个立异面,完毕了越发经济下效的模子锻炼,那为厥后Deepseek R1的胜利奠基了坚固根底。

两 V2的道理

架构图以下,主要有二个改良面,第一是MLA立异,另一个是MOE的改良。

Deepseek V2论文解读

2.1  MLA

为了削减KV的重复计较用到了KV cache手艺。但是KV cache任然会招致内乱存有很年夜占用,因而DeepSeek退一步对于KV截至了劣化。

论文中提到,从多头留神力退阶劣化到了GQAMQA,而后是MLA(多头潜伏留神力体制)

Deepseek V2论文解读

MQA是指多个Q同享KV,如许干的益处正在于:

1、低落计较庞大度:颠末同享键战值,MQA 清楚削减了所需的操纵数目,使其比保守的多头留神力更下效。

二、更高的内乱存使用率:MQA 颠末保存更少的键战值矩阵去削减内乱存使用率,那关于处置少序列出格无益。

三、连结功用:固然服从有所进步,MQA 仍连结取保守多头留神力体制相媲好的合作功用,使其成为年夜范围 NLP 任务的可止挑选。

GQA组盘问留神力是对于Transformer中使用的保守多头自留神力体制战多盘问留神力体制的折衷。正在尺度多头留神力中,每一个留神力头自力处置全部序列。这类办法固然功用强大,但是计较本钱昂扬,特别是关于少序列。而MQA固然颠末正在多个留神力头之间同享统一组键战值简化了那一历程,但是其简化也不成制止地区去了一点儿粗度的丧失。GQA颠末将盘问分组正在共同处置此成就,进而低落了计较庞大性,而没有会清楚作用功用。

MHAMQA均可以看做是GQA的特别情况:当组数g取头数head相称时,GQA = MHA;当组数g1时,GQA = MQA

MLA取上述的目标一致,皆是削减KV,但是完毕的伎俩纷歧样。它接纳的是高秩分离收缩算法。从图中能够瞅到,实在即是对于本初的KV矩阵截至高秩收缩,用一个新的矩阵去替换本初的KV矩阵。

Deepseek V2论文解读

Deepseek V2论文解读

那比拟较K,V来讲是小很多的,那也是为何能够节流资本的启事。

图最右边实际上是对于q也截至了类似的计较。之以是要如许干,是为了让qk,v的特性对于齐,让模子越发下效。

那个能够瞅到,实在MLA是增加了计较质,可是少慢存了许多KV,但是也能够更佳阐扬GPU的才气。

2.2 MOE架构

deepseek正在MOE架构上的立异改良的地方正在于二面:

第一是将大师细分为更小的粒度以进步大师的专科化水平并更精确天获得常识。

第两是断绝一点儿同享大师以减少路由大师之间的常识冗余,即同享大师(图中的绿色shared Expert)

Deepseek V2论文解读

因为deepseek 把大师装分患上细的,以是就可以呈现一个token需要跟多个大师截至通信。假设那些大师散布正在多个装备(如GPU或者TPU)上,因为每一个token皆需要取它对于应的大师通信,那可以招致大批的通信开销。以是论文中借提到一种Device-Limited Routing的办法,即

1、挑选无限数目的装备:关于每一个输出token,起首选择出最有可以包罗最劣大师的M个装备。

2、正在选定装备内乱挑选大师:而后,正在那M个装备上的统统大师里,再按照某种尺度(好比亲战力患上分)选择出最适宜处置该tokenTop-K个大师。

颠末这类方法,能够保证每一个token只会取大都多少个装备发作接互,而没有是遍历全部收集中的每个可以的大师。如许便年夜年夜削减了通信质,共时仍然能包管模子的功用没有会受到太年夜作用。尝试证实,中选择的装备数M年夜于即是3时,这类战略能够正在掌握通信本钱的共时,连结靠近于不装备限定时的模子功用

论文地点:https://arxiv.org/pdf/2405.04434
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )