年夜模子单词汇表缩写 | 齐称 | 简朴注释 | 干系 | Token | 词汇元 | 语言模子处置的根本单元,一般为单词汇或者子词汇。 | 取参数目、Scaling law等密切相干 | 参数目 | Parameters | 模子中可调度的数值,决定模子的庞大度战才气。 | 作用模子范围,取Scaling law同存 | Scaling Law | (年夜模子)范围定律 | 描绘模子功用取参数目、数据质之间干系的纪律。 | 辅导模子扩大,作用年夜范围构造 | MHA | Multi-Head Attention | 一种留神力体制,许可模子共时存眷多个疑息源。 | 取GQA、MLA等留神力方法相干 | GQA | Graph Question Answering | 鉴于图构造截至成就答复的手艺。 | MHA的一种劣化衍死或者变体 | MLA | Meta Learning Algorithm | 一种进修算法,旨正在进步模子的进修服从。 | 深入MHA取GQA的分层使用 | PT | Pre-Training | 预锻炼,模子正在一定任务前的开端锻炼历程。 | SFT、RL等常常正在预锻炼完毕落后一步开展 | SFT | Supervised Fine-Tuning | 监视微调,针对于一定任务对于预锻炼模子截至调解。 | 正在PT后针对于一定任务加强模子表示 | RL | Reinforcement Learning | 加强进修,颠末嘉奖体制劣化决议计划历程。 | 衍死出GRPO、DPO、PPO等多种战略劣化办法 | GRPO | Generalized Policy Optimization | 一种劣化战略,旨正在进步进修服从。 | 颠末梯度办法劣化RL战略 | DPO | Direct Preference Optimization | 间接偏偏佳劣化,劣化模子输出的偏偏佳。 | 省来庞大估量关节,快速革新战略 | PPO | Proximal Policy Optimization | 一种加强进修算法,劣化战略革新。 | 正在宁静区间内乱迭代,颠簸加强进修历程 | KTO | Knowledge Transfer Optimization | 常识迁徙劣化,提拔模子正在新任务上的表示。 | 常取裁剪、蒸馏共同,完毕模子或者多模子合作 | MoE | Mixture of Experts | 大师混淆模子,颠末多身材模子进步功用。 | 为年夜范围模子供给多子收集配合,分离Scaling law | 裁剪 | Pruning | 削减模子参数以进步服从的手艺。 | 凡是取蒸馏共同,削减模子体质 | 蒸馏 | Distillation | 将年夜模子的常识转化到小模子的历程。 | 取裁剪共为模子收缩伎俩,完毕下效布置 |
根底:Token、参数目、Scaling Law
Token
正在天然语言处置(NLP)或者多模态模子中,您会经常听到“Token”那个词汇。
简朴来讲,Token即是模子用去理解语言的最小单元,比如一原书籍中的字、词汇或者标面。
一个模子正在处置句子时,先把整段话装分红许多Token,再一一截至阐发。
设想一下,您走退一野苦品店,菜单上的统统苦品皆用一个个“标牌”暗示,每个标牌能够对于应着一个Token。
细分患上越多,您能越精密天理解差别身分,但是响应需要更下的处置质。
Token 正在天然语言处置中的脚色
句子颠末 Token 化被装分为多个 Token根底 Token,它们能够像书籍中的字、词汇或者标面或者具体的例子一致阐扬感化
苦品店菜单 Token 化示例
苦品店菜单颠末标牌会聚器将各类苦品暗示为差别的标牌使用 “" reflux.Red"” SweetUI 控件(L)去夸大战标识表记标帜某些苦品
Token 细化取处置质的干系
跟着细分水平增加,理解越精密,但是需要更下的处置质
参数目
模子具有几可锻炼的“参数目”则比如一个都会中具有几“电网节面”,节面数目多可以表示着供电范畴更广、撑持更百般化的用电需要,但是假设背载分派、办理体系没有到位,也会招致耗能年夜或者服从欠安。
模子参数目取都会电网节面的类比,模子的参数目被类比为都会中的电网节面。
节面数目多表示着供电范畴更广战撑持更百般化的用电需要。
供电范畴取百般化需要,供电范畴更广能够笼盖更多地区。
撑持更百般化的用电需要能够满意差别用电场景。
背载分派取办理,假设背载分派战办理体系没有到位,可以招致耗能年夜或者服从欠安。
劣化背载分派战提拔办理体系服从是处置那些成就的枢纽。
Scaling Law
Scaling Law更像是都会计划宏图,报告您假设要让都会范围持续扩大并连结优良运行,便必需匹配充足的根底装备战资本配给。
关于AI模子而行,它提醒了一个大致纪律:数据质、参数目、计较质三者需要配合扩大,才气得到连续且颠簸的功用支益。
正在年夜模子范围,人们常常会寻求“更年夜”去处置更多庞大的任务,但是并非自发堆参数就可以胜利。
假设不可靠的锻炼战略战充足的锻炼数据,那末“过分扩大”只会戴去资本糜掷。
因而咱们经常正在机关年夜模子时,需要对于Scaling law有深化理解,才气正在功用取本钱之间得到优良均衡。
多头留神力(MHA)取分组留神力(GQA)、多层留神力(MLA)
MHA
Transformer模子“家属”里最常被说起的枢纽手艺:多头留神力体制(MHA, Multi-Head Attention)。
它的道理便比如您站正在一小我私家声沸腾的广场里,共时用多条“视线”来锁定差别职位的人群。
每一个“留神力头”皆专一于差别的语义或者高低文特性,终极将那些特性调整起去,获得对于全部场景更全面的理解。
Transformer 模子中的多头留神力体制 (MHA),MHA类比为站正在人声沸腾的广场,共时用多条“视线”锁定差别职位的人群。
每一个“留神力头”专一于差别的语义或者高低文特性,终极将那些特性调整起去,获得对于全部场景的全面理解。
每一个留神力头 (Head一、Head二、Head3) 对于应广场上差别职位的人群 (CrowdA、CrowdB、CrowdC),并存眷差别的特性 (特性一、特性二、特性3)。统统留神力头存眷的特性颠末调整,终极组成对于全部场景的全面理解 (O)。
GQA
当多头留神力的计较本钱愈来愈下,为了正在没有捐躯功用的条件下提拔服从,人们提出了GQA(Grouped Query Attention)等思路,把盘问背质分组处置,类似于“把年夜队人马装成多个小分队”,让各小分队零丁探究、别离举措,最初汇总功效。
多头留神力体制 (MHA) 取分组盘问留神力 (GQA)
MHA存留计较本钱下的成就,为了正在没有捐躯功用的条件下提拔服从,提出了GQA。
MHA 的成就
GQA 的劣化思路
GQA颠末将盘问背质分组,每一组同享键值对于,进而削减计较质并提拔服从。
GQA 的结果
MLA
而MLA(Multi-Level Attention或者Multi-Layer Attention等)则退一步夸大正在收集的多层构造里重复使用留神力体制,像是正在一个年夜阛阓里,每层楼皆有保安战摄像头(留神力头)去包管序次。
如许多层楼、多沉监控,可让疑息处置更“层层递退”,正在深度收集中不竭精辟输出的语义。
1. 多层留神力体制 (MLA)
MLA夸大正在多层构造中重复使用留神力体制,使疑息处置层层递退,正在深度收集中不竭精辟输出的语义。
2. 阛阓类比
年夜阛阓中每层楼皆有保安战摄像头,用于包管序次。多层楼、多沉监控类比于多层留神力体制。
3. 疑息处置历程
输出疑息顺次颠末第一层留神力处置、第两层留神力处置战第三层留神力处置,终极输出精辟后的语义。
预锻炼(PT)取监视微调(SFT):从“年夜纯烩”到“公众订造”
PT
当咱们正在塑制一个年夜模子时,凡是会先经历一个“预锻炼阶段”(PT)。
那一步便像让儿童从小泡正在各类常识的陆地里,或许他其实不分明每原书籍确实切用处,但是能够大批吸取根本的语言取知识。如许干的益处是,模子能教到通用的语言构造战观点表征。
1. 预锻炼阶段 (PT)
让模子从小泡正在各类常识的陆地里,大批吸取根本的语言取知识,进而教到通用的语言构造战观点表征。
2. 预锻炼的益处
模子能教到通用的语言构造,那使模子能够处置各类语言任务。模子能教到观点表征,那使模子能够理解庞大语义。
3. 常识吸取历程
输出大批文原数据,模子进修语言情势,进修知识观点,组成通用语言构造,终极组成观点表征。
SFT
而后加入SFT(监视微调)阶段,便像给那个儿童找了一名“金牌导师”,用一定范围的质料、一定任务的示例去脚把脚学他怎样处置某种成就。
好比针对于客服场景、法令文书籍处置或者择要写做等,供给大批的“范原”,让模子教会正在这类场景下怎样给出精确、契合请求的输出。
如许,模子就可以正在“通用才气”之上,退一步凝炼出“专科才气”。
1.监视 微调阶段 (SFT)
让模子正在一定范围进修,使用一定范围的质料战任务示例,脚把脚学模子处置一定成就,使模子教会正在一定场景下给出精确输出。
2. SFT 的益处
模子正在通用才气之上,退一步凝炼出专科才气,针对于客服场景、法令文书籍处置或者择要写做等。
3. 常识吸取历程
输出一定范围的大批范原,模子进修一定任务的情势,进修一定场景的知识观点,组成一定场景的专科才气。
加强进修(RL)及其变体:GRPO、DPO、PPO
加强进修(Reinforcement Learning, RL)
关于这些需要不竭取情况接互、从试错中积聚经历的任务,加强进修(RL)便派上用处了。
加强进修(Reinforcement Learning, RL)是一种机械进修办法,其中心是智能体(Agent)颠末取情况(Environment)的接互去进修最劣战略。智能体正在情况中执举措做(Action),按照行动的成果领受反应,即嘉奖(Reward),那些嘉奖旌旗灯号辅导智能体调解其战略,以最年夜化持久积累嘉奖。加强进修的根本构成包罗智能体、情况、形状、行动战嘉奖。智能体颠末察看情况的形状并采纳举措,取情况截至接互
智能体按照目前形状挑选行动,情况按照行动前去新的形状战嘉奖。
战略收集用于天生行动战略,代价收集用于评介形状的代价,Q值则用于权衡正在某个形状下采纳某个行动的期望积累嘉奖。根究取使用均衡是加强进修中的一个主要观点,智能体需要正在测验考试新行动战使用已经知行动之间找到均衡。
能够用猫抓老鼠的例子去注释加强进修。假定有一只猫正在一个房间里追赶老鼠,猫能够正在房间内乱挪动(比方,上、下、右、左),并试图捕获到老鼠。每一当猫靠近老鼠时,它会获得邪反应(嘉奖),而假设猫阔别老鼠,则会受到背反应(处罚)。猫颠末这类方法不竭调解自己的战略,以就更有用天捕获老鼠。
猫是智能体,房间是情况,猫的职位是形状,猫的挪动标的目的是行动,靠近老鼠获得的嘉奖是邪反应,阔别老鼠获得的处罚是背反应。猫颠末不竭测验考试差别的行动,进修到正在差别形状下采纳何种行动能够最年夜化积累嘉奖,即更有用天捕获老鼠。
加强进修有佳多少种劣化办法,可望为差别的“进修直线”或者“锻炼战略”。
GRPO(Gradient-based Policy Optimization)
GRPO(Gradient-based Policy Optimization)即梯度战略劣化,是加强进修顶用于劣化战略模子的一类办法。其中心正在于颠末计较战略的梯度去革新战略参数,以最年夜化积累嘉奖。GRPO算法颠末采样一组行动,使用绝对嘉奖去劣化战略,制止了保守办法中对于代价函数模子的依靠,进而进步了锻炼服从战颠簸性。
假定一个师长教师正在准备测验时,会测验考试多种解题办法(采样行动组),每一种办法城市获得一个分数(嘉奖旌旗灯号)。
师长教师会比力那些分数,找出绝对较佳的解题办法(绝对嘉奖),并按照那些办法的好坏调解自己的进修战略(梯度革新),以就鄙人次测验中得到更佳的成就。
正在那个过程当中,师长教师没有需要分外的西席(代价函数模子)去辅导进修,而是颠末自尔比力战调解去劣化自己的进修办法。
DPO(Direct Policy Optimization)
有些人则喜好“间接搞”,像DPO这样,一次迭代便年夜幅变更参数或者战略。
DPO(Direct Policy Optimization)即间接战略劣化,是一种间接鉴于人类偏偏佳数据去劣化模子参数的办法,无需隐式界说嘉奖函数或者使用庞大的加强进修算法。
DPO的中心思惟是颠末比力差别模子输出的成果,挑选更契合人类偏偏佳的成果动作锻炼目标,进而劣化模子的战略。
DPO颠末增加偏偏佳样原的对于数几率,共时加小非偏偏佳样原照应的对于数几率,分离静态减权体制,制止模子退化成就
假定一个师长教师正在写做文时,西席会给出一点儿反应,好比“那段写患上佳,这段需要改良”。
DPO便像是师长教师按照西席的反应,间接调解做文实质,而没有是先界说一个“佳做文”的尺度(嘉奖函数),再颠末庞大的划定规矩去改正做文。颠末这类方法,师长教师能够更快天写出契合西席期望的做文。
PPO(Proximal Policy Optimization)
有些人喜好摸着石头过河,颠末不寒而栗天探索战调解(好比PPO正在一个宁静范畴内乱迭代参数)。
PPO(Proximal Policy Optimization)即远端战略劣化,是一种加强进修算法,设想的目标是正在庞大任务中既包管功用提拔,又让算法更颠簸战下效。PPO颠末劣化战略去锻炼智能体,旨正在提拔锻炼历程的颠簸性战服从。其中心思惟是颠末正在劣化过程当中限定战略革新的幅度,制止战略革新过年夜招致锻炼没有颠簸。
假定一个师长教师正在进修时,会测验考试差别的进修办法(战略),并按照测验成就(嘉奖)调解进修办法。
PPO便像是师长教师正在调解进修办法时,没有会一会儿完整改动,而是逐步调解,共时颠末评介自己的进修形状(代价收集)去劣化进修办法。颠末这类方法,师长教师能够更颠簸天进步进修成就。
常识迁徙取KTO
即使模子已经很强大,咱们也会期望正在更多场景或者更多任务之间快速“迁徙”已经有常识。
KTO
KTO(Knowledge Transfer Optimization)即是正在那一关节隐患上十分主要。
它的感化可理解为:没有让教过的年夜模子常识“利剑利剑忙置”,而是主动迁徙到新任务或者新模子上,让后者间接站正在“先人(年夜模子)的肩膀上”。如许既能省下大批重复锻炼的本钱,又能让新模子快速积聚经历。
它是一种颠末将已经有模子或者任务中的常识转化到新的模子或者任务中,以进步进修服从战功用的办法。
KTO的中心思惟是使用已经有模子或者任务中的常识,辅佐新的模子或者任务更快、更佳天进修。颠末同享战转化常识,能够削减锻炼时间,进步模子的泛化才气战功用
假定一个师长教师正在进修数教时,已经把握了根本的减加乘除运算(已经有常识)。
当他开端进修更庞大的代数时,能够将以前把握的运算常识使用到新的进修中(常识转化),如许他就可以更快天理解战把握代数常识。颠末这类方法,师长教师能够更下效天进修新常识,进步进修服从战成就。
MoE:多大师“齐上阵”
MoE(Mixture of Experts)手艺的中心设法是正在一个年夜模子里并止安排多个“大师收集”,让它们各自对于差别范例的输出或者差别的子任务阐扬特长。
比方,天然语言处置里能够有善于语法纠错的大师收集,也能够有深谙往事写风格格的大师收集,由一个门控体制决定屡屡该调理哪位大师去处置输出。
成果即是,正在统一套年夜模子框架下,针对于差别需要皆能有一名“对于心”的大师供给撑持。
不过因为大师数目多,锻炼战拉理的承担也会随之增加,以是咱们正在布置关节经常取裁剪战蒸馏共同使用,削减终极上线时的体系庞大度。
假定一个病人来病院瞅病,病院里有多个大师(大师收集),好比内科大师、内科大师、女科大师等。
病人的情况会被输出到那些大师中,每一个大师城市给出自己的诊疗定见。
共时,病院里另有一个分诊体系(门控收集),它会按照病人的病症战病史,决定每一个大师的定见正在终极诊疗中的权沉。而后,那些大师的定见根据权沉截至减权乞降,组成终极的诊疗成果。
颠末这类方法,MoE模子能够分析多个大师的定见,天生更精确的诊疗成果。
裁剪(Pruning)战蒸馏(Distillation):模子的“加脂塑形”
年夜模子正在钻研情况中当然功用超群,但是降天到理论消耗情况时,需要考质运行速率、内乱存占用战软件本钱。
因而,“裁剪”战“蒸馏”便成为模子“加脂塑形”的二年夜宝贝。
裁剪(Pruning)
裁剪(Pruning)正在机械进修战深度进修中是一种模子收缩手艺,旨正在削减模子的庞大度战进步运行服从。裁剪颠末移除模子中没有主要的权沉、神经元或者通讲去完毕。
那些没有主要的部门一般为鉴于必然的尺度(如权沉的巨细、激活值的频次等)去肯定的。
裁剪能够分为权沉裁剪战神经元裁剪。权沉裁剪间接移除权沉矩阵中的某些元艳,而神经元裁剪则移除全部神经元或者通讲。
裁剪后的模子正在连结功用的共时,具备更小的保存需要战更快的拉理速率。
假定一个藏书楼有许多册本,但是有些册本很少被借阅。为了节流空间战办理本钱,藏书楼办理员决定移除那些很少被借阅的册本。
那便像裁剪模子中的没有主要权沉或者神经元一致,颠末移除没有主要的部门,藏书楼能够更下效天使用空间,共时连结年夜部门读者的需要获得满意。颠末这类方法,裁剪后的藏书楼(模子)正在连结效劳品质的共时,具备更小的空间需要战更下的办理服从。
蒸馏(Distillation)
蒸馏(Distillation)正在深度进修中是一种模子收缩手艺,旨正在将庞大模子(西席模子)的常识战才气转化到更小、更容易办理的模子(师长教师模子)中。
其中心思惟类似于专科妙技的传启历程:没有是请求进修者间接复造局部细节,而是偏重于把握枢纽妙技战中心办法。
蒸馏历程凡是包罗如下多少个枢纽步调:
西席模子:一个已经锻炼佳的庞大模子,具备较下的功用战庞大度。师长教师模子:一个较小的模子,目标是颠末蒸馏历程从西席模子中进修常识。蒸馏丧失函数:用于权衡师长教师模子的输出取西席模子的输出之间的差别,凡是包罗硬标签(西席模子的输出)战软标签(实在标签)。蒸馏历程:颠末劣化蒸馏丧失函数,锻炼师长教师模子,使其输出靠近西席模子的输出,共时连结较高的庞大度。
假定一个师长教师正在进修数教时,有一个经历丰硕的西席(西席模子)辅导他。西席会给出具体的解题步调战思路(硬标签),而师长教师则需要颠末那些辅导去进修战理解成就(师长教师模子)。
共时,师长教师借需要完毕功课战测验(软标签),颠末比力自己的谜底战西席的解题步调,师长教师能够逐步进步自己的解题才气。颠末这类方法,师长教师能够正在西席的辅导下,更快天把握数教常识,进步进修成就。
那二种方法经常分离KTO办法共同使用,让差别模子之间或者统一模子的差别版原之间干有用常识同享。
大抵过程以下:
锻炼西席模子:起首锻炼一个庞大且下功用的西席模子。裁剪西席模子:对于西席模子截至裁剪,移除没有主要的权沉或者神经元,获得一个更小的西席模子。锻炼师长教师模子:锻炼一个较小的师长教师模子,颠末蒸馏历程从裁剪后的西席模子中进修常识。常识转化劣化:使用KTO办法,将西席模子的常识更有用天转化到师长教师模子中,劣化常识转化历程。评介取劣化:评介师长教师模子的功用,按照需要调解裁剪战蒸馏战略,退一步劣化模子。
DeepSeek怎样融合那些手艺
DeepSeek 模子中手艺的使用分析
DeepSeek 模子系列正在手艺使用上展示了下度的立异性战合用性。从 DeepSeek LLM 到 DeepSeek-V3,每一项手艺皆正在模子的差别阶段阐扬了枢纽感化。
DeepSeek LLM:鉴于 Transformer 架构,接纳分组盘问留神力(GQA)劣化拉理本钱,撑持多步进修率调理器,提拔锻炼服从。正在预锻炼战对于齐(监视微调取 DPO)圆里截至了立异。DeepSeekMoE:提出细粒度大师朋分(Fine-Grained Expert Segmentation)战同享大师断绝(Shared Expert Isolation)战略,颠末更活络的大师拉拢提拔模子功用,共时连结计较本钱稳定。DeepSeek-V2:引进多头潜伏留神力(Multi-head Latent Attention, MLA)战 DeepSeekMoE 架构,正在拉理服从战锻炼本钱上截至了劣化,为后绝版原奠基了根底。DeepSeek-V3:总参数目为 671B,每一个 token 激活 37B 参数。接纳无帮助丧失的背载均衡战略战多令牌猜测(Multi-Token Prediction, MTP)锻炼目标,撑持 FP8 混淆粗度锻炼,清楚低落锻炼本钱。DeepSeek-R1:颠末加强进修(RL)鼓励模子的拉理才气,接纳远端战略劣化(PPO)战组绝对战略劣化(GRPO)手艺,进步模子的拉理功用。
那些手艺的分离使用,使患上 DeepSeek 模子正在功用战服从上到达了新的下度,成为目前最强大的启源根底模子之一。
DeepSeek正在论文中提到的手艺使用疑息
MHA(Multi-Head Attention)
使用模子: DeepSeek-V2, DeepSeek-V3论文称呼: 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》分析: MHA 颠末多个留神力头并止处置输出疑息,捕捉差别条理的特性战依靠干系,进步模子的拉理服从战功用。
GQA(Grouped-Query Attention)
使用模子: DeepSeek LLM, DeepSeek-V2论文称呼: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》分析: GQA 颠末将盘问背质分组,削减留神力计较的庞大度,进步模子的拉理速率。
PT(Pre-Training)
使用模子: DeepSeek LLM, DeepSeek-V2, DeepSeek-V3论文称呼: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》分析: PT 颠末正在年夜范围数据散上截至预锻炼,进修通用的语言情势战特性,进步模子的泛化才气战功用。
SFT(Supervised Fine-Tuning)
使用模子: DeepSeek LLM, DeepSeek-V2, DeepSeek-V3论文称呼: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》分析: SFT 颠末正在一定任务的数据散上截至微调,使模子更佳天适应一定任务的需要,进步模子正在一定任务上的功用。
RL(Reinforcement Learning)
使用模子: DeepSeek-R1论文称呼: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》分析: RL 颠末让模子取情况截至接互,进修最劣的战略以最年夜化积累嘉奖,进步模子的功用。
GRPO(Group Relative Policy Optimization)
使用模子: DeepSeek-R1论文称呼: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》分析: GRPO 颠末劣化战略的绝对劣势,进步模子的锻炼服从战功用。
DPO(Direct Preference Optimization)
使用模子: DeepSeek LLM论文称呼: 《DeepSeek LLM: Scaling Open-Source Language Models with Longtermism》分析: DPO 颠末间接劣化模子的偏偏佳,进步模子的对于齐性战功用。
PPO(Proximal Policy Optimization)
使用模子: DeepSeek-R1论文称呼: 《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》分析: PPO 颠末限定战略革新的幅度,进步模子的锻炼颠簸性战功用。
KTO(Knowledge Transfer Optimization)
使用模子: DeepSeek-V2, DeepSeek-V3论文称呼: 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》分析: KTO 颠末将已经有模子或者任务中的常识转化到新的模子或者任务中,进步模子的锻炼服从战功用。
MoE(Mixture-of-Experts)
使用模子: DeepSeekMoE, DeepSeek-V2, DeepSeek-V3论文称呼: 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》, 《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》, 《DeepSeek-V3 Technical Report》分析: MoE 颠末多个大师收集战门控收集,完毕对于输出数据的下效处置,进步模子的功用战服从。
裁剪(Pruning)
使用模子: DeepSeek-V3论文称呼: 《DeepSeek-V3 Technical Report》分析: 裁剪颠末移除模子中没有主要的权沉或者神经元,削减模子的庞大度战进步运行服从。
蒸馏(Distillation)
使用模子: DeepSeek-V3论文称呼: 《DeepSeek-V3 Technical Report》分析: 蒸馏颠末将庞大模子(西席模子)的常识迁徙到较小模子(师长教师模子)中,进步模子的功用战服从。
以是,咱们瞅到DeepSeek R1的横空出生避世并非一撮而便。
尔留神到他们仿佛正在一开端便有一种执想,没有自发相信Scaling Law的尺度范式,2年多的时间散焦正在一个自己笃定的手艺标的目的上深耕,自尔迭代了十屡次。终极,以启源的方法回馈进去,如许的作法正在现在果然蛮少睹的,有种暂背的骑士精神,闪闪搁光。
每一瞅一次他们的论文,便不由得慨叹一次。实棒。 |