开启左侧

从DeepSeek-V3到Kimi K2:八种古代 LLM 架构大比较

[复制链接]
在线会员 KxS1X 发表于 2025-7-22 11:30:27 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
自最初的 GPT 架构开辟此后,已经已往了七年。乍一瞅,回忆 GPT-2(2019 年),瞻望 DeepSeek-V3 战 Llama 4(2024-2025 年),人们可以会惊奇于那些模子正在构造上仍然云云类似。固然,职位嵌进已经从绝对嵌进演退到扭转嵌进(RoPE),多头留神力体制已经根本被分组盘问留神力体制所代替,而更下效的 SwiGLU 也代替了 GELU 等激活函数。但是正在那些细微的改良面前 ,咱们可否真实瞅到了突破性的变革,仍是只是正在挨磨差异的架构根底?LLM架构子散:DeepSeek V3/R一、OLMo 二、Ge妹妹a 三、Mistral Small 3.一、Llama 四、Qwen三、SmolLM3战Kimi 2

1、DeepSeek V3/R1
DeepSeek V3 中引进的二种枢纽架构手艺,那些手艺进步了其计较服从,并使其有别于很多其余 LLM:多头潜伏留神力(MLA)、混淆大师(MoE):1.1 多头潜伏留神力(MLA)MLA旨正在处置保守多头留神力(MHA)正在年夜范围模子中内乱存占用太高的成就。取分组盘问留神力(GQA)比拟,MLA颠末收缩键战值弛质去退一步削减内乱存使用。MHA 取 GQA 的比力。此处,组巨细为 2,此中二个盘问同享一个键值对于。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w2.jpg
正在MLA中,键战值弛质正在保存到KV慢存以前会被收缩到一个高维空间。正在拉理时,那些收缩的弛质会被从头投影回本初巨细。这类设想固然增加了分外的矩阵乘法操纵,但是清楚低落了内乱存占用。
MLA(用于 DeepSeek V3 战 R1)取通例 MHA 的比力。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w3.jpg
1.2 混淆大师(MoE) MoE将保守的前馈模块交流为多个大师层,每一个大师层也是一个前馈模块。正在拉理时,一个路由器会挑选一小部门大师截至激活。比方,DeepSeek V3有256个大师,但是屡屡拉理仅激活9个大师(1个同享大师战8个由路由器挑选的大师)。 V3/R1 中的混淆大师 (MoE) 模块(左)取具备尺度前馈块的 LLM(右)的比力图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w4.jpg
2. OLMo 22.1 回一化层安排OLMo 2接纳后回一化(Post-Norm)战略,取年夜大都LLM接纳的前回一化(Pre-Norm)差别。这类设想旨正在进步锻炼颠簸性。正在OLMo 2中,回一化层被安排正在留神力模块战前馈模块以后,而没有是以前。这类设想取本初Transformer架构中的Post-LN类似,但是使用了RMSNorm而非LayerNorm。Post-Norm、Pre-Norm战OLMo 2的Post-Norm变体的比照图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w5.jpg
钻研表白,后回一化有帮于锻炼颠簸性,特别是正在没有使用经心设想的进修率预冷战略时。OLMo 2的锻炼丧失直线表白,这类设想正在锻炼过程当中表示更加颠簸。Pre-Norm(如GPT-二、Llama 3战很多其余模子中使用的)取OLMo 2的Post-Norm变体的锻炼颠簸性比照图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w6.jpg
2.2 QK-NormQK-Norm是正在多头留神力模块中引进的分外RMSNorm层,使用于盘问(q)战键(k)以前。这类设想有帮于正在使用RoPE以前对于输出截至回一化,进而削减锻炼过程当中的数值没有颠簸。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w7.jpg
OLMo 2 战 Llama 3;能够瞅出,除 OLMo 2仍然 使用保守的 MHA 而非 GQA 以外,它们的架构正在其余圆里绝对类似。Llama 3 战 OLMo 2 的架构比力。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w8.jpg
3. Ge妹妹a 33.1 滚动窗心留神力滚动窗心留神力旨正在削减KV慢存的内乱存需要,共时连结模子的功用。这类设想出格合用于需要处置少序列的任务。颠末滚动窗心留神力完毕的KV慢存内乱存节流。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w9.jpg
滚动窗心留神力限定了每一个盘问职位的高低文范畴,使其仅存眷部门窗心内乱的实质。取保守的全部留神力体制比拟,这类设想清楚削减了KV慢存的内乱存占用。比方,Ge妹妹a 3将滚动窗心巨细从Ge妹妹a 2的4096削减到1024,并调解了全部取部门留神力的比率。通例留神力(右)战滚动窗心留神力(左)的比照图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w10.jpg
钻研表白,滚动窗心留神力对于模子的修模功用作用微小,但是正在内乱存使用上戴去了清楚的劣化。这类设想使患上Ge妹妹a 3正在处置少序列时越发下效。通例留神力(右)战滚动窗心留神力(左)的比照图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w11.jpg
3.2 回一化层安排Ge妹妹a 3正在留神力模块战前馈模块先后皆安排了RMSNorm层。这类设想分离了前回一化战后回一化的长处,既连结了锻炼颠簸性,又进步了拉理服从。OLMo 2战Ge妹妹a 3的架构比照图;留神Ge妹妹a 3中分外的回一化层。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w12.jpg
4. Mistral Small 3.1Mistral Small 3.1颠末自界说分词汇器、削减KV慢存战削减层数去劣化模子。别的,它抛却了滚动窗心留神力,转而使用更下效的FlashAttention手艺。那些劣化使患上Mistral Small 3.1正在拉理提早上劣于Ge妹妹a 3,共时连结了较下的功用。这类设想出格适宜需要快速拉理的使用场景。OLMo 2战Ge妹妹a 3的架构比照图;留神Ge妹妹a 3中分外的回一化层。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w13.jpg
5. Llama 4Llama 4接纳了取DeepSeek V3类似的架构,但是正在某些细节上截至了劣化,以进步模子的功用战服从。深度供索V3(6710亿参数)战Llama 4 Maverick(4000亿参数)的架构比照图。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w14.jpg

Llama 4使用了分组盘问留神力(GQA)而非多头潜伏留神力(MLA),而且正在MoE模块中使用了更少但是更年夜的大师。别的,Llama 4正在每一个Transformer块中瓜代使用MoE模块战麋集模块。6. Qwen36.1 麋集模子Qwen3 0.6B战Llama 3 1B的架构比照图
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w15.jpg

Qwen3的麋集模子接纳了较深的架构(更多Transformer块),具备更多的层,而 Llama 3 是一种更严的架构,具备更多的留神力头。Qwen3 的内乱存占用较小,但是天生速率较缓。6.2 MoE模子DeepSeek-V3 战 Qwen3 235B-A22B 的架构比力。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w16.jpg

Qwen3的MoE模子接纳了取DeepSeek V3类似的架构,但是正在某些细节上有所差别,比方没有使用同享大师。这类设想使患上模子正在锻炼时能够进修更多常识,而正在拉理时连结下效。7. SmolLM3
SmolLM3 架构瞅起去相称尺度。不外,最幽默的一面大概是它使用了 NoPE(无职位嵌进)。
Qwen3 4B 战 SmolLM3 3B 的架构比力。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w17.jpg
7.1 无职位嵌进(NoPE)NoPE没有使用所有职位嵌进(绝对职位嵌进或者扭转职位嵌进),而是依靠果因留神力掩码去连结序列的自返回挨次。这类设想使患上模子正在锻炼过程当中能够进修到隐式的职位疑息。绝对职位嵌进示例
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w18.jpg

钻研表白,NoPE正在少度泛化圆里表示更佳,即正在处置更少序列时功用降落较少。这类设想使患上SmolLM3正在处置少序列任务时表示优良。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w19.jpg
8. Kimi 2Kimi 2接纳了DeepSeek V3的架构,并截至了扩大。它使用了Muon劣化器而非AdamW,那可以是其锻炼丧失直线表示优良的启事之一。别的,Kimi 2正在MoE模块中使用了更多的大师,正在MLA模块中使用了更少的头。DeepSeek V3 战 Kimi K2 的架构比力。
从DeepSeek-V3到Kimi K2:八种现代 LLM 架构年夜比力w20.jpg
那些设想使患上Kimi 2正在锻炼过程当中表示优良,锻炼丧失直线光滑且降落疾速。那可以有帮于该模子跃居上述基准尝试的榜尾

https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )