开启左侧

DeepSeek-V4、Qwen3为什么选择了MTP?

[复制链接]
✅尔是丁师兄,专一于智能驾驭年夜模子,连续分享LLM口试搞货。

✅年夜模子1v1教导,已经辅佐多名同学胜利登陆

offer喜报

单年夜厂ssp+单独角兽人材方案,总包100w+。尔最优良的教员之一,校招灰尘降定!

需要年夜模子1v1教导的同学,公疑尔上车。办法+真战+伴跑,戴您一步步把offer拿稳。

正在 DeepSeek-V4,MiMo-V2,Minimax-M2,Qwen3-Next,GLM-4.5 的最新手艺陈述里,有一个被配合接纳的手艺模块 MTP(Multi-Token Prediction)。

它不但动作预锻炼的帮助 loss,提拔了模子结果,又能动作 draft model中止 谋利解码拉理加快,完毕了多快佳省,酿成了 LLM 标配之选。

DeepSeek-V四、Qwen3为何挑选了MTP?w2.jpg

01

锻炼提效

最先传闻仍是 DeepSeek-V3 的手艺陈述里,瞅到名字的第一眼,觉得是一个 token输出 ,共时并止输出多个职位 token 的几率,有那个歪曲也很一般。

最先的时候,MTP 正在 LLM范围 即是正在 Meta 的 paper “Better & Faster Large Language Models via Multi-token Prediction”中被界说的。

那个论文里建立了 2 面:

teacher forcing 下的 NTP 简单陷入正在部门情势上、疏忽”易的决议计划”,样原服从高,以是 MTP 的引进是为了帮助锻炼,提拔结果的。

MTP 模块自己是 self-speculative decoding,一个 token输出 ,过了主 Transformer 后,并止多个 head输出 前面 k 个 token,每个 head 皆是一个 Transformer block。

那正在 decode 的时候,能够充任 draft model,得到 3 倍加快。

DeepSeek-V四、Qwen3为何挑选了MTP?w3.jpg

meta 论文里的并止 MTP

那是一个很契合直观的设想,但是到了 DeepSeek-V3,那二个感化依旧存留,但是MTP 的模子架构发作了很年夜的变革。

DeepSeek-V3 paper 里有一句很大白的比照:

“Different from Gloeckle et al. (2024), which parallelly predicts D additional tokens using independent output heads, we sequentially predict additional tokens and keep the complete causal chain at each prediction depth.”

DeepSeek-V四、Qwen3为何挑选了MTP?w4.jpg

DeepSeek-v3 的图

meta 的 paper 里,理论也比照了并止架媾和 casual 架构,论断是结果持仄,他们挑选了谋利解码功用更佳的并止架构。但是理论上,名字皆是 casual,理论确年夜差别。

DeepSeek-V四、Qwen3为何挑选了MTP?w5.jpg

如图,meta 的 casual 是只是通报上一个 block 的 hidden state,不把解码后的下一个 token embedding 搁退输出。

DeepSeek 的 MTP 每一个 depth 皆是洁净的 fully-conditioned next-token 任务,那正在 decoding 时更庞大,因为要把 next-one token 解码进去,才气估量出 next-two。

可是 DeepSeek主要 是使用它去提拔 pre-train 的服从,Draft Model 是他的可选项。

Our MTP strategy mainly aims to improve the performance of the main model, so during inference, we can directly discard the MTP modules and the main model can function independently and normally.

为何 MTP无效 ,DeepSeek 的注释是能把锻炼旌旗灯号变患上浓密,提拔数据服从,延迟计划未来 token 预估。但是用了二个“may”隐患上十分的松散战没有自大。

On the one hand, an MTP objective densifies the training signals and may improve data efficiency. On the other hand, MTP may enable the model to pre-plan its representations for better prediction of future tokens.

MiniMax 道法是“供给更丰硕的锻炼旌旗灯号”,并给了 ablation study。

减 MTP 后 MATH 、KorBench 14.1→15.0、HumanEval有提拔,而 MMLU战 ARC-Challenge根本 持仄,他们的论断是 MTP 正在各 benchmark 上不合有提拔,且 reasoning-heavy 任务支益最年夜。

DeepSeek-V四、Qwen3为何挑选了MTP?w6.jpg

Meta 的 paper 有个十分幽默的 insight,MTP无效 性取参数目相干。小容质的模子反而无害,突破阈值以后支益扩大,且模子 size 越年夜删益越清楚。

DeepSeek-V四、Qwen3为何挑选了MTP?w7.jpg

02

拉理加快

先道一下 MTP 的谋利解码是如何干的,和为何会有代价。

正在 LLM decode 阶段,NTP 屡屡咽一个 token,那戴去了一个成就,decode 阶段是极端 memory-bound,它要不竭天来推与 prefill 的 KV Cache,但是计较的 batch 倒是恳求数 x 1 token。

MTP 动作 draft model,每个 token 预估只过一个 Transformer block,它以更快的速率解码 K 个 token。

而后构成一个恳求数 x k 的 batch 给到主模子干一次前背算出几率,MTP 猜对于了便承受,MTP 猜错了便仅承受第一个 token,而后从下一个 token位置 持续那个轮回。

乍一瞅,猜错的价格很下,不但分外跑了 MTP,另有一次主模子前背。

但是语言的特性即是布满了高熵的 token,MTP承受 率正在 85%~90%,大都情况走了委屈路,分外糜掷了算力,年夜大都情况下,因为 MTP 的沉质加之年夜 Batch 多 token 计较,主模子突破 memory-bound 而得到分外加快。

好比,MiMo取得 了 2.6 倍的加快。

DeepSeek-V四、Qwen3为何挑选了MTP?w8.jpg

各野正在预锻炼阶段皆是 K=1,即树立一个 block 的 Transformer 干 MTP,loss 权沉树立为 0.3,进水到 0.1。

但是 Minimax 战 MiMo 使用 MTP 动作 draft model中止 谋利解码,均为 K=3,分外的二份权沉那里去呢?

谜底是复造,可是复造的细节差别,MiMo 的 MTP 战主模子同构,接纳了沉质化(dense FFN + SWA)构造,每一个 block 仅 0.33B,它是复造预锻炼时的谁人 k=1 的 block。

而 Minimax 的 MTP 战主模子(FFN+Attention)完整共构,它挑选复造的是主模子的最初一层,而非预锻炼的谁人 MTP。

复造的机缘也差别,MiMo 是正在后锻炼开端的时候才复造,Minimax 正在进水时便复造了权沉,先解冻主模子曲到 loss动摇 ,再翻开分离锻炼。

而它们正在 post-train 的 RL 里皆干告终开的锻炼,即 MTP 到场了 RL 的 Rollout 里,制止承受率会随散布漂移而崩。

03

构造细节

再道道 MTP 的模子构造细节,许多人道它像一个 RNN——每个 MTP block 背后通报 hidden state,也输出上一个 token的 embedding。确实很像,那把尔住明晰 MTP 的根本输出输出。

反而简单被疏忽的,是它仍然是一个内部构造十分尺度的 Transformer,好比 MiMo 的模子正在 MTP 中仅用了 SWA(Sliding Window Attention),它有自力的 KV Cache。

之以是仅用 SWA 是动作 draft model,正在解码的时候能够少与 KV Cache,退一步延缓 memory-bound。它自力于主模子,能够自由天挑选它的 Attention战略 。

精确的道法是分二个轴瞅:沿深度(k=1, 2, 3)像一条级联 RNN,每级吃上一级的输出;而正在统一个 k 内乱、跨序列职位,它即是尺度 Transformer,戴自留神力战 KV。

DeepSeek-V四、Qwen3为何挑选了MTP?w9.jpg

把典范的 MTP 图纵背重叠,以 t2位置 为 Case,一次前背的的流出如图所示。

主模子正在预估 t3,MTP-1 正在预估 t4,分外输出了 t3 的 token embedding,MTP-2 正在预估 t5,分外输出了 t4 的 embedding。

token embedding 战 hidden state 的融合接纳了 RMSNorm 战 Linear Projection。输出的 Output Head 同享,输出 embedding 同享。

最初,用多快佳省去描绘 MTP十分 揭切:

    多:multi-token predict 即是一次前背多个 token。

    快:动作谋利解码的 draft model 使用,1.8~3 倍加快。

    佳:动作 pre-train 的帮助 loss,提拔了 coding 及庞大拉理任务结果。

    省:把 decode memory-bound 的算力糜掷给省了返来。

reference:

    Better & Faster Large Language Models via Multi-token Prediction

    DeepSeek-V3 Technical Report

    The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

    MiMo-V2-Flash Technical Report

    DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

作家:九西席

滥觞:https://zhuanlan.zhihu.com/p/2049155123906188091

END

减入学习

✅尔是丁师兄,专一于智能驾驭年夜模子,连续分享LLM口试搞货。

✅年夜模子1v1教导,已经辅佐多名同学胜利登陆

微疑:dsx女伶 href="https://www.taojin168.com" target="_blank">AIGC

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )