开启左侧

deepseek-V4算法工程技术深化浅出

[复制链接]
在线会员 ebE3N 发表于 昨天 11:03 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
近来认真把deepseek V4的手艺面全面盘了下。根本弄大白了。收拾整顿归纳一下。文章有面少,分多少个章节收吧。1、总起从V4的全部58页手艺陈述去瞅,有一个论断是大白的:今朝的年夜模子锻炼时没有充实的,此中没有充实有二面:一个是因为模子构造太年夜,返回shape太年夜(V4的token字典文章中写了是十多万),招致锻炼这样年夜的模子,GPu散群不敷用,而且锻炼散也是不敷的。为何分词汇器的字典数太年夜,便锻炼没有充实呢?很简问的原理:咱们预锻炼任务是一句话的前面token,猜测前面呈现哪一个token几率最年夜。举例[1]:输出:来日诰日饱楼下人群喧闹,而尔甚么__猜测:下二个token是1 也 2不。咱们需要从10万多的token里,进修到:呈现也 不 那二个token的几率最年夜。咱们需要进修许多陈设拉拢才气教会。因而,固然锻炼需要许多数据了。因为那个骨干成就,全部V4的手艺陈述,皆是牢牢环绕那正在锻炼没有充实的情况下,怎样从算法/工程二个圆里改良,让模子获得更佳的部门最劣解的。两 deepseek V4劣化面算法一、环绕多头留神力体制的劣化。设想了一种混淆留神力体制,分离了收缩稠密留神力(CSA)战沉度收缩留神力(HCA)。CSA的深刻理解是:输出128K的高低文,他每一4个token “抽” 一个token,如许成4倍收缩,也能保存细节实质;HCA呢,是模棱两可式部分收缩,能瞅全部疑息。二、环绕模子部分构造的劣化。流形束缚超跟尾(mHC)Manifold-Constrained Hyper-Connections (mHC)。那块该当当下没有是最佳的算法,华科&头条弄的那个MODA该当是更佳的[1].简朴介绍下mHC。transformer的冷炙好跟尾即是将上一层的输出,取原层提炼更初级特性的输出简朴相减,当作下一层的输出。当模子变年夜层数变多后,模子后段每一层提炼到的旌旗灯号很少了。相称于缥缈了。HC (超链交)的意义是,让模子构造层内乱、层间皆有留神力层去教,进而让每一层皆阐扬结果,相称于每一层各不相谋,但是如许会招致旌旗灯号紊乱,层数越多,锻炼很简单没有支敛,deepseek正在HC的根底上对于留神力矩阵增加了束缚,让他能够颠簸进修到数据+模子里的旌旗灯号。三、劣化器。deepseek用的是muon劣化器,其中心组件即是原科矩阵论里面的牛整理迭代法。各人能够先查下原科矩阵论课本的 Newton-Schulz迭代。每一年期终测验必考面。工程四、细粒度大师并止。因为模子年夜,MOE锻炼的时候,他采纳了expert并止的方法,以放慢锻炼速率。五、使用 TileLang[2] 完毕活络下效的算子内乱核开辟。正在理论使用中,经心设想的模子架构会发生数百个细粒度的 Torch ATen 算子。接纳 TileLang开辟了一组融合内乱核,用以替换此中的尽年夜大都算子,进而以起码的事情质完毕最劣功用。6 开辟了一套锻炼拉理框架,锻炼拉理历程可追溯,出bug能查成就,处置成就后持续锻炼。七、FP4质化。有些处所用FP4去暗示模子构造,如许模子占用隐存少,拉理快。8 锻炼框架劣化。对于前面道的算法劣化面:muon mhc 干了下效的工程完毕。9 拉理框架劣化。主要道的是KV cache的劣化。所谓的KV cache,拿前面的例子[1]来讲,猜测 ‘也’的时候,您能够先把“来日诰日饱楼下人群喧闹,而尔甚么" 那些token的kv 数据存cache里,如许运行结果佳许多。后锻炼10 加强进修锻炼范式改变。鉴于人类的反应进修RLHF呢,是人类对于模子的二个输出成果干一个排序,而后锻炼一个reward model 去进修那个喜好,前面用那个reward model 去锻炼加强进修的战略。deepseek V4 没有是如许了。他弄了一个评分尺度(尔理解类似嘉奖函数),每一个输出,按照尺度挨分,能获得一个间接的嘉奖旌旗灯号如许锻炼更间接。11 弄了许多范围大师收集,去干蒸馏。比方写代码的范围大师,弄法令的范围大师收集,而后把他们范围大师收集的logit输出,跟通用待锻炼的年夜模子收集的输出,算一个KL 集度,去计较他们的相长途度,去反背传布锻炼。里面,评介体系,锻炼中的一点儿细节劣化,另有许多劣化面。因为尔以为没有是很内乱核,便出搁进去。

deepseek v4完整 构造图
参照文件:1 https://github.com/hustvl/MoDA2 https://github.com/tile-ai/tilelang
3https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )