开启左侧

DeepSeek专题 | DeepSeek V4 读法:它不是一个模型晋级,而是一套百万上下文系统

[复制链接]
在线会员 BLpt8N 发表于 前天 07:26 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录





适宜:懂 Transformer根底 的读者,约 8 分钟。MoE 译为混淆大师,KV cache保存 英文。

假设只问“DeepSeek V4 比 V3 强正在那里”,谜底很简单酿成一串新名词汇:CSA、HCA、mHC、Muon、FP4/FP8、OPD、Agent 沙箱。

但是那没有是最佳的读法。

更佳的读法是先问一个体系成就:假设一个模子果然要持久处置 1M token 的高低文,它需要正在哪些处所共时省钱、稳住、跑快?

从那个成就瞅,V4 的中心并非单面模子才气提拔,而是环绕“百万高低文可效劳化”干了一整套架媾和工程配合。

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w2.jpg

上图能够动作那组文章的舆图。V4 共时正在模子构造、锻炼颠簸性、高粗度、MoE零碎 、拉理慢存战 Agent根底 装备上入手。所有一个面零丁瞅皆像手艺细节,搁到共同才像一个谜底:让少高低文没有是尝试室目标,而是能够被线上效劳装载的才气。
二个模子,没有是二个伶仃产物

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w3.jpg

公然质料里,V4 Preview包括 二个主要模子:V4-Pro 战 V4-Flash。前者是更年夜的才气型模子,后者是更高本钱、更快照应的服从型模子。条记里给出的枢纽数字是:V4-Pro 为 1.6T 总参数、49B 激活参数;V4-Flash 为 284B 总参数、13B 激活参数。

那里有一个主要提醒:瞅 MoE 模子不克不及只瞅总参数。总参数决定容质上限,但是每一个 token理论 激活几参数,才更间接作用一次拉理的计较质。V4-Pro 战 V4-Flash 的区分,很年夜水平上即是“才气估算”战“效劳本钱估算”的差别拉拢。

那也是 MoE 的根本逻辑:模子能够有许多大师,但是每一个 token 只挪用此中一部门。因而,模子容质能够持续扩大,而单 token 的计较本钱没必要按总参数线性增加。
V4 的主线:1M context 可效劳化

少高低文并非把窗心少度改为 1M 便完毕了。

正在自返回拉理中,每一天生一个新 token,皆要读与汗青高低文的 KV cache。高低文越少,慢存越年夜;慢存越年夜,隐存压力、戴严压力、并收压力城市上来。更省事的是,实在使用里经常有同享前缀:统一份少文档、统一个代码堆栈、统一段汗青对于话,会被差别恳求重复使用。

以是 V4 的少高低文设想最少要共时答复三个成就:

第一,汗青 token 太多,attention 如何算?

第两,KV cache 太年夜,如何存、如何读、如何复用?

第三,MoE 大师太多,token 散发战成果收受接管的通信如何躲藏?

V4 的 Hybrid Attention 用 CSA 战 HCA处置 第一个成就;同构 KV cache 取 on-disk KV cache处置 第两个成就;MegaMoE 取 wave-based expert scheduling处置 第三个成就。
为何那是一套体系,而没有是一堆 trick

把那些模块串起去瞅,会发明 V4 的设想目标十分不合。

CSA/HCA 从序列维度收缩 KV,低落少高低文 attention 的读写本钱;FP4/FP8 退一步抬高权沉、激活、indexer 路子的保存战戴严;MoE 让模子具有更年夜容质但是只激活一部门大师;MegaMoE 把 dispatch、Linear-一、SwiGLU、Linear-二、combine 融到更松的施行路子里;mHC、Muon、Anticipatory Routing 又是为了让这样年夜的 MoE 能颠簸锻炼。

一个大略的道法是:

V4 的模子层担当“少瞅但是瞅对于”,锻炼层担当“很年夜但是没有炸”,拉理层担当“少高低文借能并收”,后锻炼取 Agent 层担当“把才气构造成可施行任务”。

那即是为何咱们不克不及只把 V4 当做“V3 以后又年夜了一面”。它更像一次体系沉构:目标没有是某个 benchmark 上的单面提拔,而是让 1M token、高拉理本钱、MoE 年夜模子、少任务 Agent 正在统一个工程系统里同存。
读那组文章的挨次

前面 5 篇会按观点鸿沟间断。

第两篇道少高低文留神力:从 DSA 到 CSA/HCA,理解为何 V4 没有是让 query 瞅统统汗青 token,而是把汗青收缩、选择、再读与。

第三篇道 MoE 拉理体系:为何大师模子真实易的是通信,MegaMoE 战 wave scheduling 又是怎样把通信时间躲到计较上面。

第四篇道锻炼战高粗度:mHC、Muon、Anticipatory Routing、SwiGLU clamping、FP4/FP8 混淆粗度,皆是为了让超年夜 MoE 锻炼没有得控。

第五篇回瞅 V3 到 V4 的干系:V4 并非颠覆 V3,而是正在 MLA、DeepSeekMoE、MTP、aux-loss-free load balancing、FP8、DualPipe 等体系遗产上持续发展。

第六篇道后锻炼取 Agent:为何从混淆 RL 转背 On-Policy Distillation,为何 Agent才干 面前 必然有东西挪用、沙箱战锻炼仄台。

第七天再干一次“教而时习之”:把六篇文章收缩成一弛认知舆图,复盘自己终归教到了甚么。
一个更合用的读法:把 V4 算作本钱函数

手艺陈述里最简单让人镇静的是新构造,但是工程降天里最主要的是本钱函数。

对于 1M context 来讲,最少有四类本钱共时存留。

第一是计较本钱。每一天生一个 token,要干 attention、MoE FFN、norm、routing 等计较。CSA/HCA、MoE 稠密激活战高粗度 GEMM,皆正在低落那部门本钱。

第两是慢存本钱。少高低文会发生弘大的 KV cache。假设慢存不克不及收缩、分层战复用,模子即使能跑,也很易效劳大批并收恳求。

第三是通信本钱。MoE 大师分离正在差别 GPU 或者节面上,token 被路由到大师时会发生 dispatch/combine 通信。通信假设不克不及战计较重叠,稠密激活的支益会被对消。

第四是锻炼颠簸性本钱。模子越年夜、大师越多、高粗度越保守,越简单呈现数值非常、loss spike、路由震动。mHC、Muon、Anticipatory Routing 那些设想,即是为了削减锻炼失利战重复回滚的危急。

用那四类本钱从头瞅 V4,会发明许多名词汇皆再也不伶仃。CSA/HCA 没有是“新 attention 名词汇”,而是正在削减计较弛缓存本钱;MegaMoE 没有是“新 kernel 名词汇”,而是正在削减通信等候;OPD 没有是“又一种后锻炼办法”,而是正在把多范围才气兼并到一个可效劳模子里,低落线上体系庞大度。
钻研读者战工程读者别离该瞅甚么

假设您更关心钻研成就,能够重心瞅 V4 怎样正在疑息保实战收缩之间弃取。好比 CSA 先收缩再 top-k,会没有会错细致粒度凭证?HCA 的全部细读怎样补脚 CSA 的部门稠密挑选?mHC 对于超深收集的旌旗灯号传布有甚么辅佐?OPD 取 RL 的鸿沟正在那里?

假设您更关心工程降天,能够重心瞅另外一些成就:1M prefix 怎样复用?KV cache 是常驻隐存、降盘,仍是部门沉算?MoE dispatch 的 all-to-all 通信怎样躲藏?FP4 expert weights 会没有会作用布置 kernel 战隐存计划?多 teacher OPD 的 hidden states、teacher heads、full-vocab KL 如何调理?

那二条线皆很主要。钻研线注释“为何那个办法可以有用”,工程线注释“为何它能被实在体系装载”。V4 值患上读,恰好是因为它把那二条线搁正在统一个体系里。
小结

来日诰日那篇只干一件事:把 V4 从“名词汇汇合”复原成“体系成就”。

假设要用一句话归纳综合:DeepSeek V4 是一个以百万高低文可效劳化为中间设想的 MoE零碎 。

它的枢纽没有正在于某个模块零丁多斑斓,而正在于留神力收缩、KV 慢存、高粗度、MoE 调理、锻炼颠簸性、后锻炼战 Agent根底 装备之间相互咬开。

下一篇,咱们便从最中心的少高低文成就开端:1M token究竟 为何不克不及靠堆隐存处置?
参照质料

    DeepSeek V4 Preview Release:https://api-docs.deepseek.com/news/news260424DeepSeek-V4-Pro Model Card:https://huggingface.co/deepseek-ai/DeepSeek-V4-ProDeepSeek-V3 Technical Report:https://arxiv.org/html/2412.19437vLLM Blog:DeepSeek V4 in vLLM:https://vllm.ai/blog/2026-04-24-deepseek-v4
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )