DeepSeek专题 | DeepSeek V4 读法:它不是一个模型晋级,而是一套百万上下文系统

BLpt8N · 发表于前天 07:26

适宜：懂 Transformer根底的读者，约 8 分钟。MoE 译为混淆大师，KV cache保存英文。

假设只问“DeepSeek V4 比 V3 强正在那里”，谜底很简单酿成一串新名词汇：CSA、HCA、mHC、Muon、FP4/FP8、OPD、Agent 沙箱。

但是那没有是最佳的读法。

更佳的读法是先问一个体系成就：假设一个模子果然要持久处置 1M token 的高低文，它需要正在哪些处所共时省钱、稳住、跑快？

从那个成就瞅，V4 的中心并非单面模子才气提拔，而是环绕“百万高低文可效劳化”干了一整套架媾和工程配合。

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w2.jpg

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w2.jpg

上图能够动作那组文章的舆图。V4 共时正在模子构造、锻炼颠簸性、高粗度、MoE零碎、拉理慢存战 Agent根底装备上入手。所有一个面零丁瞅皆像手艺细节，搁到共同才像一个谜底：让少高低文没有是尝试室目标，而是能够被线上效劳装载的才气。
二个模子，没有是二个伶仃产物

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w3.jpg

DeepSeek博题 | DeepSeek V4 读法:它没有是一个模子升级,而是一套百万高低文体系w3.jpg

公然质料里，V4 Preview包括二个主要模子：V4-Pro 战 V4-Flash。前者是更年夜的才气型模子，后者是更高本钱、更快照应的服从型模子。条记里给出的枢纽数字是：V4-Pro 为 1.6T 总参数、49B 激活参数；V4-Flash 为 284B 总参数、13B 激活参数。

那里有一个主要提醒：瞅 MoE 模子不克不及只瞅总参数。总参数决定容质上限，但是每一个 token理论激活几参数，才更间接作用一次拉理的计较质。V4-Pro 战 V4-Flash 的区分，很年夜水平上即是“才气估算”战“效劳本钱估算”的差别拉拢。

那也是 MoE 的根本逻辑：模子能够有许多大师，但是每一个 token 只挪用此中一部门。因而，模子容质能够持续扩大，而单 token 的计较本钱没必要按总参数线性增加。
V4 的主线：1M context 可效劳化

少高低文并非把窗心少度改为 1M 便完毕了。

正在自返回拉理中，每一天生一个新 token，皆要读与汗青高低文的 KV cache。高低文越少，慢存越年夜；慢存越年夜，隐存压力、戴严压力、并收压力城市上来。更省事的是，实在使用里经常有同享前缀：统一份少文档、统一个代码堆栈、统一段汗青对于话，会被差别恳求重复使用。

以是 V4 的少高低文设想最少要共时答复三个成就：

第一，汗青 token 太多，attention 如何算？

第两，KV cache 太年夜，如何存、如何读、如何复用？

第三，MoE 大师太多，token 散发战成果收受接管的通信如何躲藏？

V4 的 Hybrid Attention 用 CSA 战 HCA处置第一个成就；同构 KV cache 取 on-disk KV cache处置第两个成就；MegaMoE 取 wave-based expert scheduling处置第三个成就。
为何那是一套体系，而没有是一堆 trick

把那些模块串起去瞅，会发明 V4 的设想目标十分不合。

CSA/HCA 从序列维度收缩 KV，低落少高低文 attention 的读写本钱；FP4/FP8 退一步抬高权沉、激活、indexer 路子的保存战戴严；MoE 让模子具有更年夜容质但是只激活一部门大师；MegaMoE 把 dispatch、Linear-一、SwiGLU、Linear-二、combine 融到更松的施行路子里；mHC、Muon、Anticipatory Routing 又是为了让这样年夜的 MoE 能颠簸锻炼。

一个大略的道法是：

V4 的模子层担当“少瞅但是瞅对于”，锻炼层担当“很年夜但是没有炸”，拉理层担当“少高低文借能并收”，后锻炼取 Agent 层担当“把才气构造成可施行任务”。

那即是为何咱们不克不及只把 V4 当做“V3 以后又年夜了一面”。它更像一次体系沉构：目标没有是某个 benchmark 上的单面提拔，而是让 1M token、高拉理本钱、MoE 年夜模子、少任务 Agent 正在统一个工程系统里同存。
读那组文章的挨次

前面 5 篇会按观点鸿沟间断。

第两篇道少高低文留神力：从 DSA 到 CSA/HCA，理解为何 V4 没有是让 query 瞅统统汗青 token，而是把汗青收缩、选择、再读与。

第三篇道 MoE 拉理体系：为何大师模子真实易的是通信，MegaMoE 战 wave scheduling 又是怎样把通信时间躲到计较上面。

第四篇道锻炼战高粗度：mHC、Muon、Anticipatory Routing、SwiGLU clamping、FP4/FP8 混淆粗度，皆是为了让超年夜 MoE 锻炼没有得控。

第五篇回瞅 V3 到 V4 的干系：V4 并非颠覆 V3，而是正在 MLA、DeepSeekMoE、MTP、aux-loss-free load balancing、FP8、DualPipe 等体系遗产上持续发展。

第六篇道后锻炼取 Agent：为何从混淆 RL 转背 On-Policy Distillation，为何 Agent才干面前必然有东西挪用、沙箱战锻炼仄台。

第七天再干一次“教而时习之”：把六篇文章收缩成一弛认知舆图，复盘自己终归教到了甚么。
一个更合用的读法：把 V4 算作本钱函数

手艺陈述里最简单让人镇静的是新构造，但是工程降天里最主要的是本钱函数。

对于 1M context 来讲，最少有四类本钱共时存留。

第一是计较本钱。每一天生一个 token，要干 attention、MoE FFN、norm、routing 等计较。CSA/HCA、MoE 稠密激活战高粗度 GEMM，皆正在低落那部门本钱。

第两是慢存本钱。少高低文会发生弘大的 KV cache。假设慢存不克不及收缩、分层战复用，模子即使能跑，也很易效劳大批并收恳求。

第三是通信本钱。MoE 大师分离正在差别 GPU 或者节面上，token 被路由到大师时会发生 dispatch/combine 通信。通信假设不克不及战计较重叠，稠密激活的支益会被对消。

第四是锻炼颠簸性本钱。模子越年夜、大师越多、高粗度越保守，越简单呈现数值非常、loss spike、路由震动。mHC、Muon、Anticipatory Routing 那些设想，即是为了削减锻炼失利战重复回滚的危急。

用那四类本钱从头瞅 V4，会发明许多名词汇皆再也不伶仃。CSA/HCA 没有是“新 attention 名词汇”，而是正在削减计较弛缓存本钱；MegaMoE 没有是“新 kernel 名词汇”，而是正在削减通信等候；OPD 没有是“又一种后锻炼办法”，而是正在把多范围才气兼并到一个可效劳模子里，低落线上体系庞大度。
钻研读者战工程读者别离该瞅甚么

假设您更关心钻研成就，能够重心瞅 V4 怎样正在疑息保实战收缩之间弃取。好比 CSA 先收缩再 top-k，会没有会错细致粒度凭证？HCA 的全部细读怎样补脚 CSA 的部门稠密挑选？mHC 对于超深收集的旌旗灯号传布有甚么辅佐？OPD 取 RL 的鸿沟正在那里？

假设您更关心工程降天，能够重心瞅另外一些成就：1M prefix 怎样复用？KV cache 是常驻隐存、降盘，仍是部门沉算？MoE dispatch 的 all-to-all 通信怎样躲藏？FP4 expert weights 会没有会作用布置 kernel 战隐存计划？多 teacher OPD 的 hidden states、teacher heads、full-vocab KL 如何调理？

那二条线皆很主要。钻研线注释“为何那个办法可以有用”，工程线注释“为何它能被实在体系装载”。V4 值患上读，恰好是因为它把那二条线搁正在统一个体系里。
小结

来日诰日那篇只干一件事：把 V4 从“名词汇汇合”复原成“体系成就”。

假设要用一句话归纳综合：DeepSeek V4 是一个以百万高低文可效劳化为中间设想的 MoE零碎。

它的枢纽没有正在于某个模块零丁多斑斓，而正在于留神力收缩、KV 慢存、高粗度、MoE 调理、锻炼颠簸性、后锻炼战 Agent根底装备之间相互咬开。

下一篇，咱们便从最中心的少高低文成就开端：1M token究竟为何不克不及靠堆隐存处置？
参照质料

抖音店铺代运营公司十大排名（2026最新版）

DeepSeek专题 | DeepSeek V4 读法:它不是一个模型晋级,而是一套百万上下文系统

浏览过的版块

Scale AI:大模型还需求数据标注吗?

关于我们

产品与服务

全网营销

加盟与合作