职贝云数AI新零售门户

标题: 创新不朽!DeepSeek‑V4技术亮点解析 [打印本页]

作者: J6BRl3n6    时间: 昨天 22:07
标题: 创新不朽!DeepSeek‑V4技术亮点解析
(, 下载次数: 0)

4月24日DeepSeek终于放出DeepSeek‑V4预览版本模型权重同步开源

(, 下载次数: 0)

为什么说“终于”?由于前一天 OpenAI 刚丢出 GPT‑5.5大家都在等 DeepSeek 送上重磅惊喜结果一看榜单知识推理维度相比还有一定差距
但假如你只看这一项分数就划走能够会错过这代模型真正有意思的地方浙江大学人工智能学院的朱霖潮研讨员不断跟踪关注 DeepSeek 的技术迭代帮大家把视野从榜单挪到另一个维度下去看看他的评析

一个观察

假如只看评测榜单,DeepSeek-V4 是一份合格但不冷艳的成绩单。在 SimpleQA-Verified 上输给 Gemini 3.1 Pro 17.7 分,在 HLE 上输 6.7 分,在 Apex 上输给 GPT-5.4 Max 15.8 分。在知识推理这个最受关注的维度上,DeepSeek-V4-Pro-Max 相距第一梯队的间隔没有减少,DeepSeek 本人也承认差距大约 3 6 个月。
但换个角度看就不一样了。相较于 DeepSeek-V3.2,在 100 token 上下文长度下,DeepSeek-V4-Pro 仅需其 27% 的算力耗费和 10% KV Cache 显存占用量。算力和显存同时降低近一个数量级,意味着在 KV Cache 受限的部署环境下,同等显存预算有望支撑 10 倍的上下文容量提升。这一点也直接体如今官方定价上:DeepSeek-V4-Flash 缓存命中价每百万 token 0.02 元,缓存未命中 1 元,输入 2 元;并且全系列模型缓存命中价已永世降至首发价的 1/10。配合实测约 90% 以上的缓存命中率,绝大部分 token 都按命中价计费,长上下文运用的常态成本被压到了一个新的量级。

举一个详细场景。最近爆火的 OpenClaw 是一个跑在本地的开源 AI 智能体,能管邮件、订机票、跑脚本,最受用户称道的是持久记忆和跨会话的延续性。这类智能体过去要做长期记忆,工程上的常规做法是每隔几轮就紧缩历史、滚动摘要、丢弃早期对话,不然做单次推理成本就会随对话长度爆炸。当百万 token 跑得起且跑得便宜,这套复杂且有损的紧缩流水线就可以拆掉,智能体能直接把几个月前的偏好、几十轮之前定下的目的、本地知识库里的全量上下文一同带在身上,大大提升长程义务的才能。

  DeepSeek-V4 的稀疏留意力  

业界处理长上下文 O(L²) 复杂度的道路,目前至少有三条在并行推进。

一条是线性留意力。MiniMax-M1 用的闪电留意力(lightning attention)是这条道路的代表性方案之一,把 Softmax 函数换成核函数化逼近,O(L²) 直接降到 O(L),键值缓存也从随长度增长退步成固定大小的形态矩阵。

另一条是稀疏留意力。DeepSeek-V3.2 DeepSeek 稀疏留意力(DSA)是代表,保留 Softmax 的非线性,经过取前 k 个(top-k)把每个查询实践参与的键值数量从 L 降到 k。被选取的键值表达力没损失,但前 k 个之外的键值表达力彻底消逝,密集的长程依赖容易被漏掉。

DeepSeek-V4 走的是第三条,多尺度紧缩 + 稀疏/稠密混合。滑动窗口看最近的原始 token,紧缩稀疏留意力(CSA)把序列压 4 倍后再取前 k 个,捕捉全局细节;重紧缩留意力(HCA)把序列压 128 倍后做稠密留意力,保住全局粗粒度视野。两种留意力在层间交错,这一层因取前 k 个而漏掉的部分,下一层用全局视野全体感知来兜底。三条通路全都保留 Softmax,区别只在作用的键值粒度。代价是异构键值规划、三套计算核(kernel)、上下文并行(CP)切分都得分别处理,工程复杂度分明高于混合线性留意力。

DeepSeek-V4 的这种设计就是为了处理长上下文的成绩。百万 token 上下文里的有效依赖呈现出两个特点,一是分布稀疏,真正影响当前查询的关键 token 占比能够只要千分之一甚至更低;二是地位不可预测,关键 token 既能够在临近窗口,也能够在序列扫尾、中段或远端。单一稀疏策略要么选得太狠漏掉关键内容,要么选得太宽算力又压不上去。DeepSeek的解法是承认没有一个稀疏策略能同时兼顾这两端,干脆把义务拆成两半:准确召回交给取前 k 个的稀疏选择,全局兜底交给重紧缩后的稠密扫描。

基建和架构在协同优化

主流解读把 DeepSeek-V4 的工程纵深归结为团队工程才能强。笔者以为更准确的描画是,这种工程纵深来自于基础设备积累与架构选择之间的协同优化形式。架构选择会受基建才能约束,反过来基建建设也会被架构需求拉着走。

先看基建拉动架构的方向。DeepSeek-V3 时代铺好的FP8训练框架,让 DeepSeek-V4 可以在其上迭代出 FP4量化感知训练,且 FP4FP8在满足特定缩放比例条件下能做近似无损的反量化,使量化感知训练流程很大程度复用现有 FP8框架。假如FP8通路没打磨好,DeepSeek-V4 不会选FP4这条路。同理,TileLang 作为通用计算核平台,让流形约束超衔接这种需求 Sinkhorn-Knopp 投影和自定义反向传播的改动有了能够;假如纯靠手写 CUDA 完成流形约束超衔接,工程量是宏大的。

反过来看架构拉动基建的方向。紧缩稀疏留意力(CSA)和重紧缩留意力(HCA)的混合留意力改变了 KV cache 的基本外形,异构键值缓存规划也就成了必须补上的系统才能。层与层之间的 KV 外形和访问形式曾经不同,传统 PagedAttention 那套一致页面假设到了 DeepSeek-V4 这里就会失效。

(, 下载次数: 0)

由此可以推断,DeepSeek 外部的工作方式更接近架构组和基建组互相协同。架构组提新组件时心里有底层模块清单,基建组扩展才能时也知道架构下一步要做什么。DeepSeek-V4 真正的护城河不在某个单点优化上,而在这种协同优化的形式本身。

写在最后

回到扫尾那个成绩:DeepSeek-V4 评测榜单不冷艳,那它的真正分量在哪里?

在于它把长上下文的成本曲线压上去一个数量级。过去几年大家围绕短上下文设计的整套工程范式,比如检索加强生成做信息召回、滚动摘要做记忆紧缩、文档切块再合并做长文档处理,本质上都是在算力约束下凑合用的绕路。当百万 token 不再是朴素品,这些绕路也就得到了存在的理由,开源和闭源的竞争维度也随之多了一项:长上下文运用的单位成本。

至于 DeepSeek-V4 在知识推理层面,与其说是才能有差距,不如说是工程预算的分配结果。每一代模型的总训练算力都是有限的,DeepSeek 这一代把可观比例花在了长上下文架构验证、稀疏留意力调参、新一代基建打磨上,必然会挤占用于知识密集型多轮训练的算力。将来一两年,运用层最稀缺的是冷门理想的覆盖,还是百万级上下文跑得动、跑得便宜?DeepSeek 押的是后者。但更值得记下的不是这次结果本身,而是 DeepSeek DeepSeek-V3 DeepSeek-V4 两代模型上攒下的底层模块库和协同设计的工作方式,这才是决议下一代竞争走向的东西。

4月17日,英伟达CEO黄仁勋上了一档知名科技播客。掌管人问他:“假如中国AI公司DeepSeek把新模型跑在华为芯片上,这意味着什么?”

黄仁勋回答:“这对美国来说,将是一个可怕的结果。”

几天之后,华为昇腾官方就宣布,DeepSeek-V4在昇腾平台完成首发适配。架构上,DeepSeek-V4的细粒度专家并行(EP)通讯方案在英伟达GPU和昇腾NPU上完成了双平台验证,最高带来1.96倍的推理加速;量化上,DeepSeek-V4采用的MXFP4是OCP标准格式,与昇腾950系列原生支持的MXFP4途径直接对接,昇腾950超节点2026年Q4上市后,DeepSeek-V4-Pro的部署成本将大幅下降。

当中国头部开源模型团队和中国头部AI芯片团队末尾在架构层深度协同,封锁带来的边际效应只会越来越弱,中国AI产业依然具有自主包围、重整旗鼓的坚定决计与硬核实力。

大模型的每一次迭代,背后是科研工作者日以继夜的坚守、打破极限的勇毅。DeepSeek-V4以“不诱于誉,不恐于诽,率道而行,端然正己”的定力,在喧嚣浪潮中沉潜深耕,走出了一条自主创新之路,创始了一个又一个“DeepSeek时辰”。

作为拔尖创新人才培育的重镇,浙江大学一直努力于把“会读书的人”培育成“会创造的人”。从“悟空”类脑计算机到“黑豹”四足机器人,从全球首例克隆牦牛到纳米LED,“杭州六小龙”浙大系占据半壁江山……这些引领性、创始性打破的背后,正是全体浙大师生校友用智慧和汗水践行“求是创新”的校训。

择一事,终终身,以笃行,尽精微。致敬创造者,创新不朽!

内容来源:浙江大学图片来源于网络




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5