职贝云数AI新零售门户

标题: DeepSeek＂技术上至少抢先半年＂,到底抢先了什么? [打印本页]

作者: 6KjHg7gd 时间: 昨天 20:51
标题: DeepSeek＂技术上至少抢先半年＂,到底抢先了什么?
4月30日，AI迷信家马骁腾看完DeepSeek V4的58页技术报告后，对腾讯旧事说了一句话：

"DeepSeek在一些技术上至少抢先半年。"

这句话很快被截取传播，但很多人漏掉了限定：不是全体抢先，是在工程架构和几个关键技术方向上，至少抢先行业半年。

全体呢？DeepSeek本人坦承，仍落后GPT-5.4和Gemini 3.1 Pro约3到6个月。
那到底抢先了什么？

DSec容器：训练可以"读档重来"

马骁腾反复提的，是DeepSeek自研的DSec容器技术。

训练大模型像在黑屋子里探索。你花了3周算力跑一个方向，发现走歪了，从头再来。每一次试错都烧掉几百万真金白银。

DSec给这个黑屋子装了"存档点"。训练过程中随时给整个系统形态拍一张快照，一旦后续方向走偏，能瞬间闪回到那个工夫点接着重来。

而且这个"存档"不是只能存一个。它本质上是个沙箱系统，一个集群能同时开几十万个"存档位"，专门给Agent训练用——Agent需求反复试错、反复重来，DSec刚好对口。

马骁腾的原话："这种工程灵敏度，我目前还没在国内第二家公司见过，包括国外大厂也没看法到这个技术对Agent训练的重要性。"

简单说：别人训练走歪了，糜费几周甚至几个月算力重来；DeepSeek能随时"读档"。这个效率差不是百分之几，是几倍几十倍。
三个万亿级跑通的工程活

马骁腾以为，DeepSeek做的很多"水下功夫"，其他大厂还在小模型上试，DeepSeek曾经在万亿参数级别残缺跑通了。
1. OPD训练范式——让"教师"边做边教

一个大模型外面有几百个"专家"小模型，怎样让它们配合得更好？以前的办法是让专家先总结一套教案，再教给其他模型照着练。成绩是教案写得再好，也不如亲手做一遍来得准。OPD的做法是让专家边做边教——本人先实操一遍，把实战阅历直接灌给先生。DeepSeek是业界第一个在万亿参数模型上把这个跑通的，其他公司还在小模型上验证。
2. 长上下文成本控制——原来处理一本小说的钱，如今能处理八本

V4把上下文窗口拉到了100万token——大概相当于一次性塞出来一本长篇小说。但单token算力只用了前代的27%，KV缓存只剩10%。不是靠省钱省出来的，是改地基，不是调参数能调出来的。
3. 磁盘KV缓存——把热菜放进冰箱，吃的时分再热

模型推理时，KV缓存存在显存里，贵且小。DeepSeek把它搬到硬盘上持久化存储，用的时分再调出来。听着简单？硬盘比显存慢好几个数量级，直接搬上去模型会卡死。DeepSeek的做法是预判模型接上去需求哪些数据，提早从硬盘搬回显存——就像提早把菜从冰箱拿出来冻结，等你要用的时分刚好能用。这道题很多团队想解但没解出来，DeepSeek跑通了。

这三点单拎出来任何一项，都不是"抢先一点点"的量级。但DeepSeek把它们全塞进了一个版本里。
昇腾芯片：被忽略的更大变量

马骁腾专访里专门提到了一个容易被忽略的细节：华为昇腾芯片第一次支撑起了万亿参数级前沿模型的训练。

这事的影响能够比V4本身还大。

V4-Pro的预训练仍在英伟达H800/H100上完成，但V4-Flash的后训练曾经由昇腾完成。后训练是模型成型后的精修阶段，虽然算力需求比预训练小，但曾经是国产芯片第一次在这个环节扛大梁。

当前对外API推理也运转在昇腾上。这意味着不只是实验室里跑通了，是真的在给用户干活。

DeepSeek从架构设计层面做了三件事脱离英伟达生态：用MXFP4量化甩开NVIDIA FP8绑定、用TileLang自研算子脱离CUDA、用MegaMoE2交融内核跑通昇腾适配。技术细节不展开，关键是结果——

发布当天，8家国产芯片厂24小时内完成适配：华为昇腾、寒武纪、海光、摩尔线程、沐曦、昆仑芯、平头哥真武、天数智芯。

昇腾950单卡算力是英伟达H20的2.87倍，采购价仅1/4。

马骁腾判别："国内第一梯队的模型厂商，预训练曾经部分可以用昇腾交换英伟达了，后训练还没到那个程度。"

原来只要一个选项，如今末尾有别的路走了。
那篇被连夜删掉的论文

4月30日同一天，DeepSeek多模态团队担任人陈小康在X上发推，公布了新论文《Thinking with Visual Primitives》，表示"Excited to release"。

几小时后，推文删了，GitHub上的论文撤了，5月1日打开已是404。官方没给任何解释。

多家媒体在论文消逝前保存了全文。APPSO、凤凰网等5家媒体的判别高度分歧：删稿不是由于做错了，是做得太好了，底牌亮多了。

这篇论文处理了一个一切大模型都有的缺点：能"看见"图片，但说不准地位。你问它"合影里左起第三个人穿什么"，它常常答错；让它数图里有几个人，常常多数或多数。

DeepSeek的解法是给模型装了"手指头"——把点坐标、边界框这些视觉原语直接嵌入思想链，让模型像人一样边指边想。

计数准确率比Claude高了20个百分点；迷宫导航66.9%，其他模型接近瞎蒙的50%。

(, 下载次数: 0)

效率更绝：别人用1000个残缺的视觉token描画一张图，DeepSeek只用81个坐标指针"指着说"，每个指针就几个数字。按总参数量算，紧缩比7056倍。

新浪的报道补充了一个判别：删稿能够是由于灰度上线识图功能后，直接把核心底牌亮给了一切竞争对手。很多数据需求重新查验和修正，有望重新上传到arxiv。
DeepSeek没死磕编程

很多人吐槽V4编程才能没甩开对手。马骁腾说了，这是DeepSeek故意选的——死磕编程，功能推到顶尖不难，但代价是通用才能拉胯。这次V4把钱花在了更难的地方：通用世界知识和日常写作。这类义务没有标准答案，没法靠强化学习硬刷，只能靠模型底子好。

换句话说：编程是单项赛，谁都能卷；通用才能是全能赛，卷不出来。
最后算一笔账

DeepSeek本人在技术报告里很坦诚：全体才能仍落后GPT-5.4、Gemini 3约3到6个月。

但在工程效率、长上下文成本、多模态空间推理、国产算力适配这几个方向，曾经反超。

价格：V4-Pro百万输入token 6块钱，是GPT-5.5的1/36。Flash版2块。

功能差几个月，价格差几十倍。算力上，英伟达不再是独一解了。

这个账，你本人算。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)