职贝云数AI新零售门户
标题:
DeepSeek"技术上至少抢先半年",到底抢先了什么?
[打印本页]
作者:
6KjHg7gd
时间:
昨天 20:51
标题:
DeepSeek"技术上至少抢先半年",到底抢先了什么?
4月30日,AI迷信家马骁腾看完DeepSeek V4的58页技术报告后,对腾讯旧事说了一句话:
"DeepSeek在一些技术上至少抢先半年。"
这句话很快被截取传播,但很多人漏掉了限定:不是全体抢先,是在工程架构和几个关键技术方向上,至少抢先行业半年。
全体呢?DeepSeek本人坦承,仍落后GPT-5.4和Gemini 3.1 Pro约3到6个月。
那到底抢先了什么?
DSec容器:训练可以"读档重来"
马骁腾反复提的,是DeepSeek自研的DSec容器技术。
训练大模型像在黑屋子里探索。你花了3周算力跑一个方向,发现走歪了,从头再来。每一次试错都烧掉几百万真金白银。
DSec给这个黑屋子装了"存档点"。训练过程中随时给整个系统形态拍一张快照,一旦后续方向走偏,能瞬间闪回到那个工夫点接着重来。
而且这个"存档"不是只能存一个。它本质上是个沙箱系统,一个集群能同时开几十万个"存档位",专门给Agent训练用——Agent需求反复试错、反复重来,DSec刚好对口。
马骁腾的原话:"这种工程灵敏度,我目前还没在国内第二家公司见过,包括国外大厂也没看法到这个技术对Agent训练的重要性。"
简单说:别人训练走歪了,糜费几周甚至几个月算力重来;DeepSeek能随时"读档"。这个效率差不是百分之几,是几倍几十倍。
三个万亿级跑通的工程活
马骁腾以为,DeepSeek做的很多"水下功夫",其他大厂还在小模型上试,DeepSeek曾经在万亿参数级别残缺跑通了。
1. OPD训练范式——让"教师"边做边教
一个大模型外面有几百个"专家"小模型,怎样让它们配合得更好?以前的办法是让专家先总结一套教案,再教给其他模型照着练。成绩是教案写得再好,也不如亲手做一遍来得准。OPD的做法是让专家边做边教——本人先实操一遍,把实战阅历直接灌给先生。DeepSeek是业界第一个在万亿参数模型上把这个跑通的,其他公司还在小模型上验证。
2. 长上下文成本控制——原来处理一本小说的钱,如今能处理八本
V4把上下文窗口拉到了100万token——大概相当于一次性塞出来一本长篇小说。但单token算力只用了前代的27%,KV缓存只剩10%。不是靠省钱省出来的,是改地基,不是调参数能调出来的。
3. 磁盘KV缓存——把热菜放进冰箱,吃的时分再热
模型推理时,KV缓存存在显存里,贵且小。DeepSeek把它搬到硬盘上持久化存储,用的时分再调出来。听着简单?硬盘比显存慢好几个数量级,直接搬上去模型会卡死。DeepSeek的做法是预判模型接上去需求哪些数据,提早从硬盘搬回显存——就像提早把菜从冰箱拿出来冻结,等你要用的时分刚好能用。这道题很多团队想解但没解出来,DeepSeek跑通了。
这三点单拎出来任何一项,都不是"抢先一点点"的量级。但DeepSeek把它们全塞进了一个版本里。
昇腾芯片:被忽略的更大变量
马骁腾专访里专门提到了一个容易被忽略的细节:华为昇腾芯片第一次支撑起了万亿参数级前沿模型的训练。
这事的影响能够比V4本身还大。
V4-Pro的预训练仍在英伟达H800/H100上完成,但V4-Flash的后训练曾经由昇腾完成。后训练是模型成型后的精修阶段,虽然算力需求比预训练小,但曾经是国产芯片第一次在这个环节扛大梁。
当前对外API推理也运转在昇腾上。这意味着不只是实验室里跑通了,是真的在给用户干活。
DeepSeek从架构设计层面做了三件事脱离英伟达生态:用MXFP4量化甩开NVIDIA FP8绑定、用TileLang自研算子脱离CUDA、用MegaMoE2交融内核跑通昇腾适配。技术细节不展开,关键是结果——
发布当天,8家国产芯片厂24小时内完成适配:华为昇腾、寒武纪、海光、摩尔线程、沐曦、昆仑芯、平头哥真武、天数智芯。
昇腾950单卡算力是英伟达H20的2.87倍,采购价仅1/4。
马骁腾判别:"国内第一梯队的模型厂商,预训练曾经部分可以用昇腾交换英伟达了,后训练还没到那个程度。"
原来只要一个选项,如今末尾有别的路走了。
那篇被连夜删掉的论文
4月30日同一天,DeepSeek多模态团队担任人陈小康在X上发推,公布了新论文《Thinking with Visual Primitives》,表示"Excited to release"。
几小时后,推文删了,GitHub上的论文撤了,5月1日打开已是404。官方没给任何解释。
多家媒体在论文消逝前保存了全文。APPSO、凤凰网等5家媒体的判别高度分歧:删稿不是由于做错了,是做得太好了,底牌亮多了。
这篇论文处理了一个一切大模型都有的缺点:能"看见"图片,但说不准地位。你问它"合影里左起第三个人穿什么",它常常答错;让它数图里有几个人,常常多数或多数。
DeepSeek的解法是给模型装了"手指头"——把点坐标、边界框这些视觉原语直接嵌入思想链,让模型像人一样边指边想。
计数准确率比Claude高了20个百分点;迷宫导航66.9%,其他模型接近瞎蒙的50%。
(, 下载次数: 0)
上传
点击文件名下载附件
效率更绝:别人用1000个残缺的视觉token描画一张图,DeepSeek只用81个坐标指针"指着说",每个指针就几个数字。按总参数量算,紧缩比7056倍。
新浪的报道补充了一个判别:删稿能够是由于灰度上线识图功能后,直接把核心底牌亮给了一切竞争对手。很多数据需求重新查验和修正,有望重新上传到arxiv。
DeepSeek没死磕编程
很多人吐槽V4编程才能没甩开对手。马骁腾说了,这是DeepSeek故意选的——死磕编程,功能推到顶尖不难,但代价是通用才能拉胯。这次V4把钱花在了更难的地方:通用世界知识和日常写作。这类义务没有标准答案,没法靠强化学习硬刷,只能靠模型底子好。
换句话说:编程是单项赛,谁都能卷;通用才能是全能赛,卷不出来。
最后算一笔账
DeepSeek本人在技术报告里很坦诚:全体才能仍落后GPT-5.4、Gemini 3约3到6个月。
但在工程效率、长上下文成本、多模态空间推理、国产算力适配这几个方向,曾经反超。
价格:V4-Pro百万输入token 6块钱,是GPT-5.5的1/36。Flash版2块。
功能差几个月,价格差几十倍。算力上,英伟达不再是独一解了。
这个账,你本人算。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5