职贝云数AI新零售门户

标题: DeepSeek 打算怎样赚钱,而且是赚大钱? [打印本页]

作者: GBh28zHK    时间: 2026-5-25 23:32
标题: DeepSeek 打算怎样赚钱,而且是赚大钱?
你有没有想过,DeepSeek 到底打算怎样赚钱,而且是赚大钱?

他们没有像智谱(GLM)、月之暗面(MoonShot)和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至昔日,他们甚至连一个 Harness 都没有(虽然最近听说他们末尾招人做了)。而且,DeepSeek 还长期努力于开源,乐此不疲地分享本人的“独家秘方”。这难道是疯了吗?还是纯粹在烧钱?那些正预备给他们投资 100 亿美元的投资人们,难道是在把钱往水里扔吗?

不,在我看来,恰恰相反!!!

在这里,我想聊聊我对他们至今所作所为的观察,以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的目光显然盯着一个大得多的终极奖杯——他们不只本人能冲击 1 万亿美元的市值,还能特地帮中国催生出一个高达 10 万亿美元的产业巨兽!

(, 下载次数: 6)

重新审视 DeepSeek 的“英雄之旅”

DeepSeek 总是顺风而行,他们不屑于去卷那种“比别人好一点点”的微调模型,也不急着去卖当下的运用(比如各种编程套餐)。我在 2025 年 1 月 27 日发过一条疯传的推文,谈到了我所看到的现象,而如今的剧情正变得越来越精彩。

在英雄之旅这个最经典的叙事结构里,主角一末尾并不知道本人的终极使命是什么。他是在一路上摸爬滚打,逐渐领悟了伟大的天命,然后扫除万难去完成它。在这个过程中,他会遇到有数的冷言冷语,但他选择无视;他会遇到不怀好意的对手;他本身也有致命的弱点或短板——但他最终打败了自我,达成了使命。他直面那些看似无法跨越的难关,却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呼吁。这也是为什么 DeepSeek 在博得全球有数粉丝狂热追捧和尊崇的同时,也招来了不少争议。

接上去我将为你详细拆解,DeepSeek 在这条路上曾经走得足够远,并且曾经窥见了他们的终极宿命:他们的格局根本不是卖什么编程订阅,而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈,并以此顺理成章地让本人斩获 1 万亿美元的市值。在这个过程中,他们甚至还会随手帮一把东方硬件生态中的一众新玩家。

欢迎大家讨论与指正。

(, 下载次数: 8)

先来算一笔好玩的 KV 缓存账:

来看看知名半导体分析机构 @SemiAnalysis_发布的这条非常及时的推文:

(, 下载次数: 6)

我们先来做点风趣的 KV 缓存数学题。别担心,假如你厌恶数学,我们也只是用最近发布的 KV 缓存计算器,来看看 DeepSeek V4 Pro 到底能省下多少 KV 缓存,并把它跟最新的智谱 GLM 和阿里通义千问(Qwen)模型做个对比。

我以 100 万(1M)上下文长度为例停止计算,假设 KV 精度为 8 位(8-bit),索引器精度为 16 位(16-bit)。你本人也可以去这个网站上玩玩:https://kvcache.ai/tools/kv-cache-calculator/

(, 下载次数: 8)

在 100 万上下文深度下:

请留意,这还是在以下前提下:

DeepSeek 在缓解显存压力方面做出了奠基性的贡献。假如这项创新被行业广泛采纳,将让那些需求处理超长义务的长程 AI 智能体(Long-horizon Agents)成本低到难以置信,从而彻底解锁下一代簇新的运用场景。

(, 下载次数: 8)

疯狂背后的精细章法

可以在完全不牺牲模型质量的前提下,把 KV 缓存紧缩得如此之小,正是他们敢把长时缓存(Long-held Cache)价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%,而且他们还能帮你收费保留好几个小时!

对于长程义务来说,由于缓存体量极小,将其“转存”(Offloading)到固态硬盘(SSD)并在需求时重新加载,就变得极为划算。这就大大降低了对 HBM 的依赖。要知道,HBM 目前全球严重短缺,而且从中国 AI 硬件产业的角度来看,这也是制造难度极高的核心痛点。更绝的是,DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术,详细细节都在他们的论文里:https://arxiv.org/pdf/2602.21548

(, 下载次数: 8)

谁是这场“KV 缓存紧缩战”的直接受益者?

谁在大量供应 SSD?别忘了长江存储(YMTC)正在崛起为全球 3D NAND 闪存巨头。闪存技术(NAND)让 DeepSeek 可以直接读取缓存,从而避免了每次都重新计算 KV 的宏大算力糜费。反过来,DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不只让长江存储受益,也让整个产业链一切玩家跟着大赚。

(, 下载次数: 6)

但是,格局绝不只仅局限于 NAND 和 SSD:

低功耗内存(LPDDR)异样蕴藏着宏大的潜力,可以用作存放模型权重(Weights)的“大后方”,并在需求时源源不断地“流式传输”到 HBM 中,从而进一步减轻 HBM 的容量压力。你可以参考这篇博客:https://www.lmsys.org/blog/2025-09-25-gb200-part-2/。下面我用一张图来解释这套方案是如何运作的:

虽然 DeepSeek 并没有专门针对这一方案做特殊开发,但他们那拥有庞大专家数量、并且支持 4 位(4-bit)权重的混合专家模型架构,完美契合了这套方案,使得其实施起来易如反掌。

(, 下载次数: 2)

这种创新配合上他们那可谓逆天的无损超紧凑 KV 缓存技术,让系统对 HBM 的吞吐和容量需求出现了断崖式下跌。

中国谁在做 LPDDR?长鑫存储(CXMT)。目前他们在 LPDDR 的速度上仅落后国际顶尖程度半代,在容量密度上仅落后一代。差距非常小!这意味着在不久的将来,除了管够的 NAND 闪存,中国本土生态还将迎来漫山遍野的 LPDDR 内存。那这能缓解算力芯片的压力吗?答案是:相对能。请接着往下看……

(, 下载次数: 7)

聪明地玩转存储,还能随手给 GPU 和 ASIC 减负

道理很容易了解:用 NAND 闪存来存放 KV 缓存,不只能延伸缓存的保存工夫、减轻 HBM 的压力,还能免去反复计算的烦恼,这等于变相给 GPU 和 ASIC(公用集成电路,即各类定制化 AI 算力芯片)的计算单元松了绑。那么,除了作为模型权重的“即时流式传送带”之外,LPDDR 还能以其他方式帮上忙吗?答案异样是:可以。

LPDDR 可以用来存储海量的“Engram”(印迹模块)。DeepSeek 在他们的论文(https://arxiv.org/pdf/2601.07372)中指出,虽然混合专家模型架构可以经过条件计算(Conditional Computation)来扩大模型的容量,但传统的 Transformer 架构缺乏一种自然的知识检索机制,只能笨拙地经过高昂的“计算”去模拟“检索”。为此,他们引入了 Engram 模块,将经典的 N-gram 嵌入技术晋级为基于哈希、工夫复杂度为的瞬间查找,创造了一个他们称之为“条件内存”(Conditional Memory)的全新稀疏维度。这极大地省下了计算量,但代价是需求宏大的内存空间来存放这个庞大的嵌入表。这是一次经典的“用空间(存储)换工夫(计算)”,其高明之处在于,读取“存储”的成本远比停止计算要便宜得多(在 LPDDR 里查一下,可比让大模型整整跑一轮前向传播省钱太多了)。在大规模部署时,这是一笔划算到家了的买卖。这就是他们如何经过狂砸内存来省下算力的机密!!!

(, 下载次数: 7)

这种取舍几乎太值了:由于缺乏极紫外光刻机(EUV),无法在单个芯粒(Chiplet)上做到同等的晶体管密度,中国的 GPU 和 ASIC 在纯粹的原始浮点运算才能(FLOPs)上,注定会长期落后于东方顶尖显卡。同时,国内在先进封装技术上也处于追逐形态。因此,假如能应用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来补偿算力的优势,这种“扬长避短”的打法几乎是绝配。

清点 DeepSeek 的一盘大棋:

纵观这些令人眼花纷乱的创新和他们做出的种种选择(至今不做多模态、不做语音模型,至于视频生成?那是什么东西?),DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐烦肠下一盘 10 万亿美元的大棋,目的是亲手扶持起一套独立于东方之外的“备选硬件生态”。

这不只让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运转 AI 模型的成本降上去后,本来功能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的实在选项。而且,这些开源创新也将反哺东方的开源社区,并给东方那些试图应战英伟达的芯片初创企业带来一线活力。

一切的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新:

在 DeepSeek V2 中引入混合专家模型(MoE)和 MLA:MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力耗费;而多头潜在留意力机制(MLA, Multi-head Latent Attention)更是把 KV 缓存直接砍掉了 90%,使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文(https://arxiv.org/pdf/2405.04434)中提出。正是仰仗这些绝活,他们后来才能仅仅用 2048 张被阉割过的 H800 GPU,就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。

(, 下载次数: 6)

DSA(密集腾跃留意力机制):在论文(https://ariv.org/pdf/2512.02556)中推出,旨在增添长上下文场景下的计算量,同时缓解 HBM 的带宽压力。它确保了计算量不会随着上下文的拉长而发生爆炸式增长。看看下面的图表——DeepSeek-v3.2 的处理工夫在上下文拉长时依然稳如泰山。

(, 下载次数: 3)

mHC(修正超衔接):在 2025 年 12 月的论文(https://arxiv.org/pdf/2512.24880)中初次亮相。mHC是 DeepSeek 在宏观架构上的一大创新,它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代传播上去的标准残差衔接,而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”,并允许模型自主学习如何停止混合。最为关键的是,它经过数学手腕(将混合矩阵经过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上)强迫让这些混合矩阵满足双随机性,从而在数学上完美确保了信号强度在穿过恣意深度的网络层时都不会衰减。

简而言之,mHC 经过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构,在几乎不需求额外多花一丁点算力的状况下,让单位参数发挥出了分明更高的“智商”。

(, 下载次数: 5)

CSA 与 HSA:在 2026 年 4 月发布的 DeepSeek V4 Pro 技术文档(https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf)中亮相。它们经过对 KV Token 停止深度紧缩,把本来就曾经很小的 KV 缓存需求又砍掉了 90%!同时大幅降低了所需的浮点运算量,一举帮 HBM 和 GPU/ASIC 彻底解套。

(, 下载次数: 6)

论文(https://arxiv.org/pdf/2601.07372)于 2026 年第一季度推出,正如后面所说,它在某种意义上完成了“用内存(LPDDR)换算力”。下面的详细图表展现了在总体参数预算完全分歧的状况下,Engram 带来的宏大功能跃升。

(, 下载次数: 8)

将计算与通讯的堆叠压榨到极致:诸如“双途径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫停止的闪转腾挪。但 DeepSeek 更进一步,甚至末尾反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免糜费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档:

(, 下载次数: 8)

对 TileLang 的重度投入:这明白无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是努力于让整个中国硬件生态具有与东方掰伎俩的竞争力。有了 TileLang(一种用于编写高功能算力内核的开源编程言语),工程师只需求编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我估计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力协助中国硬件厂商从侧面突围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心运营数十年的公用并行计算架构生态,是其最宽的护城河)。同时,这也能特地束缚 AMD 等东方的其他硬件厂商。注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是经过转换层完成与 CUDA 兼容度最高的几家中国芯片公司,实际上它们不需求 TileLang 的协助。

(, 下载次数: 8)

大规模强化学习与自动化迷信研讨:

随着计算需求的断崖式下降,以及可供选择的本土硬件变得越来越多,DeepSeek 终于可以放开手脚,去应战那些此前让人望而生畏的宏大训练计划——尤其是强化学习阶段的后训练(Post-training)。强化学习需求生成海量的思索轨迹(Trajectories),动辄就会产生数万亿的 Token,这在过去烧钱速度极其恐惧。此外,要训练出支持 100 万上下文的模型,你就必须生成异样长度的思索轨迹。只要让模型在这种超长轨迹中经受锤炼,才能真正解锁处理复杂长程义务的才能。

不只如此,硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研讨”(RSI, Research on Silicon Intelligence,即让 AI 充当迷信家,本人设计并执行算法实验的自主退化技术)。这种让 AI 左右互搏、自主退化的形式伴随着大量的试错,耗资极度高昂。但假如想要彻底探寻整个算法设计的未知空间,RSI 是必经之路。在通往通用人工智能(AGI)乃至超级人工智能(ASI)的道路上,DeepSeek 必须先点亮 RSI 这棵科技树。

DeepSeek 昔日的试金石,行业明天的教科书:

如今,DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。

比如,打造了 GLM 系列模型的智谱 AI 曾经用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来,DeepSeek 在大规模训练中也采用了 Muon 优化器,而该优化器在超大规模训练中的威力,正是被 Kimi 团队首先发掘并证明的。

(注:

说了这么多,那到底怎样赚大钱呢?

我们可以看看 OpenAI 一个非常风趣的经典案例。OpenAI 曾与 AMD 以及 Cerebras(一家应战英伟达的晶圆级超大芯片初创公司)达成协议:随着 OpenAI 采购并耗费这两家公司的芯片达到特定里程碑,OpenAI 就能以极低的价格获得这两家公司的股票认股权证(Warrants)或期权。这对于 AMD 和 Cerebras 来说是一笔双赢的绝妙买卖——有了 OpenAI 这头吞噬算力的巨兽深度绑定,它们在长跑中胜出的概率大增。

根据 AMD 官方发布的旧事稿(https://www.amd.com/en/newsroom/press-releases/2025-10-6-amd-and-openai-announce-strategic-partnership-to-d.html):“作为协议的一部分,为了深度绑定单方的战略利益,AMD 已向 OpenAI 授予了高达 1.6 亿股 AMD 普通股的认股权证。这些股权将随着特定里程碑的达成而逐渐解锁。第一阶段将在初始部署达到 1 吉瓦(GW)算力中心时解锁,随后的份额将随着采购规模扩展至 6 吉瓦而陆续解锁……”

(, 下载次数: 8)

我大胆预测,DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署相似的对赌与利益绑定协议。经过深度结合调优,DeepSeek 将协助这些本土硬件在运转全球最顶尖的 AI 核心工作负载时,真正做到平替、甚至超越东方硬件。

眼下,东方(包括其东亚盟友)一切 AI 概念股的总市值早已打破了 10 万亿美元。经过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业形式,DeepSeek 不只能在中国复制出一个异样体量惊人的超级硬件产业,还能在其中切下最肥美的一块蛋糕,进而将本人送入 1 万亿美元市值的超级俱乐部。

这不只能让他们赚到比卖什么订阅软件多得多的真金白银,还能特地完成他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯(Jim Simons)的铁杆粉丝,相对是一位顶级聪明的资本家,他绝不能够漏掉这盘大棋!

只需你回过头把 DeepSeek 至今为止一切的反常举动串联起来,这就是独一能完美解释一切的底层逻辑……






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5