这不只让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军,更从根本上降低了大模型训练和推理的资源门槛。当运转 AI 模型的成本降上去后,本来功能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的实在选项。而且,这些开源创新也将反哺东方的开源社区,并给东方那些试图应战英伟达的芯片初创企业带来一线活力。
将计算与通讯的堆叠压榨到极致:诸如“双途径”(Dual Path)这样的底层魔改,表面上看是为了绕过硬件资源的封锁而被迫停止的闪转腾挪。但 DeepSeek 更进一步,甚至末尾反过来对芯片硬件厂商的 ASIC 架构设计指点迷津,告诉他们如何设计芯片才能避免糜费哪怕一丝一毫宝贵的硅片资源。以下截图正是出自 DeepSeek V4 Pro 的官方文档:
(, 下载次数: 8)
上传
点击文件名下载附件
对 TileLang 的重度投入:这明白无误地表明,他们的目光早已超越了自家算力紧缺的困境,而是努力于让整个中国硬件生态具有与东方掰伎俩的竞争力。有了 TileLang(一种用于编写高功能算力内核的开源编程言语),工程师只需求编写一次算力内核代码,就能在任何适配了 TileLang 后端的不同硬件平台上无缝跑起来。我估计国内其他 AI 实验室很快也会纷纷加入这个阵营——这将合力协助中国硬件厂商从侧面突围,绕开英伟达坚不可摧的“CUDA 壁垒”(CUDA Moat,英伟达苦心运营数十年的公用并行计算架构生态,是其最宽的护城河)。同时,这也能特地束缚 AMD 等东方的其他硬件厂商。注:国内许多 AI 硬件平台本身也提供 CUDA 兼容性或 CUDA 编译转换层。其中,摩尔线程、沐曦、壁仞和天数智芯是经过转换层完成与 CUDA 兼容度最高的几家中国芯片公司,实际上它们不需求 TileLang 的协助。
不只如此,硬件选择的多元化将让 DeepSeek 拥有富余的算力去冲击“自动化人工智能研讨”(RSI, Research on Silicon Intelligence,即让 AI 充当迷信家,本人设计并执行算法实验的自主退化技术)。这种让 AI 左右互搏、自主退化的形式伴随着大量的试错,耗资极度高昂。但假如想要彻底探寻整个算法设计的未知空间,RSI 是必经之路。在通往通用人工智能(AGI)乃至超级人工智能(ASI)的道路上,DeepSeek 必须先点亮 RSI 这棵科技树。
DeepSeek 昔日的试金石,行业明天的教科书:
如今,DeepSeek 围绕混合专家模型、MLA、DSA 的一连串疯狂创新,早已被中国乃至全球的各大 AI 实验室奉为圭臬并争相抄作业。
比如,打造了 GLM 系列模型的智谱 AI 曾经用上了 MLA 和 DSA;月之暗面(Kimi)也大方承认自家的最新架构正是基于 DeepSeek 的演进。作为礼尚往来,DeepSeek 在大规模训练中也采用了 Muon 优化器,而该优化器在超大规模训练中的威力,正是被 Kimi 团队首先发掘并证明的。
(注:
混合专家模型(MoE)架构最早由顶尖学者在 2017 年的经典论文(https://arxiv.org/pdf/1701.06538)中提出,而DeepSeek 的功劳在于成功将其推向了史无前例的庞大规模,并融入了大量自研的独门绝技。*Muon(基于牛顿 - 舒尔茨动量正交化)优化器由机器学习研讨员 Keller Jordan 于 2024 年底发明,而 Kimi 团队则是全球第一个将其运用到超大规模模型训练中的吃螃蟹者。)