职贝云数AI新零售门户

标题: DeepSeek除夕王炸论文,大模型架构新范式. [打印本页]

作者: tsB16T 时间: 2026-1-2 00:38
标题: DeepSeek除夕王炸论文,大模型架构新范式.
大家好，我是小亮。

一向喜欢在节日发表严重成果的DeepSeek

发布了论文，梁文锋也署名了。

而这篇论文，意义非凡。

论文地址：https://arxiv.org/pdf/2512.24880

在看这篇论文前，我们先回到过去。

当 OpenAI 发布 GPT时，整个世界都在狂欢。但没人留意到，一场更深层的危机正在悄然酝酿。

这场危机的名字叫：训练不波动性。

它不像不言而喻的功能下降那样容易被察觉，而是像一个隐形的定时炸弹，埋在每一个试图构建更深、更弱小神经网络的研讨者心里。

当你堆砌足够多的网络层来追求更强的才能时，一个诡异的现象会出现：信号末尾疯狂波动。有时分被放大到爆炸，有时分衰减到消逝。

就像一个失控的音响系统，时而刺耳尖叫，时而沉寂无声。

这就是为什么，DeepSeek 的研讨团队在年底发表了一篇论文，《mHC: Manifold-Constrained Hyper-Connections》。

这篇论文没有宣传，没有旧事发布会，甚至没有惹起多少关注。但它处理的成绩，能够比我们想象的要深入得多。
01 残差衔接的十年统治

要了解 mHC 的价值，必须先回到十年前。

2015 年，何恺明发表了 ResNet 论文，引入了一个看似简单的想法：残差衔接。

这个想法改变了一切。

在此之前，深度神经网络有一个致命的成绩：越深越难训练。当你试图堆砌 100 层、200 层的网络时，梯度会在反向传播的过程中逐渐消逝，就像信号穿过一层层的雾霾，最后什么都传不回来了。

但残差衔接提供了一条"疾速通道"。它允许信息直接跳过某些处理步骤，绕过那些"雾霾"。用一个简单的公式表示：

(, 下载次数: 1)

这里的 x_l 就是那条疾速通道，它直接从第 l 层传到第 l+1 层。而 F(x_l) 是神经网络的处理函数。

(, 下载次数: 1)

这个设计的天赋之处在于：它保持了一个叫做恒等映射的性质。简单说，就是原始信息可以不经任何处理直接经过。这就像在高速公路上保留了一条应急通道，确保即便其他车道堵塞，信息流也不会完全断裂。

正由于这个特性，ResNet 成了古代深度学习的基石。从 BERT 到 GPT，从 Vision Transformer 到 Llama，一切这些模型的骨架里都流淌着残差衔接的血液。

十年来，这个设计几乎没有被应战过。
02 超衔接的诞生

但到了如今，一个新的想法末尾萌芽。

研讨者们问了一个看似简单的成绩：假如我们不只是保留一条疾速通道，而是保留多条呢？

这就是 Hyper-Connections（超衔接）的核心思想。

与其说超衔接是对残差衔接的改进，不如说它是一场大胆的实验。它不再满足于单一的信息流通道，而是扩展了残差流的宽度，引入了多个可学习的矩阵来控制信息的活动：

(, 下载次数: 1)

这里出现了三个新的角色：控制进入处理函数的信息、控制残差流中的信息混合、控制处理结果的输入。

(, 下载次数: 2)

用一个比喻来说，假如残差衔接是一条高速公路，那超衔接就是一个平面交叉的枢纽。信息可以在多个层级上交互、混合、重新组织。

实际上，这应该给模型更强的表达才能。实验数据也的确证明了这一点，超衔接在功能上有分明提升。

但成绩来了。

当你把这个设计运用到一个有 100 层、200 层甚至更深的网络时，一个恐惧的现象出现了：信号末尾失控。

(, 下载次数: 1)

想象一下，你有 100 个这样的矩阵

(, 下载次数: 1)

它们一个接一个地相乘。每一次相乘都能够放大或衰减信号。由于这些矩阵是不受约束的，它们的乘积能够变得极其宏大，也能够变得极其微小。

结果就是，训练过程中，损失函数末尾猛烈波动。有时分梯度爆炸，有时分梯度消逝。模型的训练变得像在悬崖边下行走，一不小心就会坠落。

这就是超衔接的悖论：它的野心成了它的诅咒。
03 Birkhoff 多面体的机密

就在这个时分，DeepSeek 的研讨团队提出了一个优雅的处理方案。

他们的思绪很简单：既然无约束的矩阵会导致信号失控，那为什么不给这些矩阵加上约束呢？

但关键是：加什么样的约束？

答案是：双随机矩阵（doubly stochastic matrices）

这听起来很复杂，但本质很简单。一个双随机矩阵有一个特殊的性质：它的每一行的和都等于 1，每一列的和也都等于 1。

为什么这很重要？

由于这意味着，当你用这样的矩阵去乘以一个向量时，结果是原向量元素的一个凸组合。简单说，就是原向量各个元素的加权平均。

这有什么好处？

最关键的好处是：信息的总量被守恒了。

想象一下，假如你有 100 个单位的信号，经过一个双随机矩阵的处理后，你依然有大约 100 个单位的信号。不会被放大到 1000，也不会衰减到 1。

而且，这个性质在矩阵乘法中是封闭的。也就是说，两个双随机矩阵的乘积，依然是一个双随机矩阵。

这意味着，即便你有 100 个这样的矩阵延续相乘，结果依然是一个双随机矩阵，信号依然被守恒。

这就是 mHC（Manifold-Constrained Hyper-Connections）的核心创新。

它运用一个叫做 Sinkhorn-Knopp 算法的数学工具，将超衔接中的矩阵

投影到这个双随机矩阵的空间（在数学上叫做 Birkhoff 多面体）。

(, 下载次数: 1)

结果是什么？

训练变得波动了。信号不再疯狂波动。梯度活动变得可预测。

用论文中的实验数据来说：在相反的训练步数下，mHC 的损失函数颠簸下降，而超衔接的损失函数则充满了猛烈的振荡。
04 从实际到实战

但这里有一个成绩。

数学上的优雅不等于工程上的可行性。

Sinkhorn-Knopp 算法虽然优雅，但它需求额外的计算。假如这个额外的计算成本太高，那 mHC 就只能停留在论文里，无法真正被运用。

这是很多实际创新的宿命。

但 DeepSeek 的团队没有止步于实际。他们做了一件很多学术论文都懒得做的事情：仔细地优化工程完成。

他们采用了三个关键的优化技术：

第一，核交融（Kernel Fusion）。这是一个经典的 GPU 优化技巧。简单说，就是把多个计算操作合并成一个，减少 GPU 和内存之间的数据往复。这样可以分明降低内存访问的开支。

第二，选择性重计算（Selective Recomputing）。在反向传播时，与其存储一切的中间结果（这会占用大量内存），不如在需求的时分重新计算它们。这是一个经典的工夫换空间的权衡。

第三，通讯堆叠（Communication Overlapping）。在分布式训练中，计算和通讯往往是串行的：先计算，再通讯。但假如你能把它们交错停止，就能分明提高效率。他们运用了一个叫做 DualPipe 的调度方案来完成这一点。

(, 下载次数: 1)

结果是什么？

当扩展率 n=4 时（也就是说，残差流的宽度扩展了 4 倍），mHC 相比超衔接只添加了 6.7% 的工夫开支。

这是一个惊人的数字。

这意味着，你可以获得超衔接的功能优势（更强的表达才能），同时获得 mHC 的波动性优势（更颠簸的训练），而代价仅仅是 6.7% 的计算成本。

这不是一个实际上的成功，这是一个实战上的成功。

有人会问：既然残差衔接曾经这么波动了，为什么还要折腾超衔接和 mHC？

答案很简单：功能天花板。

残差衔接虽然波动，但它的表达才能是有限的。当你想要构建更弱小的模型时，单一的疾速通道曾经不够了。

超衔接经过引入多个可学习的矩阵，提供了更灵敏的信息活动方式。这的确提升了功能。

但代价是不波动性。

无约束的超衔接提供了更强的功能，但付出的代价是训练的不波动性。

在小规模实验中，这能够不是成绩。但当你试图训练一个有数百亿参数的大模型时，这种不波动性会成为一个严重的妨碍。

而且，不波动的训练意味着你需求更细心肠调整超参数，需求更多的监控和干涉。这会分明添加工程的复杂性。

而 mHC 的做法不同。

mHC 结合了超衔接的功能优势和残差衔接的波动性。

经过将矩阵约束在双随机矩阵的空间，它确保了信号的守恒。经过 Sinkhorn-Knopp 算法，这个约束可以高效地完成。经过工程优化，这个额外的计算成本被控制在最小程度。

结果是：一个既波动又弱小的架构。

在论文的实验中，mHC 在大规模模型训练中表现出了杰出的波动性，同时保持了超衔接的功能优势。

(, 下载次数: 1)

写到最后

假如我们把这个故事讲得更宏大一点，mHC 代表的是什么？

mHC 代表的是另一种思绪：经过更聪明的设计来获得更好的功能。

它表明，即便在一个曾经被深化研讨了十年的范畴（残差衔接），我们依然可以找到新的、更优雅的处理方案。

这对整个 AI 产业有深入的启示。

在一个资源有限的时代（不是每个团队都有 Meta 或 Google 的计算资源），架构创新能够比资源堆砌更重要。

一个小团队，只需有足够的聪慧和决计，依然可以提出改变游戏规则的想法。

而 DeepSeek 的这篇论文，正是这种肉体的表现。

它没有宣传，没有炒作，只是默默地提出了一个优雅的处理方案。

但正是这种低调和务虚，让它显得愈加珍贵。

在一个充满浮躁和喧嚣的 AI 产业里，mHC 就像一盏灯塔，提示我们：真正的创新，来自于对成绩的深入了解，和对优雅处理方案的不懈追求。

(, 下载次数: 2)

假如历史是任何指引的话，我们应该等待在将来的大型言语模型中看到 mHC 的身影。

当那一天到来时，回过头看，我们会看法到：这篇看似不起眼的论文，其实是深度学习架构设计的一个转机点。

从更大到更聪明。

这是 AI 时代的下一个篇章。

论文原文放在了知识库里。

小亮创建了一个AI开源知识库，在后台回复：知识库，就能获得知识库链接~

以上就是本文的全部内容啦！感激您的阅读，欢迎在评论区留言讨论，假如觉得这篇文章有协助，希望您能点个赞、点个引荐，给公众号点个星标⭐，还可以转发给身边的冤家，我们下期再见

这里是科技小亮

持续分享AI风趣内容

欢迎点击下方卡片关注小亮

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)