职贝云数AI新零售门户

标题: DeepSeek除夕王炸论文,大模型架构新范式. [打印本页]

作者: tsB16T    时间: 2026-1-2 00:38
标题: DeepSeek除夕王炸论文,大模型架构新范式.
大家好,我是小亮。

一向喜欢在节日发表严重成果的DeepSeek

发布了论文,梁文锋也署名了。

而这篇论文,意义非凡。

论文地址:https://arxiv.org/pdf/2512.24880

在看这篇论文前,我们先回到过去。

当 OpenAI 发布 GPT时,整个世界都在狂欢。但没人留意到,一场更深层的危机正在悄然酝酿。

这场危机的名字叫:训练不波动性。

它不像不言而喻的功能下降那样容易被察觉,而是像一个隐形的定时炸弹,埋在每一个试图构建更深、更弱小神经网络的研讨者心里。

当你堆砌足够多的网络层来追求更强的才能时,一个诡异的现象会出现:信号末尾疯狂波动。有时分被放大到爆炸,有时分衰减到消逝。

就像一个失控的音响系统,时而刺耳尖叫,时而沉寂无声。

这就是为什么,DeepSeek 的研讨团队在年底发表了一篇论文,《mHC: Manifold-Constrained Hyper-Connections》。

这篇论文没有宣传,没有旧事发布会,甚至没有惹起多少关注。但它处理的成绩,能够比我们想象的要深入得多。
01 残差衔接的十年统治

要了解 mHC 的价值,必须先回到十年前。

2015 年,何恺明发表了 ResNet 论文,引入了一个看似简单的想法:残差衔接。

这个想法改变了一切。

在此之前,深度神经网络有一个致命的成绩:越深越难训练。当你试图堆砌 100 层、200 层的网络时,梯度会在反向传播的过程中逐渐消逝,就像信号穿过一层层的雾霾,最后什么都传不回来了。

但残差衔接提供了一条"疾速通道"。它允许信息直接跳过某些处理步骤,绕过那些"雾霾"。用一个简单的公式表示:

(, 下载次数: 1)

这里的 x_l 就是那条疾速通道,它直接从第 l 层传到第 l+1 层。而 F(x_l) 是神经网络的处理函数。

(, 下载次数: 1)

这个设计的天赋之处在于:它保持了一个叫做恒等映射的性质。简单说,就是原始信息可以不经任何处理直接经过。这就像在高速公路上保留了一条应急通道,确保即便其他车道堵塞,信息流也不会完全断裂。

正由于这个特性,ResNet 成了古代深度学习的基石。从 BERT 到 GPT,从 Vision Transformer 到 Llama,一切这些模型的骨架里都流淌着残差衔接的血液。

十年来,这个设计几乎没有被应战过。
02 超衔接的诞生

但到了如今,一个新的想法末尾萌芽。

研讨者们问了一个看似简单的成绩:假如我们不只是保留一条疾速通道,而是保留多条呢?

这就是 Hyper-Connections(超衔接)的核心思想。

与其说超衔接是对残差衔接的改进,不如说它是一场大胆的实验。它不再满足于单一的信息流通道,而是扩展了残差流的宽度,引入了多个可学习的矩阵来控制信息的活动:

(, 下载次数: 1)

这里出现了三个新的角色:控制进入处理函数的信息、控制残差流中的信息混合、控制处理结果的输入。

(, 下载次数: 2)

用一个比喻来说,假如残差衔接是一条高速公路,那超衔接就是一个平面交叉的枢纽。信息可以在多个层级上交互、混合、重新组织。

实际上,这应该给模型更强的表达才能。实验数据也的确证明了这一点,超衔接在功能上有分明提升。

但成绩来了。

当你把这个设计运用到一个有 100 层、200 层甚至更深的网络时,一个恐惧的现象出现了:信号末尾失控。

(, 下载次数: 1)

想象一下,你有 100 个这样的矩阵

(, 下载次数: 1)

它们一个接一个地相乘。每一次相乘都能够放大或衰减信号。由于这些矩阵是不受约束的,它们的乘积能够变得极其宏大,也能够变得极其微小。

结果就是,训练过程中,损失函数末尾猛烈波动。有时分梯度爆炸,有时分梯度消逝。模型的训练变得像在悬崖边下行走,一不小心就会坠落。

这就是超衔接的悖论:它的野心成了它的诅咒。
03 Birkhoff 多面体的机密

就在这个时分,DeepSeek 的研讨团队提出了一个优雅的处理方案。

他们的思绪很简单:既然无约束的矩阵会导致信号失控,那为什么不给这些矩阵加上约束呢?

但关键是:加什么样的约束?

答案是:双随机矩阵(doubly stochastic matrices)

这听起来很复杂,但本质很简单。一个双随机矩阵有一个特殊的性质:它的每一行的和都等于 1,每一列的和也都等于 1。

为什么这很重要?

由于这意味着,当你用这样的矩阵去乘以一个向量时,结果是原向量元素的一个凸组合。简单说,就是原向量各个元素的加权平均。

这有什么好处?

最关键的好处是:信息的总量被守恒了。

想象一下,假如你有 100 个单位的信号,经过一个双随机矩阵的处理后,你依然有大约 100 个单位的信号。不会被放大到 1000,也不会衰减到 1。

而且,这个性质在矩阵乘法中是封闭的。也就是说,两个双随机矩阵的乘积,依然是一个双随机矩阵。

这意味着,即便你有 100 个这样的矩阵延续相乘,结果依然是一个双随机矩阵,信号依然被守恒。

这就是 mHC(Manifold-Constrained Hyper-Connections)的核心创新。

它运用一个叫做 Sinkhorn-Knopp 算法的数学工具,将超衔接中的 矩阵



投影到这个双随机矩阵的空间(在数学上叫做 Birkhoff 多面体)。

(, 下载次数: 1)

结果是什么?

训练变得波动了。信号不再疯狂波动。梯度活动变得可预测。

用论文中的实验数据来说:在相反的训练步数下,mHC 的损失函数颠簸下降,而超衔接的损失函数则充满了猛烈的振荡。
04 从实际到实战

但这里有一个成绩。

数学上的优雅不等于工程上的可行性。

Sinkhorn-Knopp 算法虽然优雅,但它需求额外的计算。假如这个额外的计算成本太高,那 mHC 就只能停留在论文里,无法真正被运用。

这是很多实际创新的宿命。

但 DeepSeek 的团队没有止步于实际。他们做了一件很多学术论文都懒得做的事情:仔细地优化工程完成。

他们采用了三个关键的优化技术:

第一,核交融(Kernel Fusion)。这是一个经典的 GPU 优化技巧。简单说,就是把多个计算操作合并成一个,减少 GPU 和内存之间的数据往复。这样可以分明降低内存访问的开支。

第二,选择性重计算(Selective Recomputing)。在反向传播时,与其存储一切的中间结果(这会占用大量内存),不如在需求的时分重新计算它们。这是一个经典的工夫换空间的权衡。

第三,通讯堆叠(Communication Overlapping)。在分布式训练中,计算和通讯往往是串行的:先计算,再通讯。但假如你能把它们交错停止,就能分明提高效率。他们运用了一个叫做 DualPipe 的调度方案来完成这一点。

(, 下载次数: 1)

结果是什么?

当扩展率 n=4 时(也就是说,残差流的宽度扩展了 4 倍),mHC 相比超衔接只添加了 6.7% 的工夫开支。

这是一个惊人的数字。

这意味着,你可以获得超衔接的功能优势(更强的表达才能),同时获得 mHC 的波动性优势(更颠簸的训练),而代价仅仅是 6.7% 的计算成本。

这不是一个实际上的成功,这是一个实战上的成功。

有人会问:既然残差衔接曾经这么波动了,为什么还要折腾超衔接和 mHC?

答案很简单:功能天花板。

残差衔接虽然波动,但它的表达才能是有限的。当你想要构建更弱小的模型时,单一的疾速通道曾经不够了。

超衔接经过引入多个可学习的矩阵,提供了更灵敏的信息活动方式。这的确提升了功能。

但代价是不波动性。

无约束的超衔接提供了更强的功能,但付出的代价是训练的不波动性。

在小规模实验中,这能够不是成绩。但当你试图训练一个有数百亿参数的大模型时,这种不波动性会成为一个严重的妨碍。

而且,不波动的训练意味着你需求更细心肠调整超参数,需求更多的监控和干涉。这会分明添加工程的复杂性。

而 mHC 的做法不同。

mHC 结合了超衔接的功能优势和残差衔接的波动性。

经过将矩阵约束在双随机矩阵的空间,它确保了信号的守恒。经过 Sinkhorn-Knopp 算法,这个约束可以高效地完成。经过工程优化,这个额外的计算成本被控制在最小程度。

结果是:一个既波动又弱小的架构。

在论文的实验中,mHC 在大规模模型训练中表现出了杰出的波动性,同时保持了超衔接的功能优势。

(, 下载次数: 1)

写到最后

假如我们把这个故事讲得更宏大一点,mHC 代表的是什么?

mHC 代表的是另一种思绪:经过更聪明的设计来获得更好的功能。

它表明,即便在一个曾经被深化研讨了十年的范畴(残差衔接),我们依然可以找到新的、更优雅的处理方案。

这对整个 AI 产业有深入的启示。

在一个资源有限的时代(不是每个团队都有 Meta 或 Google 的计算资源),架构创新能够比资源堆砌更重要。

一个小团队,只需有足够的聪慧和决计,依然可以提出改变游戏规则的想法。

而 DeepSeek 的这篇论文,正是这种肉体的表现。

它没有宣传,没有炒作,只是默默地提出了一个优雅的处理方案。

但正是这种低调和务虚,让它显得愈加珍贵。

在一个充满浮躁和喧嚣的 AI 产业里,mHC 就像一盏灯塔,提示我们:真正的创新,来自于对成绩的深入了解,和对优雅处理方案的不懈追求。

(, 下载次数: 2)

假如历史是任何指引的话,我们应该等待在将来的大型言语模型中看到 mHC 的身影。

当那一天到来时,回过头看,我们会看法到:这篇看似不起眼的论文,其实是深度学习架构设计的一个转机点。

从更大到更聪明。

这是 AI 时代的下一个篇章。

论文原文放在了知识库里。

小亮创建了一个AI开源知识库,在后台回复:知识库,就能获得知识库链接~

以上就是本文的全部内容啦!感激您的阅读,欢迎在评论区留言讨论,假如觉得这篇文章有协助,希望您能点个赞、点个引荐,给公众号点个星标⭐,还可以转发给身边的冤家,我们下期再见

这里是科技小亮

持续分享AI风趣内容

欢迎点击下方卡片关注小亮




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5