职贝云数AI新零售门户
标题:
DeepSeek除夕王炸论文,大模型架构新范式.
[打印本页]
作者:
tsB16T
时间:
2026-1-2 00:38
标题:
DeepSeek除夕王炸论文,大模型架构新范式.
大家好,我是小亮。
一向喜欢在节日发表严重成果的DeepSeek
发布了论文,梁文锋也署名了。
而这篇论文,意义非凡。
论文地址:https://arxiv.org/pdf/2512.24880
在看这篇论文前,我们先回到过去。
当 OpenAI 发布 GPT时,整个世界都在狂欢。但没人留意到,一场更深层的危机正在悄然酝酿。
这场危机的名字叫:训练不波动性。
它不像不言而喻的功能下降那样容易被察觉,而是像一个隐形的定时炸弹,埋在每一个试图构建更深、更弱小神经网络的研讨者心里。
当你堆砌足够多的网络层来追求更强的才能时,一个诡异的现象会出现:信号末尾疯狂波动。有时分被放大到爆炸,有时分衰减到消逝。
就像一个失控的音响系统,时而刺耳尖叫,时而沉寂无声。
这就是为什么,DeepSeek 的研讨团队在年底发表了一篇论文,《mHC: Manifold-Constrained Hyper-Connections》。
这篇论文没有宣传,没有旧事发布会,甚至没有惹起多少关注。但它处理的成绩,能够比我们想象的要深入得多。
01 残差衔接的十年统治
要了解 mHC 的价值,必须先回到十年前。
2015 年,何恺明发表了 ResNet 论文,引入了一个看似简单的想法:残差衔接。
这个想法改变了一切。
在此之前,深度神经网络有一个致命的成绩:越深越难训练。当你试图堆砌 100 层、200 层的网络时,梯度会在反向传播的过程中逐渐消逝,就像信号穿过一层层的雾霾,最后什么都传不回来了。
但残差衔接提供了一条"疾速通道"。它允许信息直接跳过某些处理步骤,绕过那些"雾霾"。用一个简单的公式表示:
(, 下载次数: 1)
上传
点击文件名下载附件
这里的 x_l 就是那条疾速通道,它直接从第 l 层传到第 l+1 层。而 F(x_l) 是神经网络的处理函数。
(, 下载次数: 1)
上传
点击文件名下载附件
这个设计的天赋之处在于:它保持了一个叫做恒等映射的性质。简单说,就是原始信息可以不经任何处理直接经过。这就像在高速公路上保留了一条应急通道,确保即便其他车道堵塞,信息流也不会完全断裂。
正由于这个特性,ResNet 成了古代深度学习的基石。从 BERT 到 GPT,从 Vision Transformer 到 Llama,一切这些模型的骨架里都流淌着残差衔接的血液。
十年来,这个设计几乎没有被应战过。
02 超衔接的诞生
但到了如今,一个新的想法末尾萌芽。
研讨者们问了一个看似简单的成绩:假如我们不只是保留一条疾速通道,而是保留多条呢?
这就是 Hyper-Connections(超衔接)的核心思想。
与其说超衔接是对残差衔接的改进,不如说它是一场大胆的实验。它不再满足于单一的信息流通道,而是扩展了残差流的宽度,引入了多个可学习的矩阵来控制信息的活动:
(, 下载次数: 1)
上传
点击文件名下载附件
这里出现了三个新的角色:控制进入处理函数的信息、控制残差流中的信息混合、控制处理结果的输入。
(, 下载次数: 2)
上传
点击文件名下载附件
用一个比喻来说,假如残差衔接是一条高速公路,那超衔接就是一个平面交叉的枢纽。信息可以在多个层级上交互、混合、重新组织。
实际上,这应该给模型更强的表达才能。实验数据也的确证明了这一点,超衔接在功能上有分明提升。
但成绩来了。
当你把这个设计运用到一个有 100 层、200 层甚至更深的网络时,一个恐惧的现象出现了:信号末尾失控。
(, 下载次数: 1)
上传
点击文件名下载附件
想象一下,你有 100 个这样的矩阵
(, 下载次数: 1)
上传
点击文件名下载附件
它们一个接一个地相乘。每一次相乘都能够放大或衰减信号。由于这些矩阵是不受约束的,它们的乘积能够变得极其宏大,也能够变得极其微小。
结果就是,训练过程中,损失函数末尾猛烈波动。有时分梯度爆炸,有时分梯度消逝。模型的训练变得像在悬崖边下行走,一不小心就会坠落。
这就是超衔接的悖论:它的野心成了它的诅咒。
03 Birkhoff 多面体的机密
就在这个时分,DeepSeek 的研讨团队提出了一个优雅的处理方案。
他们的思绪很简单:既然无约束的矩阵会导致信号失控,那为什么不给这些矩阵加上约束呢?
但关键是:加什么样的约束?
答案是:双随机矩阵(doubly stochastic matrices)
这听起来很复杂,但本质很简单。一个双随机矩阵有一个特殊的性质:它的每一行的和都等于 1,每一列的和也都等于 1。
为什么这很重要?
由于这意味着,当你用这样的矩阵去乘以一个向量时,结果是原向量元素的一个凸组合。简单说,就是原向量各个元素的加权平均。
这有什么好处?
最关键的好处是:信息的总量被守恒了。
想象一下,假如你有 100 个单位的信号,经过一个双随机矩阵的处理后,你依然有大约 100 个单位的信号。不会被放大到 1000,也不会衰减到 1。
而且,这个性质在矩阵乘法中是封闭的。也就是说,两个双随机矩阵的乘积,依然是一个双随机矩阵。
这意味着,即便你有 100 个这样的矩阵延续相乘,结果依然是一个双随机矩阵,信号依然被守恒。
这就是 mHC(Manifold-Constrained Hyper-Connections)的核心创新。
它运用一个叫做 Sinkhorn-Knopp 算法的数学工具,将超衔接中的 矩阵
投影到这个双随机矩阵的空间(在数学上叫做 Birkhoff 多面体)。
(, 下载次数: 1)
上传
点击文件名下载附件
结果是什么?
训练变得波动了。信号不再疯狂波动。梯度活动变得可预测。
用论文中的实验数据来说:在相反的训练步数下,mHC 的损失函数颠簸下降,而超衔接的损失函数则充满了猛烈的振荡。
04 从实际到实战
但这里有一个成绩。
数学上的优雅不等于工程上的可行性。
Sinkhorn-Knopp 算法虽然优雅,但它需求额外的计算。假如这个额外的计算成本太高,那 mHC 就只能停留在论文里,无法真正被运用。
这是很多实际创新的宿命。
但 DeepSeek 的团队没有止步于实际。他们做了一件很多学术论文都懒得做的事情:仔细地优化工程完成。
他们采用了三个关键的优化技术:
第一,核交融(Kernel Fusion)。这是一个经典的 GPU 优化技巧。简单说,就是把多个计算操作合并成一个,减少 GPU 和内存之间的数据往复。这样可以分明降低内存访问的开支。
第二,选择性重计算(Selective Recomputing)。在反向传播时,与其存储一切的中间结果(这会占用大量内存),不如在需求的时分重新计算它们。这是一个经典的工夫换空间的权衡。
第三,通讯堆叠(Communication Overlapping)。在分布式训练中,计算和通讯往往是串行的:先计算,再通讯。但假如你能把它们交错停止,就能分明提高效率。他们运用了一个叫做 DualPipe 的调度方案来完成这一点。
(, 下载次数: 1)
上传
点击文件名下载附件
结果是什么?
当扩展率 n=4 时(也就是说,残差流的宽度扩展了 4 倍),mHC 相比超衔接只添加了 6.7% 的工夫开支。
这是一个惊人的数字。
这意味着,你可以获得超衔接的功能优势(更强的表达才能),同时获得 mHC 的波动性优势(更颠簸的训练),而代价仅仅是 6.7% 的计算成本。
这不是一个实际上的成功,这是一个实战上的成功。
有人会问:既然残差衔接曾经这么波动了,为什么还要折腾超衔接和 mHC?
答案很简单:功能天花板。
残差衔接虽然波动,但它的表达才能是有限的。当你想要构建更弱小的模型时,单一的疾速通道曾经不够了。
超衔接经过引入多个可学习的矩阵,提供了更灵敏的信息活动方式。这的确提升了功能。
但代价是不波动性。
无约束的超衔接提供了更强的功能,但付出的代价是训练的不波动性。
在小规模实验中,这能够不是成绩。但当你试图训练一个有数百亿参数的大模型时,这种不波动性会成为一个严重的妨碍。
而且,不波动的训练意味着你需求更细心肠调整超参数,需求更多的监控和干涉。这会分明添加工程的复杂性。
而 mHC 的做法不同。
mHC 结合了超衔接的功能优势和残差衔接的波动性。
经过将矩阵约束在双随机矩阵的空间,它确保了信号的守恒。经过 Sinkhorn-Knopp 算法,这个约束可以高效地完成。经过工程优化,这个额外的计算成本被控制在最小程度。
结果是:一个既波动又弱小的架构。
在论文的实验中,mHC 在大规模模型训练中表现出了杰出的波动性,同时保持了超衔接的功能优势。
(, 下载次数: 1)
上传
点击文件名下载附件
写到最后
假如我们把这个故事讲得更宏大一点,mHC 代表的是什么?
mHC 代表的是另一种思绪:经过更聪明的设计来获得更好的功能。
它表明,即便在一个曾经被深化研讨了十年的范畴(残差衔接),我们依然可以找到新的、更优雅的处理方案。
这对整个 AI 产业有深入的启示。
在一个资源有限的时代(不是每个团队都有 Meta 或 Google 的计算资源),架构创新能够比资源堆砌更重要。
一个小团队,只需有足够的聪慧和决计,依然可以提出改变游戏规则的想法。
而 DeepSeek 的这篇论文,正是这种肉体的表现。
它没有宣传,没有炒作,只是默默地提出了一个优雅的处理方案。
但正是这种低调和务虚,让它显得愈加珍贵。
在一个充满浮躁和喧嚣的 AI 产业里,mHC 就像一盏灯塔,提示我们:真正的创新,来自于对成绩的深入了解,和对优雅处理方案的不懈追求。
(, 下载次数: 2)
上传
点击文件名下载附件
假如历史是任何指引的话,我们应该等待在将来的大型言语模型中看到 mHC 的身影。
当那一天到来时,回过头看,我们会看法到:这篇看似不起眼的论文,其实是深度学习架构设计的一个转机点。
从更大到更聪明。
这是 AI 时代的下一个篇章。
论文原文放在了知识库里。
小亮创建了一个AI开源知识库,在后台回复:知识库,就能获得知识库链接~
以上就是本文的全部内容啦!感激您的阅读,欢迎在评论区留言讨论,假如觉得这篇文章有协助,希望您能点个赞、点个引荐,给公众号点个星标⭐,还可以转发给身边的冤家,我们下期再见
这里是科技小亮
持续分享AI风趣内容
欢迎点击下方卡片关注小亮
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5