职贝云数AI新零售门户

标题: DeepSeek扔出大杀器,梁文锋署名!暴力优化AI架构 [打印本页]

作者: xSAkNE 时间: 3 天前
标题: DeepSeek扔出大杀器,梁文锋署名!暴力优化AI架构
2026新年第一天，DeepSeek发表了梁文锋署名的重磅新论文，提出了一种名为「mHC（流形约束超衔接）」的新架构，在27B参数模型上，仅添加约6.7%的训练工夫开支，即可完成分明功能提升。

重磅！

刚刚，DeepSeek送上2026年新年第一个王炸。

这次的创新是，mHC（流形约束超衔接）新架构。

标题：mHC：Manifold-Constrained Hyper-Connections

链接：https://arxiv.org/abs/2512.24880

在这篇论文中，DeepSeek提出了流形约束超衔接（mHC），将矩阵投影到约束流形上优化残差衔接空间，从而确保波动性，彻底颠覆了传统AI架构认知——

可以扩展残差流通道宽度（residual stream width），而在算力和内存上的代价却微乎其微。

(, 下载次数: 2)

图1：残差衔接范式表示图

继Hyper-Connections（HC）开拓「残差衔接宽度可扩展」道路之后，mHC直接把这一思绪推上适用化的慢车道。

DeepSeek这次直击AI痛点，给同行上了一课！

值得一提的是，这次梁文锋署名，但解振达、韦毅轩、Huanqi Cao为核心贡献者，解振达为通讯作者。

(, 下载次数: 2)
DeepSeek，或敲响ResNet丧钟
这几乎是为「模型优化玩家」量身打造的王牌秘方。

过去，超衔接（hyper-connections）更多只是学术圈的小众尝试。

而如今，DeepSeek直接把它晋级为基础架构的核心设计要素。

这也正是拥趸不断以来对DeepSeek的等待：数学上的洞察力+硬件层面的极致优化。

顶级大言语模型（LLM）中，ResNet结构或许即将被淘汰。

(, 下载次数: 2)

毕竟，残差流通道宽度不断是扩展模型的「烦人瓶颈」。

这波操作，也再次展现了DeepSeek典型的风格：对同行的平和降维打击——

你们两年工夫都在打磨微结构，调整DS-MoE？挺心爱哈。

来看看我们怎样玩：把一个实际上看起来还不够成熟的高级原语，直接做实，随手解锁游戏下一关。

他们在论文中写道：「我们的外部大规模训练实验进一步验证了mHC在大规模运用中的有效性。」

(, 下载次数: 2)

这句话在DeepSeek的原生稀疏留意力（Natively trainable Sparse Attention，NAS）那篇论文里可没有。

在27B模型的系统级基准测试结果中，新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC，这证明其在大规模预训练中的有效性。

(, 下载次数: 2)

换句话说，DeepSeek决计十足，不怕同行知道本人的「杀招」。

这给了DeepSeek的铁粉Teortaxes很大决计，他有九成把握：mHC会进入DeepSeek V4。

(, 下载次数: 2)

核心方法Manifold-Constrained Hyper-Connections (mHC)
这个方法的关键目的，就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样，就可以在大规模训练与理想基础模型义务中体理想际价值。

mHC与传统残差衔接和HC的根本差异在于：传统残差衔接只保留简单的输入 + 输入方式（波动但表达受限）；Hyper-Connections (HC) 强化衔接才能，但牺牲了波动性与效率。

而mHC的思绪是：将Hyper-Connections的参数空间约束到特定的流形（manifold）上，以恢复恒等映射结构。

(, 下载次数: 2)

技术细节
受恒等映射准绳的启示，mHC的核心思想是在一个特定流形上对残差映
(, 下载次数: 2)

停止约束。虽然原始的恒等映射经过强迫
(, 下载次数: 1)
来保证训练波动性，但这种做法从根本上阻断了残差流外部的信息交互，而这种交互对于充分发挥多流（multi-stream）架构的潜力至关重要。

因此，作者提出将残差映射投影到一个既能维持跨层信号传播波动性、又能促进残差流之间互相作用的流形上，从而在保证波动性的同时保留模型的表达才能。

为此，他们将
(, 下载次数: 2)
约束为双随机矩阵，即矩阵元素非负，且每一行与每一列的元素之和均为 1。

方式化地，记
(, 下载次数: 2)
为双随机矩阵所构成的流形（亦称Birkhoff多面体），将

约束在其投影
(, 下载次数: 2)
上，其定义为：

(, 下载次数: 2)

需求留意的是，当n=1时，双随机条件会退步为标量1，从而恢复为原始的恒等映射。选择双随机功可以带来若干对大规模模型训练具有重要意义的严厉实际性质：

1.保范性：双随机矩阵的谱范数有上界 1，即
(, 下载次数: 2)
。

这意味着该可学习映射是非扩张的，从而可以有效缓解梯度爆炸成绩。

2.组合闭包性：

双随机矩阵集合在矩阵乘法下是封闭的。这保证了跨越多层的复合残差映射
(, 下载次数: 1)
依然是双随机的，从而在整个模型深度范围内保持波动性。

3.经过Birkhoff多面体的几何解释：

集合
(, 下载次数: 2)
构成Birkhoff多面体，即置换矩阵集合的凸包。

这提供了明晰的几何直观：残差映射可以被看作是若干置换的凸组合。

从数学上看，此类矩阵的反复作用会单调地加强不同信息流之间的混合程度，从而有效地充当一种鲁棒的特征交融机制。

参数化与流形投影
在本节中，作者详细引见了mHC中
(, 下载次数: 2)
、
(, 下载次数: 2)
以及
(, 下载次数: 2)
的计算过程。

给定第l层的输入隐藏矩阵
(, 下载次数: 2)
，首先将其展平成向量
(, 下载次数: 1)
，以保留残缺的上下文信息。随后，遵照原始HC的建模方式，得到动态映射和静态映射，详细如下：

(, 下载次数: 2)

随后，经过如下方式得到最终满足约束的映射：

(, 下载次数: 2)

其中，
(, 下载次数: 2)
表示Sigmoid函数。

Sinkhorn–Knopp(⋅) 算子首先经过指数运算保证一切元素为正，然后执行交替的迭代归一化过程，使矩阵的行和列分别归一到1。

详细而言，以正矩阵
(, 下载次数: 2)
作为初始值，归一化迭代过程为：

(, 下载次数: 2)

随着迭代次数添加，当
(, 下载次数: 2)
时，该过程收敛到一个双随机矩阵
(, 下载次数: 2)
。

在实验中，取
(, 下载次数: 2)
作为一个适用的近似值。

高效的基础设备设计
经过一系列严厉的工程优化，作者成功将mHC（取n=4）部署到大规模模型中，训练开支仅添加约 6.7%。

内核交融

作者观察到，在mHC中，当对高维隐藏形态
(, 下载次数: 1)
停止操作时，RMSNorm会带来分明的延迟。

为此，他们将「除以范数」的操作重新排序，使其发生在矩阵乘法之后。该优化在数学上是等价的，但在工程完成上分明提升了效率。

此外，我们采用混合精度策略，在不牺牲计算速度的前提下最大化数值精度，并将多个具有共享内存访问形式的算子交融为一致的计算内核，以降低内存带宽瓶颈。

基于公式（10）至（13）中给出的输入与参数设置，作者完成了三个公用的 mHC计算内核。

(, 下载次数: 2)

应用上述内核计算得到的系数，他们又引入了两个额外的计算内核来运用这些映射。

该框架可以简化复杂计算流程内核的完成，并在较小工程代价下充分发挥内存带宽的潜力。

重计算

n路残差结构在训练过程中会引入分明的内存开支。

为缓解这一成绩，作者在前向传播结束后丢弃mHC内核产生的中间激活，并在反向传播阶段经过重新执行mHC内核（不包含计算量较大的层函数F）来即时重计算这些激活。

因此，对于延续的L_r个层组成的一个模块，只需存储第一层的输入
(, 下载次数: 2)
。

在忽略轻量级系数、同时思索到F中的pre-norm开支后，表3总结了在反向传播中需求保留的中间激活以及在L_r个延续层中被重计算的瞬时激活。

(, 下载次数: 2)

随后，他们经过最小化与L_r对应的总内存占用来确定最优的块大小
(, 下载次数: 2)
。

(, 下载次数: 2)

DualPipe中的通讯堆叠

在大规模训练中，流水线并行（pipeline parallelism）是缓解参数与梯度内存占用的标准实际。

详细而言，他们采用了DualPipe调度策略，该策略可以有效地堆叠跨节点（scale-out）的互连通讯流量，例如专家并行与流水线并行中的通讯开支。

但是，与单流（single-stream）设计相比，mHC中提出的n-流残差结构会在流水线阶段之间引入分明的通讯延迟。

此外，在阶段边界处，对一切Lr层重新计算mHC内核也会带来不可忽略的计算开支。为了处理这些瓶颈，作者对DualPipe调度停止了扩展（见下图），以在流水线阶段边界完成更高效的通讯与计算堆叠。

(, 下载次数: 3)

原文图4：mHC的通讯–计算堆叠机制。

详细而言，为避免阻塞通讯流，他们把MLP（即FFN）层的
(, 下载次数: 2)
内核放置在一个独立的高优先级计算流上执行。

同时，在留意力层中，他们刻意避免运用长工夫运转的持久化内核（persistent kernels），以防止产生长工夫的停顿。

该设计允许对已堆叠的留意力计算停止抢占，从而在保持计算设备处理单元高应用率的同时，完成愈加灵敏的调度。

此外，重计算过程被与流水线通讯依赖解耦，这是由于每个阶段的初始激活x0l曾经被缓存在本地。

实验结果
DeepSeek团队首先检验了27B模型的训练波动性和收敛性。

如下图（a）所示，mHC有效缓解了在HC中观察到的训练不波动性，相比基线最终降低了0.021的损失。

下图(b)中的梯度范数分析，进一步证明了这种改善的波动性，表明mHC展现出分明优于HC的波动性，与基线相当。

(, 下载次数: 2)

原文图5：流形约束超衔接（mHC）的训练波动性，展现了 (a) mHC与HC相对于基线的相对训练损失差距，以及 (b) 三种方法的梯度范数。一实在验均采用27B模型。

在多样化基准测试集上，mHC片面提升了下游功能，在一切义务上持续超越基线，并在大多数义务上优于HC。

值得留意的是，与HC相比，mHC进一步加强了模型的推理才能，在BBH上完成了2.1%的功能提升，在DROP上完成了2.3%的提升。

这证明其在大规模预训练中的有效性。

(, 下载次数: 2)

原文表4：27B模型的系统级基准测试结果。本表比较了基线、HC和mHC在8个不同下游基准测试中的零样本和少样本功能。

为了评价方法的扩展性，DeepSeek报告了mHC在不同规模下相比基线的相对损失改进。

结果表明，即便在更高的计算预算下，mHC依然稳健保持功能优势，仅细微衰减。

此外，研讨团队调查了训练过程中的动态变化，展现了3B模型的token扩展曲线。

综合来看，这些发现验证了mHC在大规模场景下的有效性。这一结论得到了我们外部大规模训练实验的进一步证明。

(, 下载次数: 2)

原文图6：mHC相比基线的扩展特性。 (a) 计算扩展曲线：实线展现了不同计算预算下的功能差距。每个点代表模型大小和数据集大小的特定计算最优配置，从3B和9B扩展到27B参数。(b) Token扩展曲线：3B模型在训练时期的轨迹。每个点代表模型在不同训练token数下的功能。

理想状况下，单层映射应满足双随机约束，即前向信号增益与后向梯度增益均等于1。

但是，为提升计算效率，实践完成中运用的Sinkhorn-Knopp算法必须限制迭代次数，这次实验中为20次。

因此，如下图(a)所示，后向梯度增益会稍微偏离1。在下图(b)所示的复合映射状况下，偏离有所添加但仍保持有界，最大值约为1.6。

(, 下载次数: 2)

原文图7：流形约束超衔接（mHC）的传播波动性。本图展现了27B模型中 (a) 单层映射与 (b) 复合映射的传播动态

值得留意的是，与HC中近3000的最大增益幅度相比，mHC将其降低了三个数量级。

这些结果表明，mHC相比HC分明加强了传播波动性，确保了前向信号与后向梯度的波动活动。

此外，团队观察到，对于HC，当最大增益较大时，其他值也往往分明，这表明一切传播途径普遍存在不波动性。相比之下，mHC一直产生波动的结果。

原文图8：可学习映射的可视化，展现了HC（第一行）与mHC（第二行）的代表性单层及复合映射。每个矩阵经过对选定序列内一切token取平均计算得出。y轴和x轴上的标签分别表示前向信号增益（行和）与后向梯度增益（列和）。

更多概况请参阅原论文。
参考材料：https://arxiv.org/abs/2512.24880https://x.com/teortaxesTex/status/2006628917428334631
文章来源：新智元。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)