职贝云数AI新零售门户

标题: 斗胆解读DeepSeek新论文,我看到了AI的困境 [打印本页]

作者: R5MTQ 时间: 4 天前
标题: 斗胆解读DeepSeek新论文,我看到了AI的困境
点击上方蓝色字澄然>右上角...>设为星标⭐️

<「点赞、在看」后在文章底部可支付福利哦！>

文字 | 「澄然」

(, 下载次数: 1)

(, 下载次数: 1)
DeepSeek又发论文了。

打开一看，标题叫《mHC: Manifold-Constrained Hyper-Connections》，光这名字就够劝退一批人的。

点出来更绝，密密层层的公式，什么双随机矩阵、Sinkhorn-Knopp算法、Birkhoff polytope……我一个非半路出家的人，看得脑袋嗡嗡响。

但我这人有个缺点，越是看不懂的东西越想搞明白。

硬着头皮啃了一遍，云里雾里的。没办法，用上本人搓的AI智能体帮我"翻译"，一来一回聊了好几轮，总算把这事儿理顺了。

这篇论文的全称叫「Manifold-Constrained Hyper-Connections」，简称mHC。听起来很唬人对吧？

说白了，它在处理一个成绩：怎样让深度神经网络既能处理更复杂的信息，又不会训练到一半忽然崩掉。

听起来很技术，但背后的逻辑挺有意思。

明天我就用大白话给你讲讲这论文到底在干什么，特地聊聊我的一些思索。这些思索能够比论文本身更值得揣摩。

讲清楚mHC，得先从十年前说起。

2016年，有个叫ResNet的东西横空出世，彻底改变了深度学习的游戏规则。mHC的故事，就是从那个「电梯井」末尾的。

(, 下载次数: 1)
要了解mHC在干什么，得先搞明白ResNet处理了什么成绩。

传统的深度神经网络就像爬楼梯，信息从1楼到50楼，每一层都要停上去处理一遍。

成绩是，每处理一次，信息就会损耗一点。爬到50楼的时分，1楼传下去的信息曾经改头换面了。

更要命的是，训练的时分梯度要从50楼往下传，传到1楼基本就消逝了。这就是为什么以前的神经网络很难做深。

2016年，ResNet横空出世，干了件特别聪明的事：在楼梯旁边修了个「电梯井」。

这个电梯井叫「残差衔接」，它的逻辑很简单：输入 = 输入 + 处理后的结果。

你可以了解为，信息有两条路可以走。一条是老老实实爬楼梯，经过每一层的处理；另一条是直接坐电梯，啥也不干就到顶楼。

最关键的是，这个电梯井是笔直的，没有任何妨碍。

1楼的信号到50楼，强度一点不变。这就保证了信息能残缺地传递到最顶层，梯度也能顺畅地往下流。

正是这种简单直接的设计，让深度神经网络的训练变得波动。ResNet一出来，网络深度从几十层直接飙到上百层，功能大幅提升。

但总有人不满足。

有人觉得一个电梯井太简单了，能不能搞点更复杂的？能不能让信息在传递过程中互相交流、互相影响？

HC就是在这个想法下诞生的。听起来很美妙，但理想很骨感。

(, 下载次数: 2)
HC的想法听起来很美妙：一个电梯井不够，我要修4个，让信息在这4条通道之间互相交流。

详细怎样做的呢？把原来一维的信号扩展成4×4的矩阵。

原来1楼传下去一个数，如今变成传4个数，这4个数还能经过矩阵互相影响、互相混合。信息容量的确添加了，实际上能表达更复杂的特征。

表面上看，这个设计挺聪明的。信息更丰富了，表达才能更强了，功能应该会更好。

但成绩来了。

每条通道都有个可调理的阀门，也就是那个4×4的「矩阵」。从1楼到50楼，要经过50个这样的阀门。

这就是灾难的末尾。

你想啊，50个矩阵连乘，每个矩阵的数值稍微大一点或小一点，累积起来就是指数级的变化。

举个简单的例子：假如每层的放大倍数是1.1，50层上去就是1.1的50次方，约等于117倍。信号直接爆炸。

反过来，假如每层的衰减系数是0.9，50层上去就是0.9的50次方，约等于0.005倍。信号基本消逝。

论文里的Figure 3更夸张，峰值直接飙到3000倍。训练到一半，模型就崩了，梯度要么爆炸要么消逝，根本训练不下去。

这就是HC最致命的成绩：它毁坏了ResNet最核心的「恒等映射」特性。

ResNet那个笔直的电梯井，保证了信号从1楼到50楼强度不变。HC为了追求更复杂的表达才能，把这个波动性给牺牲了。

结果就是，实际上很美妙，实践上根本用不了。

DeepSeek的mHC，就是来处理这个成绩的。

(, 下载次数: 1)
DeepSeek的处理方案叫mHC，核心思绪就是给每个阀门加个「限制器」（专业术语叫"双随机矩阵约束"）。

什么意思呢？你可以想象4条水管，出去100升水，出去也必须是100升水，只是这100升在4条管道之间的分配比例变了。

比如出去的时分是每条管25升，出去的时分能够变成40、30、20、10升，但总量不变。

这样一来，50层连乘上去，信号强度就不会爆炸或消逝了。

技术上怎样完成的？用了一个叫Sinkhorn-Knopp的算法，迭代20次，把矩阵调整成符合约束的方式。

效果怎样样？论文里的Figure 7显示，信号增益从原来的3000倍降到了1.6倍，基本波动了。

功能数据也的确不错：BBH义务提升7.2个百分点，DROP义务提升6.9个百分点。

但代价呢？添加了6.7%的「训练工夫」，还要做大量额外的矩阵运算。

技术成绩是处理了，但这引发了我更深的思索。

我们为了追求那点功能提升，搞出这么复杂的约束机制，真的值得吗？

ResNet当年之所以成功，就是由于简单直接。一个笔直的电梯井，什么都不做，反而最波动。

如今为了让信息"更丰富地混合"，先把简单的设计复杂化，然后发现不行，再加一堆约束把它限制住。

这绕了一大圈，又回到了接近原点的地方。

(, 下载次数: 1)
看完这些技术细节，我脑子里冒出一个成绩：

我们是不是在用复杂的方式处理本不该存在的成绩？

但这里要补充一个重要的背景：DeepSeek面临的「算力资源困境」。

他们不像OpenAI或Google那样有超强的算力优势，必须在有限资源下另辟蹊径。

从这个角度看，HC和mHC的探求是有价值的，在约束条件下寻觅打破口，这本身就是工程智慧的表现。

困境倒逼创新，这没缺点。

但这不妨碍我们思索更本质的成绩。

为此我专门问了我的智能体，抛出了一个更深层的疑问：

"所以，通篇上去我所看到的还是回归到本质上的成绩，将无序停止有序化，而这个过程又势必带来了新的熵增，本质还是要处理对信息的判别力，还得回归到人在构建这个系统中极强有力的约束才行对吧？"

它的回答让我堕入了更深的思索。

(, 下载次数: 1)

(, 下载次数: 1)

(, 下载次数: 1)

这段对话让我看法到，HC和mHC的故事，折射出整个AI范畴的一个根本困境：

我们总想经过添加「复杂度」来获得更强的才能，但复杂度本身就是熵增的过程。

ResNet本来是个低熵系统，一条笔直的通道，简单、直接、可控。

HC把它变成高熵系统，4条通道互相衔接，自在度添加了，混乱度也添加了。

mHC又花大力气去降低这个熵，用各种约束强行把混乱拉回可控形态。

这就像是先把一个有序系统打乱，再花力气把它重新整理回来。

真正需求的，是更精准的「判别力」。

如今的深度学习本质上是暴力拟合，模型不知道什么信息重要，只能靠大力出奇观。参数够多、数据够多、算力够强，总能拟合出点东西。

但这是蛮力。

回头看这些年真正有效的打破，都是人为设计的强约束：Transformer的自留意力机制、ResNet的残差衔接、RLHF的人类反馈。

这些约束都在降低熵，限制了模型的自在度，但恰恰是这些限制，让模型变得可控、可用。

AI范畴如今最大的成绩，模型太复杂了，有效约束太少。

我们需求的是更深入的了解和更精准的控制。

最最最后说一句：

我不是半路出家，也不是专业研讨者，这只是我个人的了解。

技术细节能够有误读，对论文的解读能够不够严谨，某些推论能够过于大胆。

欢迎专业人士指正。

如有播种，费事动动你的小手

点赞、分享、在看，与友同享↓↓↓

(, 下载次数: 1)
AI指令专题课程学习点击了解概况>>
引荐阅读

用kimi一天读100本书！这个指令请低调运用

我用kimi修改作文，教师都惊呆了！

用国产AI Deepseek做合同审查，强的一批！

Deepseek学会兽性本恶后太狠了！连律师都沉默

别再说学不会Prompt了，你能够连入门门槛都没摸到！

用Kimi+微信重构知识存储术，绝了！

(, 下载次数: 1)

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)