职贝云数AI新零售门户
标题:
斗胆解读DeepSeek新论文,我看到了AI的困境
[打印本页]
作者:
R5MTQ
时间:
4 天前
标题:
斗胆解读DeepSeek新论文,我看到了AI的困境
点击上方蓝色字 澄然>右上角...>设为星标⭐️
<「点赞、在看」后在文章底部可支付福利哦!>
文字 | 「澄然」
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
DeepSeek又发论文了。
打开一看,标题叫《mHC: Manifold-Constrained Hyper-Connections》,光这名字就够劝退一批人的。
点出来更绝,密密层层的公式,什么双随机矩阵、Sinkhorn-Knopp算法、Birkhoff polytope……我一个非半路出家的人,看得脑袋嗡嗡响。
但我这人有个缺点,越是看不懂的东西越想搞明白。
硬着头皮啃了一遍,云里雾里的。没办法,用上本人搓的AI智能体帮我"翻译",一来一回聊了好几轮,总算把这事儿理顺了。
这篇论文的全称叫「Manifold-Constrained Hyper-Connections」,简称mHC。听起来很唬人对吧?
说白了,它在处理一个成绩:怎样让深度神经网络既能处理更复杂的信息,又不会训练到一半忽然崩掉。
听起来很技术,但背后的逻辑挺有意思。
明天我就用大白话给你讲讲这论文到底在干什么,特地聊聊我的一些思索。这些思索能够比论文本身更值得揣摩。
讲清楚mHC,得先从十年前说起。
2016年,有个叫ResNet的东西横空出世,彻底改变了深度学习的游戏规则。mHC的故事,就是从那个「电梯井」末尾的。
(, 下载次数: 1)
上传
点击文件名下载附件
要了解mHC在干什么,得先搞明白ResNet处理了什么成绩。
传统的深度神经网络就像爬楼梯,信息从1楼到50楼,每一层都要停上去处理一遍。
成绩是,每处理一次,信息就会损耗一点。爬到50楼的时分,1楼传下去的信息曾经改头换面了。
更要命的是,训练的时分梯度要从50楼往下传,传到1楼基本就消逝了。这就是为什么以前的神经网络很难做深。
2016年,ResNet横空出世,干了件特别聪明的事:在楼梯旁边修了个「电梯井」。
这个电梯井叫「残差衔接」,它的逻辑很简单:输入 = 输入 + 处理后的结果。
你可以了解为,信息有两条路可以走。一条是老老实实爬楼梯,经过每一层的处理;另一条是直接坐电梯,啥也不干就到顶楼。
最关键的是,这个电梯井是笔直的,没有任何妨碍。
1楼的信号到50楼,强度一点不变。这就保证了信息能残缺地传递到最顶层,梯度也能顺畅地往下流。
正是这种简单直接的设计,让深度神经网络的训练变得波动。ResNet一出来,网络深度从几十层直接飙到上百层,功能大幅提升。
但总有人不满足。
有人觉得一个电梯井太简单了,能不能搞点更复杂的?能不能让信息在传递过程中互相交流、互相影响?
HC就是在这个想法下诞生的。听起来很美妙,但理想很骨感。
(, 下载次数: 2)
上传
点击文件名下载附件
HC的想法听起来很美妙:一个电梯井不够,我要修4个,让信息在这4条通道之间互相交流。
详细怎样做的呢?把原来一维的信号扩展成4×4的矩阵。
原来1楼传下去一个数,如今变成传4个数,这4个数还能经过矩阵互相影响、互相混合。信息容量的确添加了,实际上能表达更复杂的特征。
表面上看,这个设计挺聪明的。信息更丰富了,表达才能更强了,功能应该会更好。
但成绩来了。
每条通道都有个可调理的阀门,也就是那个4×4的「矩阵」。从1楼到50楼,要经过50个这样的阀门。
这就是灾难的末尾。
你想啊,50个矩阵连乘,每个矩阵的数值稍微大一点或小一点,累积起来就是指数级的变化。
举个简单的例子:假如每层的放大倍数是1.1,50层上去就是1.1的50次方,约等于117倍。信号直接爆炸。
反过来,假如每层的衰减系数是0.9,50层上去就是0.9的50次方,约等于0.005倍。信号基本消逝。
论文里的Figure 3更夸张,峰值直接飙到3000倍。训练到一半,模型就崩了,梯度要么爆炸要么消逝,根本训练不下去。
这就是HC最致命的成绩:它毁坏了ResNet最核心的「恒等映射」特性。
ResNet那个笔直的电梯井,保证了信号从1楼到50楼强度不变。HC为了追求更复杂的表达才能,把这个波动性给牺牲了。
结果就是,实际上很美妙,实践上根本用不了。
DeepSeek的mHC,就是来处理这个成绩的。
(, 下载次数: 1)
上传
点击文件名下载附件
DeepSeek的处理方案叫mHC,核心思绪就是给每个阀门加个「限制器」(专业术语叫"双随机矩阵约束")。
什么意思呢?你可以想象4条水管,出去100升水,出去也必须是100升水,只是这100升在4条管道之间的分配比例变了。
比如出去的时分是每条管25升,出去的时分能够变成40、30、20、10升,但总量不变。
这样一来,50层连乘上去,信号强度就不会爆炸或消逝了。
技术上怎样完成的?用了一个叫Sinkhorn-Knopp的算法,迭代20次,把矩阵调整成符合约束的方式。
效果怎样样?论文里的Figure 7显示,信号增益从原来的3000倍降到了1.6倍,基本波动了。
功能数据也的确不错:BBH义务提升7.2个百分点,DROP义务提升6.9个百分点。
但代价呢?添加了6.7%的「训练工夫」,还要做大量额外的矩阵运算。
技术成绩是处理了,但这引发了我更深的思索。
我们为了追求那点功能提升,搞出这么复杂的约束机制,真的值得吗?
ResNet当年之所以成功,就是由于简单直接。一个笔直的电梯井,什么都不做,反而最波动。
如今为了让信息"更丰富地混合",先把简单的设计复杂化,然后发现不行,再加一堆约束把它限制住。
这绕了一大圈,又回到了接近原点的地方。
(, 下载次数: 1)
上传
点击文件名下载附件
看完这些技术细节,我脑子里冒出一个成绩:
我们是不是在用复杂的方式处理本不该存在的成绩?
但这里要补充一个重要的背景:DeepSeek面临的「算力资源困境」。
他们不像OpenAI或Google那样有超强的算力优势,必须在有限资源下另辟蹊径。
从这个角度看,HC和mHC的探求是有价值的,在约束条件下寻觅打破口,这本身就是工程智慧的表现。
困境倒逼创新,这没缺点。
但这不妨碍我们思索更本质的成绩。
为此我专门问了我的智能体,抛出了一个更深层的疑问:
"所以,通篇上去我所看到的还是回归到本质上的成绩,将无序停止有序化,而这个过程又势必带来了新的熵增,本质还是要处理对信息的判别力,还得回归到人在构建这个系统中极强有力的约束才行对吧?"
它的回答让我堕入了更深的思索。
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
(, 下载次数: 1)
上传
点击文件名下载附件
这段对话让我看法到,HC和mHC的故事,折射出整个AI范畴的一个根本困境:
我们总想经过添加「复杂度」来获得更强的才能,但复杂度本身就是熵增的过程。
ResNet本来是个低熵系统,一条笔直的通道,简单、直接、可控。
HC把它变成高熵系统,4条通道互相衔接,自在度添加了,混乱度也添加了。
mHC又花大力气去降低这个熵,用各种约束强行把混乱拉回可控形态。
这就像是先把一个有序系统打乱,再花力气把它重新整理回来。
真正需求的,是更精准的「判别力」。
如今的深度学习本质上是暴力拟合,模型不知道什么信息重要,只能靠大力出奇观。参数够多、数据够多、算力够强,总能拟合出点东西。
但这是蛮力。
回头看这些年真正有效的打破,都是人为设计的强约束:Transformer的自留意力机制、ResNet的残差衔接、RLHF的人类反馈。
这些约束都在降低熵,限制了模型的自在度,但恰恰是这些限制,让模型变得可控、可用。
AI范畴如今最大的成绩,模型太复杂了,有效约束太少。
我们需求的是更深入的了解和更精准的控制。
最最最后说一句:
我不是半路出家,也不是专业研讨者,这只是我个人的了解。
技术细节能够有误读,对论文的解读能够不够严谨,某些推论能够过于大胆。
欢迎专业人士指正。
如有播种,费事动动你的小手
点赞、分享、在看,与友同享↓↓↓
(, 下载次数: 1)
上传
点击文件名下载附件
AI指令专题课程学习 点击了解概况>>
引荐阅读
用kimi一天读100本书!这个指令请低调运用
我用kimi修改作文,教师都惊呆了!
用国产AI Deepseek做合同审查,强的一批!
Deepseek学会兽性本恶后太狠了!连律师都沉默
别再说学不会Prompt了,你能够连入门门槛都没摸到!
用Kimi+微信重构知识存储术,绝了!
(, 下载次数: 1)
上传
点击文件名下载附件
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5