职贝云数AI新零售门户

标题: DeepSeek靠蒸馏偷技术?说穿了是争光 [打印本页]

作者: ty19 时间: 6 天前
标题: DeepSeek靠蒸馏偷技术?说穿了是争光
最近最反华的Anthropic又末尾了一轮表演式的指控，说中国的大模型公司偷它们的数据。

我们不讨论Anthropic的指控数据能否失实。他们只是提出指控，并没有提供证明这些指控的证据。由于这些证据并不重要，即便是Anthropic也不得不承认蒸馏是合法的。所以他们只是打着“国家安全”的幌子停止政治优待而已。

(, 下载次数: 2)

风趣的是，这个帖子下的回帖，大多数是对Anthropic的嘲讽。

更风趣的是一位网友POM，他说，你不是说DeepSeek发起了15万次发问吗？这算什么，我一个人在Cluade上的发问次数比DeepSeek提的都多，干脆把这些发问都开源了。于是他把本人15.5万条交互数据都开源了，比DeepSeek还多5千条呢。同时还贴心肠附上了一个工具，可以将本人的数据脱敏，鼓励大家一同共享。并且在Hugging Face上将它命名为DataClaw，暗讽前段工夫Anthropic给cludeclaw发律师函的事情。然后马斯克给他点了一个赞。

(, 下载次数: 2)
一些风趣的“理想”

从Anthropic的报告中能看到一些风趣的东西：
1.风趣的排名

Anthropic宣称中国公司开了2.4万个账号停止了超过1600万次央求，其中：
Deepseek: Over 150,000 exchanges
Moonshot: Over 3.4 million exchanges
MiniMax: Over 13 million exchanges

我们看到，DeepSeek其实只要15万次，月之暗面的Kimi停止了340万次央求，而央求次数最多是的MiniMax，有1300多万次。

但是Anthropic在指控时还是把DeepSeek排在第一位。看起来即便如今DeepSeek的排名曾经远远落后于Kimi、MiniMax等其它国内模型，但上次的打击还是让他们印象太深入了。

然后从报告中也能看出下面提到的三家大模型各自的特点：

DeepSeek的发问关注的是思想链和安全审查数据。 Kimi发问关注是推理工具及视觉才能。 MiniMax的发问则是关注于编码才能。

我个人到是很奇异名单里没有z.ai的GLM，由于我运用起来感觉GLM比MiniMax的编码才能更强啊。但不管怎样说，MiniMax能用Clude 1/12的价格完成其80%的功能，是个人都知道应该怎样选择。
2. 不打自招的隐私策略

他们的报告中自称

“By examining request metadata, we were able to trace these accounts to specific researchers at the lab.”

阐明他们系统是可以根据账号中元数据跟踪到用户个人信息的，你以为你只提供了账号中的信息，但是你与他的每次交互，都会提交更多的个人信息。
3. 恶劣的企业行为

(, 下载次数: 2)

刚刚看到这个时，我到没有留意有什么成绩，不过网下马上有人指出，这就是暗示：假如我发现你的行为可疑，我不封禁你，而是在给你的输入内容中“投毒”。

(, 下载次数: 2)

至于什么行为是可疑的，由我说了算。对于一家企业来说，用这种态度对待本人的用户，真实是令人蔚为大观。
抛开“理想”不谈，我们来谈技术

1. 怎样优化模型

我们都知道，大模型是根据原始文本，生成各个词之间的概率关系，最终生成一个权重文件，这个文件就包含了训练的结果。

权重文件是模型才能的直接载体，不同的模型之间最次要的区别就在于这个权重文件。

那么怎样优化这个曾经存在的权重文件，从而提高功能呢？

在工程实际中，常见的模型紧缩组合策略包括剪枝（Pruning）、知识蒸馏（KD）与量化（Quantization）。有人将其称之为P-KD-Q组合策略[参见博客 https://redis.io/blog/model-distillation-llm-guide/]

P是剪枝 (Pruning) ：经过辨认并剔除网络结构中的冗余衔接或参数来达到紧缩目的。它思索的是模型结构的冗余性，直接减少参数数量，从而降低计算量。

(, 下载次数: 3)

Q是量化 (Quantization)：经过降低数值精度（例如将 32 位浮点数 FP32 转换为 8 位或 4 位整数 INT8/INT4）来减小存储代价。它不改变网络结构，但能分明减少内存占用并加速推理。

(, 下载次数: 3)

中间最重要就是KD——知识蒸馏 (Knowledge Distillation)。
2. 什么是蒸馏？

简单来说，就是一个先生模型经过向教师模型问成绩，把教师模型反前往数据当作高质量的语料停止微调或者作为断定标准停止监督学习。从而将本人的权重尽能够地与教师模型相似。

(, 下载次数: 2)
3. 蒸馏是大模型优化的一个基本技术

可以一定地说，每个模型都在运用这个技术。上图显示，Anthropic蒸馏了OpenAI的数据。

(, 下载次数: 2)

当然他们不能够只蒸馏一家公司，很快有人发出了下面的图

Anthropic的Cluade Sonnet4.6蒸馏了DeepSeek 3.2的思想链。
4. 蒸馏能还原出教师模型的权重文件吗？

实际上是不能够的，但的确可以蒸馏出一个功能和行为相近的模型。

由于蒸馏的目的是模拟行为，而不是复制权重。知识蒸馏的核心在于知识迁移，即让先生学习教师的逻辑。

举例来说，先生向教师模型问了一个成绩，得到一个答案。先生同时本人就这个成绩得到一个答案。比较两个答案，然后先生模型可以调整本人的权重数据，看看调整后出的答案能否与教师的分歧。反复重试后，以为两个答案分歧了，先生可以将调整后的权重数据固定上去，可以以为是学到教师的权重数据了。

但是成绩在于，教师给出的答案只是是其才能的一部分，它得到的结论，可以有多种思绪，而这次输入是按哪种思绪推导出的，先生不知道。即便能残缺地学到这个推导过程，也只是教师才能的一部分，所以说，蒸馏一定会导致模型多样性（Diversity）的下降。
5. 黑箱蒸馏的风趣特点

下面的这种蒸馏方法，我们普通称之为 “黑箱蒸馏” 。这种蒸馏学习的方法很分明是先生学到的才能不能够超过教师，由于它学到的知识一定只是教师的一个子集。这一点和人类先生有点不同，由于模型先生学到的知识会覆盖掉本人的知识。

另外还有一个和人类先生相似的风趣案例是，假如教师模型过于弱小而先生模型太弱，蒸馏的效果反而会变差。一个教授无法教会幼儿学会微积分。

当教师模型才能远超先生模型容量下限时，先生模型会“装不下”。知识蒸馏的核心目的是让先生拟合教师的输入分布，而这种拟合本质上是用数学公式表达，假如教师输入的函数复杂度远超先生可表达函数族时，先生会长期处于”欠拟合“形态，由于损失函数过大，使得梯度方向不波动。

另外，根据下面提到的蒸馏方法，它是根据教师输入的内容为正确答案，经过修正权重参数后的输入内容与正确答案比较来停止模拟。这其实还触及到一个概率成绩，就是教师输入内容中包含一些”暗知识“，所谓暗知识，就是输入的内容其实是包含着概率的，假如你在系统参数中调整Temperature参数，这些概率会发生变化，输入内容也会变化。而过于弱小的教师模型会出现概率分布过于尖锐的表现，这对于先生模型来说，难于学习。甚至直接退步成普通的监督训练了。

关于教师模型和先生模型才能差多少才比较合理呢？我也懒得找材料了，直接问DeepSeek，它的回答是教师规模是先生的10倍最好，假如100倍，那效果就比较差了，而1000倍，还不如不蒸馏呢，先生反而会学废，才能会退步。

教师模型与先生模型才能差别过大时，就别直接学了，可以添加中间教师，让教授教大先生，让大先生去教小先生。
6. 数据蒸馏

除了黑箱蒸馏，还有一种常见的变体是数据蒸馏。这种方法不是学习概率分布，而是从弱小的教师模型中提取高质量的推理数据和语料库，再用这些数据去训练（SFT）一个新的模型。这异样能使小模型获得大模型的逻辑才能，但其权重文件依然是全新的。

当前这也可以是语料清选的一种方式，你从网上拉上去一堆数据，人工清洗成本高效率低，但一个高效的大模型完全可以根据这些不规范的数据整理出高质量的文本。然后你用这些文本当语料停止训练。事半功倍！
7. 多找几个教师

这种技术在学术界和工业界被称为多教师蒸馏（Multi-Teacher Distillation, MTD）。它的核心思想正是经过整合多个教师模型的知识，为先生模型提供更丰富、更具多样性的监督信息，从而使其功能超越单一教师指点的效果。

从Cluade学编程，从DeepSeek学推理，经过学习多个教师，先生模型可以博采众长，捕获到更片面的知识特征。但是在多教师的状况下，先生模型必须有一个整合机制来处理不同教师输入的内容。也就是说先生本人得知道如何取舍。

这种蒸馏形式对先生模型的要求比较高了，同时成本也比较高，由于计算的开支成倍添加了。而且对蒸馏出数据的处理也需求添加额外的算力和足够的容量。

但是如今一切的大模型都会运用到多教师蒸馏的，这也是在任何大模型发布后，总有人会贴出一些问答，显示出A模型自称是B模型的状况。然后出现一轮无聊的抄袭指摘。
8. “教学相长”

假如教师模型和先生模型互相蒸馏，会出现一个才能是二者平均后的伟大版本的模型吗？

这种“互相蒸馏”的状况在学术上被称为深度互相学习（Deep Mutual Learning, DML）在线蒸馏（Online Distillation），其结果通常不是产生伟大的平均版本，而是完成模型功能的共同提升。

教师提升先生我们可以了解，但用蒸馏先生怎样会提升教师呢？这是一个非常有意思、也非常“反直觉”的现象。但它的确常常发生。缘由不在“才能传递”，而在分布重塑、优化轨迹重构、隐式正则化。

由于大模型容量大，往往其中有大量的数据噪声，而小模型在学习后由于多模性的降低，往往起到了一个去噪的作用，相当于小模型对大模型做了一次低秩投影。再用小模型去训练大模型时，相当于一次结构化平滑了。

举一个例子，大模型是一张8K的照片，细节更多，但带有噪点，小模型是一张紧缩后的4K照片，噪点被平均掉，然后再用4K去恢复8K的版本，细节少一点，但是更干净更自然了。

反向蒸馏提升教师，并不是先生更聪明，而是：先生模型对教师函数停止了低秩去噪和平滑化处理，重新塑造了优化轨迹，使大模型进入更优的泛化区域。
9. 让通才教出专才

假如以一个通用的模型为教师模型，先生模型经过只问某一类特定的成绩，能否蒸馏出一个公用模型？

这是一定的，这种方法通常被称为义务特定蒸馏（Task-specific Distillation）或数据蒸馏（Data Distillation），是完成大模型向垂直范畴落地的核心技术之一。

如今很多专业范畴的AI，就是经过蒸馏通用模型的方法来完成的。这里的关键是如何构建一个代表“特定成绩”的数据库。

应优先经过Prompt（发问）引导教师模型生成具有推理链路（CoT）的高质量合成数据，并结合软标签分布特征挑选出信息量大且难度适中（符合先生模型容量）的样本，同时经过交叉熵损失结合真实标签来确保监督学习的准确性。

用下面的例子来说，MiniMax只向Cluade问关于编程的成绩，自然学到Cluade在编程范畴的专门知识，但是它很分明不能够想一出是一出，随机地发问啊，这些成绩的列表、顺序和处理才是先生模型的才能表现。只要会学习的先生才能成绩好啊。学霸不是会背题，而是会学习。
10. 让多个大模型互相蒸馏会蒸出一个AGI吗？

假如把当前最优秀的大模型放在一同持续地互相蒸馏，最终会蒸出一个AGI吗？你一定会想到养蛊。也许会养出一个毒王，但不会退化成一个新种类啊。

实际下去说，无法直接蒸馏出一个通用人工智能。

由于蒸馏的本质是“函数逼近”，不是“才能创造”。蒸馏只能逼近教师分布，不能生成教师分布之外的新才能。从信息论的角度，信息不会凭空产生，假如模型中不存在真正的因果结构信息，互蒸是不会产生这些信息的。

另外，就是当前一切的大模型都是基于Transformer架构，它们处于同一个函数族，蒸馏不会改变模型的表达架构，因此难以创造出架构本身无法表达的新才能。

互相蒸馏是一个极佳的功能加强和模型紧缩手腕，它可以产生出极其接近顶尖程度的小模型，甚至在特定义务上经过博弈思想保留丰富的多样性。但在没有外部增量（如更强的数据、新的算法架构或 RL 迭代）的状况下，它无法打破最强个体的下限，因此不足以仅凭此途径诞生 AGI。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)