开启左侧

Distilabel DeepSeek-R1 模型蒸馏教程

[复制链接]
在线会员 Qy0qF 发表于 2025-7-24 12:50:15 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
背AI转型的法式员皆存眷公家号 机械进修AI算法工程

跟着狂言语模子(LLM)正在各个范围的深入使用,怎样正在一定场景下(如调理)经济下效天定造化一个博属模子,成了业界存眷的核心。原文将介绍一种前沿且下效的手艺路子:起首,使用强大的DeepSeek-R1模子动作“西席”,颠末distilabel框架处置战天生下品质的调理指令数据散;而后,接纳QLoRA手艺,对于阿里巴巴最新启源的Qwen3-4B模子截至下效的参数微调。原文将重心阐发 distilabel战QLoRA的中心劣势,并为您供给一个明了的真战门路图。

1、手艺布景

比年去,以GPT系列、Gemini、Claude、Llama系列和海内的Qwen3(通义千问)、DeepSeek等为代表的狂言语模子(LLM)得到了突破性平息。它们正在通用常识问问、文原天生、代码编辑等圆里展示出惊人的才气。可是,间接将那些通用年夜模子使用于像调理如许需要下度专科性、精确性战数据公稀性的范围,仍面对一点儿挑战:

Distilabel DeepSeek-R1 模子蒸馏学程w2.jpg

为了抑制那些挑战,AI社区根究出了一条“模子蒸馏”取“参数下效微调”相分离的新路子。其中心思惟是,使用一个才气更强的“西席模子”(如 DeepSeek-R1),去“教诲”一个更小、更容易于布置的“师长教师模子”(如 Qwen3-4B)。而 distilabel 框架战 QLoRA 手艺,恰是完毕那一路子十分优良的手艺栈。

2、手艺介绍

2.1 distilabel框架:智能化的数据流火线

distilabel是一个博为年夜模子指令微调数据处置而设想的启源AI框架。它的中心目标是主动化战范围化天创立、选择战标注下品质的指令数据散,进而挣脱对于杂野生标注的依靠。能够将其理解为一个下度智能化的“数据工场”。

正在咱们的场景中,distilabel 饰演着枢纽脚色——建立从本初调理数据到下品质微调指令的桥梁。其中心劣势包罗:

    分解数据天生:咱们能够使用 DeepSeek-R1 的强大天生才气,鉴于多量的调理成就种子(Seed prompts),批质天生大批丰硕百般的问对答。比方,输出一个病症,让 DeepSeek-R1 天生相干的病果、病症、医治计划等多品种型的问问。

    数据标注取评分:distilabel 撑持使用多个LLM(包罗西席模子自己)动作“裁判”,对于天生的数据截至多维度挨分战选择。比方,咱们能够设定尺度,请求天生的调理谜底必需共时满意“精确性”、“深刻易懂性”战“宁静性”三个尺度,只需患上分下的数据才会被采用。

    活络的数据处置流火线:distilabel 许可用户像拆修乐下积木一致,自由拉拢数据天生、处置、选择、格局变换等多个步调,建立一个完整主动化的数据处置流火线。那极地面提拔了数据准备的服从。

    可扩大取启源:它能够取Hugging Face、vLLM等死态无缝散成,并撑持散布式计较,能够轻快处置万万级此外数据散。


Distilabel DeepSeek-R1 模子蒸馏学程w3.jpg

2.2 QLoRA微调手艺

假设道 distilabel处置 了“吃甚么”的成就,那末 QLoRA (Quantized Low-Rank Adaptation) 便处置了“如何吃”且“吃患上少”的成就。QLoRA 是一种反动性的参数下效微调(Parameter-Efficient Fine-Tuning, PEFT)手艺,它能闪开收者正在消耗级GPU(如单个RTX 3090/4090)上微调数十亿参数的年夜模子。

QLoRA的邪术滥觞于二年夜中心手艺的分离:

4-bit NormalFloat (NF4) 权重量化:

QLoRA 正在模子减载阶段,将原来保存为 16 位或者 32 位浮面数(如 FP16/BF16)的预锻炼模子权沉,接纳一种特造的 4 位浮面数格局——NormalFloat-4(NF4)截至质化。该办法能将模子正在内乱存中的占用年夜幅低落,凡是可节流约 4 倍的保存空间。

手艺劣势

    疑息保实性:NF4 是针对于权沉散布设想的、疑息论上最劣的 4 位数据范例,可正在清楚低落保存需要的共时,最年夜水平天加多量化戴去的疑息丧失。

    单重量化(Double Quantization):正在 NF4 质化的根底上,QLoRA 退一步对于质化过程当中的查找表(codebook)自己截至再次质化,进而收缩模子常数项,占用更少内乱存,退一步提拔了部分资本服从。


高秩适配器(Low-Rank Adaptation, LoRA):

QLoRA 其实不间接微调或者改正已经质化战解冻的宏大模子权沉参数,而是正在模子的枢纽层(如 Transformer 的留神力层)旁路拔出 二个可锻炼的高秩适配器矩阵(Adapter)。正在微调过程当中,仅革新那些适配器矩阵的参数,主模子参数连结稳定。

手艺劣势

    参数下效性:钻研表白,年夜模子正在适应下流任务时,其权沉变更具备清楚的高秩特征。LoRA使用 那一面,颠末高秩合成,仅用极多量的可锻炼参数(凡是低落 99% 以上),便可完毕对于模子功用的有用提拔。

    任务适应性:LoRA 适配器的拔出 没有会破坏本有权沉构造,包管了模子正在迁徙进修场景下的颠簸性战泛化才气,共时候明低落了微调的算力战保存需要。


Distilabel DeepSeek-R1 模子蒸馏学程w4.jpg

事情过程归纳:

Distilabel DeepSeek-R1 模子蒸馏学程w5.jpg

颠末这类方法,QLoRA 完毕了“正在解冻的、高粗度的模子上,截至下粗度的、小范围的锻炼”,正在连结取齐质微调险些相称功用的共时,将软件门坎落到了亘古未有的高度。那使患上正在小我私家装备上定造化 Qwen3-4B 如许的模子成了可以。

3、模子蒸馏微调分析

3.1 DeepSeek-R1模子颠末distilabel数据处置

根底情况准备:
sudo apt update -y      sudo apt install -y vim tree     
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/      pip config set install.trusted-host mirrors.aliyun.com      
pip install --upgrade pip    pip install "distilabel[openai]" "ray[default]" "datasets"  
本初锻炼散数据准备:
## 名目中已经挂载佳了 正在那个路子    ls /home/mw/input/data56935693/train_zh_1000.json    数据处置代码:
cd ~/project/finetune-medical    python generate_cot.py    考证天生的数据散:

3.2 模子微调
pip install peft trl bitsandbytes accelerate transformers datasets scipy   

3.3 师长教师模子准备

名目会主动挂载的
mw@klab:~/project/finetune-medical$ tree /home/mw/input/models2179/    /home/mw/input/models2179/    ├── README.md    ├── config.json    ├── generation_config.json    ├── merges.txt    ├── model-00001-of-00003.safetensors    ├── model-00002-of-00003.safetensors    ├── model-00003-of-00003.safetensors    ├── model.safetensors.index.json    ├── tokenizer.json    ├── tokenizer_config.json    └── vocab.json   
0 directories, 11 files   

锻炼代码准备
mw@klab:~/project/finetune-medical$ tree /home/mw/project/finetune-medical    /home/mw/project/finetune-medical    ├── finetune_medical.py    ├── generate_cot.py    ├── inference.py    └── output        ├── medical_cot_alpaca_v1.json        ├── medical_cot_full_v1.json        └── raw_distiset_v1            ├── default            │   ├── dataset_dict.json            │   └── train            │       ├── data-00000-of-00001.arrow            │       ├── dataset_info.json            │       └── state.json            └── distiset_configs                ├── README.md                ├── pipeline.log                └── pipeline.yaml   

4、代码运行调试
##根底 情况初初化    # 尔已经 将情况挨包佳了 那里没有需要再从头装置了    #假设 念要正在别的处所复幻想验 能够参照以下装置 根底依靠情况    !sudo apt update -y      !sudo apt install -y vim tree     
!pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/      !pip config set install.trusted-host mirrors.aliyun.com      !pip install "distilabel[openai]" "ray[default]" "datasets"    !pip install peft trl bitsandbytes accelerate transformers datasets scipy   

4.1 数据散天生
## 数据散天生 [合计有1000条数据,示破例里只处置了3条,那个历程太耗时,假设需要更多范围的数据处置能够自止改正代码]!python /home/mw/project/finetune-medical/generate_cot-v1.py
# 数据散路子# /home/mw/project/finetune-medical/output/medical_cot_alpaca_v1.json

Distilabel DeepSeek-R1 模子蒸馏学程w6.jpg

Distilabel DeepSeek-R1 模子蒸馏学程w7.jpg

Distilabel DeepSeek-R1 模子蒸馏学程w8.jpg

Distilabel DeepSeek-R1 模子蒸馏学程w9.jpg

4.2 模子微调锻炼¶

Distilabel DeepSeek-R1 模子蒸馏学程w10.jpg

4.3 微调模子尝试

Distilabel DeepSeek-R1 模子蒸馏学程w11.jpg

Distilabel DeepSeek-R1 模子蒸馏学程w12.jpg

Distilabel DeepSeek-R1 模子蒸馏学程w13.jpg

5、小结

原文会商了一条分离 distilabel 取 QLoRA 的前沿手艺路子,旨正在下效、高本钱天建立范围博属狂言语模子。distilabel 框架颠末其主动化的数据处置流火线,奇妙天使用强力西席模子(DeepSeek-R1)的才气,为咱们处置了下品质调理微调数据密缺的中心痛面。而 QLoRA 手艺则颠末立异的4-bit质化战高秩适配器,完全突破了LLM微调的软件壁垒,使患上正在小我私家装备上对于 Qwen3-4B 如许的优良模子截至定造化锻炼成为幻想。

机械进修算法AI年夜数据手艺

搜刮公家号增加: datanlp

Distilabel DeepSeek-R1 模子蒸馏学程w14.jpg

少按图片,识别两维码

浏览过原文的人借瞅了如下文章:

及时语义朋分ENet算法,提炼书籍/单据边沿

收拾整顿启源的华文狂言语模子,以范围较小、可私有化布置、锻炼本钱较高的模子为主

《狂言语模子》PDF下载

入手教深度进修-(李沐)PyTorch版原

YOLOv9电动车头盔佩带检测,具体解说模子锻炼

TensorFlow 2.0深度进修案例真战

鉴于40万表格数据散TableBank,用MaskRCNN干表格检测

《鉴于深度进修的天然语言处置》中/英PDF

Deep Learning 华文版第一版-周志华团队

【齐套望频课】最齐的目标检测算法系列解说,深刻易懂!

《好团机械进修实践》_好团算法团队.pdf

《深度进修初学:鉴于Python的实践取完毕》下浑华文PDF+源码

《深度进修:鉴于Keras的Python实践》PDF战代码

特性提炼取图象处置(第两版).pdf

python赋闲班进修望频,从初学到真战名目

2019最新《PyTorch天然语言处置》英、华文版PDF+源码

《21个名目玩转深度进修:鉴于TensorFlow的实践详解》残破版PDF+附书籍代码

《深度进修之pytorch》pdf+附书籍源码

PyTorch深度进修快速真战初学《pytorch-handbook》

【下载】豆瓣评分8.1,《机械进修真战:鉴于Scikit-Learn战TensorFlow》

《Python数据阐发取开掘真战》PDF+残破源码

汽车止业残破常识图谱名目真战望频(齐23课)

李沐年夜神启源《入手教深度进修》,减州伯克利深度进修(2019秋)课本

条记、代码明了易懂!李航《统计进修办法》最新资本齐套!

《神经收集取深度进修》最新2018版中英PDF+源码

将机械进修模子布置为REST API

FashionAI打扮属性标签图象识别Top1-5计划分享

主要启源!CNN-RNN-CTC 完毕脚写汉字识别

yolo3 检测出图象中的没有划定规矩汉字

异常是机械进修算法工程师,您的口试为何过没有了?

前海征疑年夜数据算法:危急几率猜测

【Keras】残破完毕‘接通标记’分类、‘单据’分类二个名目,让您把握深度进修图象分类

VGG16迁徙进修,完毕医教图象识别分类工程名目

特性工程(一)

特性工程(两) :文原数据的睁开、过滤战分块

特性工程(三):特性缩搁,从词汇袋到 TF-IDF

特性工程(四): 种别特性

特性工程(五): PCA 落维

特性工程(六): 非线性特性提炼战模子重叠

特性工程(七):图象特性提炼战深度进修

怎样使用崭新的决议计划树散成级分离构gcForest干特性工程并挨分?

Machine Learning Yearning 华文翻译稿

蚂蚁金服2018春招-算法工程师(同四周)颠末

环球AI挑战-场景分类的角逐源码(多模子融合)

斯坦祸CS230民间指北:CNN、RNN及使用本领速查(挨印珍藏)

python+flask拆修CNN正在线识别脚写华文网站

中科院Kaggle环球文原匹配比赛华人第1名团队-深度进修取特性工程

不竭革新资本

深度进修、机械进修、数据阐发、python

搜刮公家号增加: datayx

您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )