开启左侧

AI大模型_DeepSeek-R1_#2

[复制链接]
在线会员 ty19 发表于 2025-2-11 02:08:09 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
备注:按照DeepSeek-R1民间英文论文翻译并简化收拾整顿

本文:https://arxiv.org/abs/2501.12948

2.办法

2.1概括

办法简述:

展示了颠末年夜范围加强进修(RL)能够清楚进步拉理才气,即使没有使用有监视的微调(SFT)动作热启用数据也能完毕那一目标

别的,参加多量热启用数据借能够退一步增强功用

实质介绍:

1) DeepSeek-R1-Zero,正在根底模子上间接使用加强进修而没有使用所有SFT数据

2) DeepSeek-R1,从一个颠末数千个少链式思惟(CoT)示例微调的查抄面开端使用加强进修

3) 从DeepSeek-R1中提取拉理才气到小而麋集的模子中

2.2 DeepSeek-R1-Zero

根底模子加强进修

加强进修:

加强进修正在拉理任务中已经展示了清楚的有用性

那些事情严峻依靠于监视数据的汇集,而那一历程耗时且吃力

咱们将根究庞大语言模子正在不监视数据的情况下开展拉理才气的可以性

偏重 面存眷它们颠末地道的加强进修历程自尔演退的才气。

2.2.1加强进修算法

为节流锻炼本钱,接纳了组绝对战略劣化(此处为算法,尔陌生略过)

2.2.2嘉奖模子

嘉奖是锻炼旌旗灯号的滥觞,决定了加强进修(RL)的劣化标的目的

精确性嘉奖:

精确性嘉奖模子评介答复可否准确

比方,正在数教成就具备肯定成果的情况下,模子需要以指定格局供给终极谜底

异常天,关于Code成就,能够使用编译器按照预约义的尝试用例天生反应

格局嘉奖:

咱们借使用了一个格局嘉奖模子,自愿模子将其思考历程搁正在某个一定的标签之间

2.2.3锻炼模板

模板请求DeepSeek-R1-Zero起首天生拉理历程,而后给出终极谜底

故意将束缚限定正在那一构造格局上,制止所有实质一定的偏见

保证咱们能够精确察看模子正在加强进修过程当中的天然开展

2.2.4功用、自尔退步历程

DeepSeek-R1-Zero的整理悟时候

功用:

颠末加强进修,DeepSeek-R1-Zero能够得到强大的拉理才气,而且无需所有有监视的微调数据

那长短常值患上存眷的一项成绩,因为它夸大了该模子仅依靠加强进修就可以有用天进修战泛化的才气

自尔退步历程:

颠末延长计较的时间,DeepSeek-R1-Zero得到了处置愈来愈庞大的拉理任务的才气

模子会自觉天截至深思:从头审阅并评介以前的步调,而且寻找处置成就的差别办法

那是因为模子取加强进修情况接互所发生的成果

整理悟时候:Aha Moment

正在锻炼DeepSeek-R1-Zero的过程当中察看到的一个出格令人着迷的“整理悟时候”

那临时辰发作正在模子的某其中间版原中

咱们已学给模子怎样处置成就,而是为其供给准确的鼓励体制,让其自立开展初级的成就处置战略

缺点:

DeepSeek-R1-Zero展示了强大的拉理才气,但是存留可读性较好和语言混用等成就

咱们根究钻研了RL加强进修办法的DeepSeek-R1

2.3 DeepSeek-R1:

热启用数据加强进修RL

受到DeepSeek-R1-Zero的启迪,表现了二个成就

1)引进多量的下品质数据热启用,可否能够退一步提拔拉理功用战加快支敛

2)怎样锻炼,能使其不但发生明了毗连的CoT思惟链,借能有强大的泛化才气

咱们设想了DeepSeek-R1的锻炼阶段

2.3.1 热启用

可读性:

正在为DeepSeek-R1创立热启用数据时,咱们设想了一种可读情势

该情势包罗每一个照应开端的择要,并过滤失落没有友好的答复

后劲:

颠末仔细设想热启用数据的人类先验情势

咱们察看到其功用劣于DeepSeek-R1-Zero

咱们觉得迭代锻炼是拉理模子更佳的方法

2.3.2 里背拉理的加强进修

正在对于DeepSeek-V3-Base截至热启用数据微调后,使用了庞大加强进修锻炼历程

正在RL锻炼期间引进了一种语言不合性嘉奖,固然功用有所降落,但是使成果更具可读性

而后咱们对于微调后的模子截至RL锻炼,曲到它正在拉理任务上到达支敛形状

2.3.3拒绝 采样取监视微调

劈面背拉理的RL锻炼支敛时,用Checkpoint模子去汇集SFT数据用于下一轮锻炼

拉理数据:

统共汇集了约莫60万条拉理相干的锻炼样原

非拉理数据:

统共汇集了约莫20万条拉理相关的锻炼样原

使用上述约80万个样例构成的粗简数据散对于DeepSeek-V3-Base截至了二轮微调

2.3.4 统统场景的加强进修

锻炼目标:

退一步使模子取人类偏偏佳对于齐,完美其拉理才气

锻炼办法:

关于拉理数据,依照DeepSeek-R1-Zero办法

该办法使用鉴于划定规矩的嘉奖指导数教、代码战逻辑拉理范围的进修历程

关于通用数据,接纳嘉奖模子以捕获正在庞大且奇妙场景中的人类偏偏佳

正在DeepSeek-V3的根底上截至建立,并接纳类似的偏偏佳对于散布战锻炼提醒

有效性评介,仅存眷终极择要,只管削减对于下层拉理历程的滋扰

无害性的评介,会检查全部模子照应,包罗拉理历程战择要

终极,锻炼出一个正在拉理才气圆里表示超卓,并劣先思考有效性战无害性的模子

2.4 蒸馏付与小型模子拉理才气

蒸馏目标:

为使较小模子具备像DeepSeek-R1这样的拉理才气

微调数据:

间接使用颠末DeepSeek-R1经心选择的80万样原对于启源模子截至了微调

钻研成果:

这类间接的常识蒸馏办法清楚提拔了小型模子的拉理才气

模子特性:

关于蒸馏后的模子,只使用SFT(指令微调),没有包罗RL(加强进修)阶段

磅礴死态:

DeepSeek展示了常识蒸馏手艺的有用性,将根究RL阶段的任务留给更普遍的社区钻研

备注:别的部门后绝革新

AI年夜模子_DeepSeek-R1_#2w2.jpg

AI Research & Do.
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )