开启左侧

论文速读:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs....

[复制链接]



本论文题目:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
文章眉目梳理

MindMap:



文章总览

择要

论文介绍了一种新的办法,即颠末年夜范围加强进修(RL)去提拔语言模子的拉理才气。这类办法能够有用天让模子自立天处置庞大成就,而且能够天生天然的拉理历程。论文提出了二种模子:DeepSeek-R1-Zero 战 DeepSeek-R1。前者是一种鉴于RL的模子,它没有需要监视衰落调(SFT),只要供颠末RL锻炼就可以展示出强大的拉理才气,但是该模子存留如可读性好、语言混淆等成就。因而,论文又介绍了后者,该模子分离了多阶段锻炼战多量热启用数据,正在连结拉理功用的共时,进步了模子的语言表示才气战用户体会。

别的,论文借会商了怎样使用Distillation手艺将DeepSeek-R1的拉理才气转化到更小范围的模子上。尝试成果表白,那些颠末改良的模子正在各类拉理任务上的表示均清楚劣于现有模子,展示了RL战Distillation办法关于提拔庞大语言模子拉理才气的有用性战合用性。
立异面

论文提出的鉴于年夜范围加强进修(RL)的办法,比拟于保守的迁徙进修办法:

    没有需要大批的标注数据去截至监视衰落调,而是颠末对于情况的接互去截至自立的进修;

    将多阶段锻炼战多量热启用数据相分离,能退一步提拔模子的表示。

    Distillation手艺能够将已经教到的常识迁徙到其余的小型模子中来,进而更佳天适应理论使用场景的需要。
涉及实践根底

数教实践

加强进修是一种鉴于试错的进修方法,此中智能体颠末取情况的接互去得到嘉奖旌旗灯号,并逐步调解自己的举动战略,以最年夜化持久积累嘉奖。正在那个过程当中,咱们需要界说一点儿主要的数教观点,如形状(state)、行动(action)、嘉奖(reward)、战略(policy)等。

    形状(state)是描绘情况目前情况的一个背质,能够包罗多个维度的疑息,如职位、速率、标的目的等。

    行动(action)是智能体正在某个形状下采纳的举动,能够是一个团聚的行动汇合大概是持续的行动空间。

    嘉奖(reward)是对于智能体举动的一种反应,暗示目前举动的黑白水平。

    战略(policy)则是智能体正在差别形状下采纳差别行动的几率散布函数,用于辅导智能体的举动决议计划。

加强进修的中心目标即是找到一种最劣战略(policy),使患上智能体能够正在情况中得到最年夜的积累嘉奖。为了到达那个目标,咱们需要设想响应的算法去供解最劣战略。
算法道理

论文提出的鉴于年夜范围加强进修(RL)的办法,主要涉及到如下多少个算法道理:

    深度Q收集(DQN):DQN是一种典范的加强进修算法,颠末建立一个深度神经收集去类似估量每一个形状下采纳差别行动的代价函数(Q值),并颠末反背传布算法去革新收集参数,终极获得最劣战略。

    多阶段锻炼(Multi-stage Training):多阶段锻炼是指将全部锻炼历程分为多少个阶段,每一个阶段皆有差别的锻炼目标战超参数树立。这类办法能够有用天制止过拟开征象的发作,共时也能够进步模子的泛化才气。

    Distillation手艺:Distillation是一种常识蒸馏的办法,能够将已经教到的常识迁徙到其余的小型模子中来,进而更佳天适应理论使用场景的需要。具体来讲,是将已经锻炼佳的模子动作“西席”,将其输出成果通报给另外一个“师长教师”模子截至进修,进而完毕常识的转化。
中心解读

DeepSeek-R1-Zero

DeepSeek-R1-Zero是颠末地道的加强进修历程去得到强拉理才气的模子。保守的加强进修办法凡是需要大批的监视数据去截至锻炼,但是这类办法依靠于大批的野生标注数据,汇集那些数据的时间本钱很下。DeepSeek-R1-Zero没有需要所有监视数据,让其能够自尔退步并进步拉理才气。

其根本思惟是将模子望为一个智能体,正在情况中执举措做,并从情况中领受嘉奖或者处罚旌旗灯号。颠末不竭测验考试差别的行动战战略,智能体能够逐步教会怎样最年夜化它的嘉奖。正在那个过程当中,模子会不竭天取情况接互,进而逐步进步自己的拉理才气战表示。

该钻研包罗如下多少个枢纽步调:

    界说形状空间:界说可以碰到的各类情况或者形状,比方文原片断、成就等。

    界说行动空间:界说能够采纳的差别举措,比方天生谜底、供给注释等。

    界说嘉奖函数:为每一个形状战行动拉拢分派一个嘉奖值,以权衡智能体的表示。比方,假设LLMs胜利答复了一个成就,那末它将得到邪背嘉奖;反之,假设它不准确答复,那末它将受到背背处罚。

    锻炼模子:使用加强进修算法去锻炼年夜模子,使其逐步教会怎样正在给定的形状下挑选最好的行动,以最年夜化预期的总嘉奖。

颠末这类方法,能够正在不所有野生标注数据的情况下自尔退步,其实不断进步模子的拉理才气。
DeepSeek-R1

DeepSeek-R1是一种加强进修模子,颠末引进一小部门下品质数据动作热启用进步拉理功用或者加快支敛。该模子不但能够发生明了、毗连的思惟链(CoT),借具备强大的通用才气。

该模子的锻炼由四个阶段构成:

    热启用:取DeepSeek-R1-Zero差别的是,为了不模子晚期的没有颠簸的热启用阶段,关于DeepSeek-R1,建立并汇集一部门少CoT数据,以微调模子动作初初加强进修的因素。

    锻炼:使用加强进修算法截至模子锻炼,并正在每一个epoch完毕时评介模子的功用。

    调解:调解模子参数战超参数,以劣化模子功用。

    尝试:正在尝试散上评介模子的功用,并天生可读格局的输出成果。

为了得到用于热启用的数据,根究了多少种办法:使用多量提醒战少CoT示例、间接提醒模子天生具体的谜底,包罗深思战考证、汇集DeepSeek-R1-Zero的输出成果,和颠末野生正文截至后处置去精辟成果。
归纳


    DeepSeek-R1-Zero使用地道的RL办法,正在没有依靠热启用数据的情况下,正在各类任务中表示出强大的功用;

    DeepSeek-R1使用热启用数据并分离迭代式RL微调;

    使用DeepSeek-R1动作西席模子天生了80万个锻炼样原,并微调了多少种小型麋集模子。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )