开启左侧

DeepSeek-R1:纯强化学习让大模型"顿悟"

[复制链接]
在线会员 fSh5o 发表于 昨天 05:04 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
来日诰日咱们往返瞅一下 DeepSeekR1 的典范论文。
起首DeepSeek-R1 的中心突破是:年夜模子的拉理才气能够颠末杂加强进修(RL)激起,无需人类标注的拉理轨迹。

DeepSeek先锻炼了 DeepSeek-R1-Zero——完整鉴于加强进修算法,不所有监视微调(SFT)热启用,依靠终极谜底准确性的划定规矩嘉奖来锻炼。成果模子自立出现出深思、考证、根究替换计划那些初级拉理举动(像人一致拉理思考再患上出谜底)。

R1-Zero:整树模,杂 RL 的出现

R1-Zero 正在 AIME 2024 数教比赛上的患上分从初初的 15.6%进步 到了 77.9%。

锻炼过程当中模子教会了用更少的思考时间去处置困难——答复少度从多少百 token 增加到上万 token,道理实在即是正在终极的躲藏层输出的语句变多,便仿佛模子正在喃喃自语而后写初稿这类操纵一致。

正在锻炼过程当中模子借呈现了"整理悟时候"(Aha Moment):它教会了正在拉理中突然停下来,用"Wait, wait"从头评介自己的思路。

枢纽手艺:GRPO 替换 PPO

GRPO(Group Relative Policy Optimization)是 DeepSeek 对于 PPO 的改良:它反面 PPO 这样来依靠取战略模子划一范围的代价模子去估量劣势,而是间接从统一成就采样的一组输出入网算绝对劣势,去低落内乱存战计较开销。

R1 的四阶段锻炼流火线

从整间接加强进修锻炼的 R1-Zero 模子的可读性好、语言比力稠浊。以是DeepSeek-R1 颠末四个阶段处置:

DeepSeek-R1:杂加强进修让年夜模子"整理悟"w2.jpg
    1. 热启用:汇集多量下品质少思惟链数据,截至有监视微调2. 里背拉理的 RL:用划定规矩嘉奖+语言不合性嘉奖持续锻炼3.拒绝 采样 SFT:从 RL 后的模子采样 60 万条拉理数据,参加非拉理数据,两次 SFT4. 里背通用的 RL:用嘉奖模子对于齐有效性战无害性

功用:取 o1 并肩


蒸馏:1.5B 小模子也能逾越 GPT-4o

另有另一个很主要的任务蒸馏(Distill)。团队用 R1 天生的 80 万条下品质数据,对于 Qwen(1.5B–32B)战 LLaMA(8B–70B)系列模子截至微调(学给那些模子来怎样拉理)。

1.5B 参数的蒸馏模子,正在 MATH-500 上便拿到了 83.9%,逾越了 GPT-4o(74.6%)战 Claude-3.5-Sonnet(78.3%)。32B 蒸馏版正在 AIME 2024 上达 72.6%,比间接对于 32B 模子干年夜范围 RL 的结果借要佳许多。

以是下品质西席输出的蒸馏,年夜幅超越正在较小模子上间接截至年夜范围RL。


DeepSeek-R1 证实了杂 RL 完整能够激起年夜模子的深层拉理才气,并且蒸馏让这类才气以极高本钱提高到小型模子。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )