DeepSeek-R1:纯强化学习让大模型＂顿悟＂

fSh5o · 发表于昨天 05:04

来日诰日咱们往返瞅一下 DeepSeekR1 的典范论文。
起首DeepSeek-R1 的中心突破是：年夜模子的拉理才气能够颠末杂加强进修（RL）激起，无需人类标注的拉理轨迹。

DeepSeek先锻炼了 DeepSeek-R1-Zero——完整鉴于加强进修算法，不所有监视微调（SFT）热启用，依靠终极谜底准确性的划定规矩嘉奖来锻炼。成果模子自立出现出深思、考证、根究替换计划那些初级拉理举动（像人一致拉理思考再患上出谜底）。

R1-Zero：整树模，杂 RL 的出现

R1-Zero 正在 AIME 2024 数教比赛上的患上分从初初的 15.6%进步到了 77.9%。

锻炼过程当中模子教会了用更少的思考时间去处置困难——答复少度从多少百 token 增加到上万 token，道理实在即是正在终极的躲藏层输出的语句变多，便仿佛模子正在喃喃自语而后写初稿这类操纵一致。

正在锻炼过程当中模子借呈现了"整理悟时候"（Aha Moment）：它教会了正在拉理中突然停下来，用"Wait, wait"从头评介自己的思路。

枢纽手艺：GRPO 替换 PPO

GRPO（Group Relative Policy Optimization）是 DeepSeek 对于 PPO 的改良：它反面 PPO 这样来依靠取战略模子划一范围的代价模子去估量劣势，而是间接从统一成就采样的一组输出入网算绝对劣势，去低落内乱存战计较开销。

R1 的四阶段锻炼流火线

从整间接加强进修锻炼的 R1-Zero 模子的可读性好、语言比力稠浊。以是DeepSeek-R1 颠末四个阶段处置：

DeepSeek-R1:杂加强进修让年夜模子＂整理悟＂w2.jpg

功用：取 o1 并肩

蒸馏：1.5B 小模子也能逾越 GPT-4o

另有另一个很主要的任务蒸馏（Distill）。团队用 R1 天生的 80 万条下品质数据，对于 Qwen（1.5B–32B）战 LLaMA（8B–70B）系列模子截至微调（学给那些模子来怎样拉理）。

1.5B 参数的蒸馏模子，正在 MATH-500 上便拿到了 83.9%，逾越了 GPT-4o（74.6%）战 Claude-3.5-Sonnet（78.3%）。32B 蒸馏版正在 AIME 2024 上达 72.6%，比间接对于 32B 模子干年夜范围 RL 的结果借要佳许多。

以是下品质西席输出的蒸馏，年夜幅超越正在较小模子上间接截至年夜范围RL。

DeepSeek-R1 证实了杂 RL 完整能够激起年夜模子的深层拉理才气，并且蒸馏让这类才气以极高本钱提高到小型模子。