职贝云数AI新零售门户

标题: DeepSeek 发布强化学习新思绪 [打印本页]

作者: xSAkNE 时间: 2025-4-5 04:32
标题: DeepSeek 发布强化学习新思绪

原论文：https://arxiv.org/pdf/2504.02495

这篇论文来自DeepSeek-AI团队与清华大学合作，提出了一种名为"自我准绳批判调优"(Self-Principled Critique Tuning, SPCT)的新方法，用于提升生成式奖励模型(Generative Reward Model, GRM)的推理时扩展才能。

这项工作处理了一个关键成绩：如何在不添加模型参数的状况下，经过更智能地应用推理计算资源来提升奖励模型的功能。看来 DeepSeek 虽然走通了 Zero 的训练，但也在通用的奖励模型方面做了很多其他工作。

传统的奖励模型就像一位单一评审员，用固定标准给出分数，而DeepSeek-GRM则像一个动态评审团，可以根据详细成绩自动生成评分标准（准绳），并经过多轮讨论（采样）达成更准确的共识。

核心打破在于三个方面：

实验结果很强：DeepSeek-GRM-27B在多个奖励模型基准测试中表现出色，超越了现有方法和多个弱小的公开模型。经过推理时扩展（运用32个样本），它甚至可以达到或超过参数量高达671B的模型功能，证明了推理时扩展比简单添加模型参数更有效。在全体功能上，DeepSeek-GRM-27B经过元奖励模型引导的投票机制，从基线的67.9%提升至72.8%，提升幅度达4.9%。

(, 下载次数: 0)

我以为这项工作的最大价值在于它改变了我们对奖励模型扩展的思索方式。传统上，我们总是倾向于添加模型参数来提升功能，但这篇论文证明了经过更智能地应用推理计算资源，可以获得更好的性价比。特别是对于资源有限的团队来说，这种方法提供了一条可行的途径来构建高功能的奖励模型。不过，生成式奖励模型的效率依然是一个应战，将来假如能进一步优化推理效率，或者探求混合架构（结合标量和生成式方法的优点），能够会带来更大的打破。
生成式奖励模型范式

从"单一考官"到"评审团"的退化

传统的奖励模型就像一位只会给出总分的评委，而生成式奖励模型则像一个可以提供详细评审报告的专家团队。

在这篇论文中，作者详细比较了三种次要的奖励模型范式：标量(scalar)、半标量(semi-scalar)和生成式(generative)方法。这些范式决议了模型的灵敏性和可扩展性。

(, 下载次数: 0)

假如把这些方法比作装修验收场景：标量模型就像一位只会打总体分数的验收员（"这套房子，8分！"），半标量模型会给出简单评语加分数（"电路布线整洁，9分；墙面平整度普通，7分"），而生成式模型则会提供片面的验收报告（"厨房水槽安装符合标准，但水龙头与台面结合处密封不严，能够导致渗水成绩..."）。

从工程角度看，标量方法的局限性非常分明。它们只能输入简单的数值评分，无法提供丰富的反馈信息，也难以经过多次采样来提升推理时的功能。想象一下，假如十位验收员都只给出"8分"这样的结果，我们很难从中获得更多洞见。

相比之下，生成式方法的灵敏性优势分明。首先，它可以处理各种输入类型，无论是单个回答、成对回答还是多个回答。其次，它可以生成文本方式的评价，提供丰富的反馈信息。最重要的是，它可以在推理时经过多次采样获得多样化的评价，从而提升功能。

**它的输入输入格式如下：

输入：查询 + 一个或多个回答

输入：针对每个回答的文本评价 + 分数

例如，对于一个数学成绩的两个回答，模型能够会输入：
回答1评价：解题思绪明晰，但在第二步计算中出现错误，导致最终结果不正确。分数：6/10
回答2评价：完全正确的解题过程，步骤明晰，结果准确。分数：9/10

在实践运用中，这种灵敏性带来了分明优势。例如，当评价一个编程成绩的回答时，模型可以关注代码的正确性、效率和可读性；而评价一个创意写作的回答时，则可以关注故事结构、言语表达和创意性。这种动态调整才能使得模型可以更准确地评价各种类型的回答。

从实验结果来看，生成式方法在推理时扩展方面表现出色。经过并行采样多组评价，然后停止投票，DeepSeek-GRM可以在添加推理计算量的同时分明提升功能。特别是，当采样数量从1添加到32时，全体功能从67.9%提升至71.0%，提升幅度达3.1%。

生成式奖励模型范式之前其实很多团队都有尝试过，算力要求比标量高很多。虽然它在效率上能够不如标量方法，但它的灵敏性和可扩展性使得它可以处理更复杂的评价义务。对于需求高质量反馈的运用场景，如教育辅助、内容创作和代码审查等，生成式奖励模型能够是更好的选择。不过，如何进一步提升生成式方法的效率，以及如何在保持灵敏性的同时减少计算开支，依然是值得探求的方向。
自我准绳批判调优

如何训练出一个合格的"评审专家"团队？这是SPCT（Self-Principled Critique Tuning，自我准绳批判调优）方法要处理的核心成绩。从工程角度看，这个过程就像培育一组可以自主制定评审标准并给出准确评价的专家。

SPCT采用了一个两阶段训练流程：回绝式微调（Rejective Fine-Tuning）作为冷启动，然后是基于规则的强化学习（Rule-Based Reinforcement Learning）。这种设计非常巧妙，让我们深化了解一下。

首先，回绝式微调阶段就像新员工的标准培训过程。在这个阶段，模型学习如何生成格式正确的准绳和批判。详细来说，系统会运用预训练的GRM为各种查询和回答生成多个轨迹（trajectories），然后根据一个简单但有效的策略停止挑选：

这个过程确保模型接触到足够多样化且具有应战性的案例，同时避免学习错误的评价形式。风趣的是，研讨团队发现有时需求给模型一些"提示"（hints），比如告诉它哪个是最佳回答，以协助它生成正确的评价，尤其是对于推理义务。

接上去是基于规则的强化学习阶段，这就像模拟实战考核。在这个阶段，模型经过在线学习不断优化其生成准绳和批判的才能。详细来说，系统运用GRPO（一种强化学习算法）来训练模型，奖励函数设计得非常直接：

这个简单的奖励机制鼓励模型学习如何生成有效的准绳和准确的批判，以便正确区分不同质量的回答。

(, 下载次数: 0)

SPCT的一个关键创新是动态准绳生成机制。传统方法通常依赖预定义的固定准绳，而SPCT训练出的模型可以根据详细查询和回答动态生成评价准绳。这就像一个阅历丰富的评审专家，可以根据详细成绩自动调整评价标准。

例如，对于一个数学成绩，模型能够会生成这样的准绳：
1. 计算准确性（权重：40%）：解答必须在计算上完全正确
2. 解题步骤明晰度（权重：30%）：解答应明晰展现每一步骤
3. 边界状况处理（权重：20%）：解答应思索一切能够的边界状况
4. 效率（权重：10%）：解答应采用最优算法

而对于一个创意写作成绩，准绳能够完全不同：
1. 故事结构（权重：35%）：故事应有明晰的末尾、发展和结局
2. 角色发展（权重：25%）：角色应有深度和发展
3. 言语表达（权重：25%）：言语应生动、富有表现力
4. 创意性（权重：15%）：故事应有原创性和创新点

这种动态准绳生成机制使得模型可以更准确地评价各种类型的回答，而不是用一套固定标准硬套一切成绩。

在在线学习过程中，模型不断优化其生成准绳和批判的才能。经过大量的训练数据（包括1070K通用指令数据和186K回绝采样数据，以及237K强化学习数据），模型逐渐学会如何生成有效的准绳和准确的批判。

实验结果表明，SPCT分明提升了GRM的质量和可扩展性。例如，在没有准绳生成的状况下，DeepSeek-GRM-27B的全体功能为67.5%；而加入准绳生成后，功能提升至69.9%。更重要的是，经过推理时扩展（运用32个样本），功能进一步提升至71.0%。

从工程实际角度看，SPCT的训练过程相对高效。回绝式微调阶段耗时19.2小时，基于规则的强化学习阶段耗时15.6小时，总共约35小时即可完成训练。思索到模型的功能提升，这是一个非常合理的工夫投入。

SPCT方法的最大亮点在于它将准绳从"了解"转变为"生成"的一部分。这种转变使得模型可以更灵敏地顺应各种评价义务，而不是依赖预定义的固定标准。不过，这种方法也面临一些应战，比如如何确保生成的准绳覆盖一切重要方面，以及如何平衡不同准绳的权重。将来能够需求更复杂的机制来指点准绳生成。
并行采样与元引导

单个评审能够出错，那么如何完成群体决策来获得更准确的评价呢？这就是DeepSeek-GRM中并行采样和元引导机制的核心价值所在。

从工程角度看，这部分设计就像一个高效的论文盲审流程：多位评审独立给出评价（并行采样），然后由一位资深编辑（元奖励模型）挑选有价值的意见，最终构成综合评分。这种机制确保了即便个别评审出现偏向，最终结果依然可以保持准确性。

并行采样的完成逻辑非常直观。对于给定的查询和回答，DeepSeek-GRM会并行生成多组准绳和批判，然后经过投票机制聚合结果。详细来说，假如我们采样k次，每次生成的评分为S_i,j（第i个回答在第j次采样中的评分），那么最终评分就是这些评分的总和。

这种简单的投票机制实践上扩展了奖励空间，使得模型可以生成更细粒度的评分。例如，假如单次评分范围是1-10，那么采样32次后，评分范围就扩展到了32-320，大大提高了评分的精度。

但是，并行采样也面临一个应战：并非一切生成的准绳和批判都是高质量的。由于随机性或模型局限，某些采样结果能够存在偏向或质量不高。为了处理这个成绩，研讨团队引入了**元奖励模型(meta RM)**。

元奖励模型的作用就像一位资深编辑，担任挑选高质量的评价。它是一个点式标量奖励模型，经过训练可以辨认DeepSeek-GRM生成的准绳和批判的正确性。详细来说，元奖励模型会为k个采样结果分别输入一个元奖励分数，然后只选择元奖励分数最高的k_meta个结果停止投票，从而过滤掉低质量的样本。

(, 下载次数: 0)

实验结果证明了这种设计的有效性。在多个奖励模型基准测试中，DeepSeek-GRM经过元奖励模型引导的投票机制，全体功能从基线的67.9%提升至72.8%，提升幅度达4.9%。这一结果甚至超过了参数量高达340B的Nemotron-4-340B-Reward模型(70.5%)和GPT-4o(71.3%)。

(, 下载次数: 0)

从表格中可以看出，不同模型在推理时扩展方面的表现差异很大。标量和半标量方法（如CLoud-Gemma-2-27B）在采样8次后功能提升有限（仅0.3%），而DeepSeek-GRM在采样8次后功能提升分明（2.7%），加入元奖励模型后提升更为分明（4.1%）。这阐明生成式方法在推理时扩展方面具有分明优势。

值得留意的是，投票机制的设计也很关键。简单的多数投票能够会遭到随机性的影响，而元奖励模型引导的投票可以更有效地挑选高质量的评价。实验表明，当时，元奖励模型引导的投票效果最好。

从装修验收的角度来类比：假如我们请10位验收员来评价一套房子，每位验收员都会根据本人的专业背景制定不同的检查标准（准绳），然后给出详细的验收报告（批判）和评分。有些验收员能够更关注电路安全，有些能够更关注水管质量，还有些能够更关注墙面平整度。经过综合这些不同角度的评价，我们可以得到一个更片面、更准确的最终评价。而元奖励模型就像一位资深主管，可以辨认哪些验收员的报告更专业、更牢靠，从而给予这些报告更高的权重。

并行采样与元引导机制是DeepSeek-GRM最具创新性的部分之一。它不只提高了模型的功能，还加强了评价结果的可解释性和牢靠性。不过，这种方法也面临一些应战，比如计算开支添加和延迟添加。在实践运用中，需求根据详细场景在功能和效率之间做出权衡。例如，对于对实时性要求不高的离线评价义务，可以采用更多的采样次数；而对于需求疾速反馈的在线运用，能够需求减少采样次数或采用更高效的并行计算方案。

此外，我觉得元奖励模型的训练方法还有优化空间。目前的元奖励模型次要基于二元分类义务（正确/不正确）停止训练，能够无法捕捉到评价质量的纤细差别。将来可以思索运用更复杂的训练目的，例如回归义务或排序义务，来进一步提升元奖励模型的功能。同时，如何在保持多样性的同时提高采样效率，也是值得探求的方向。
实战功能表现

从方法论到实践运用，最关键的成绩是：DeepSeek-GRM在真实场景中表现如何？就像一辆新车需求在各种道路条件下测试一样，这个模型也需求在多样化的基准测试中证明本人的才能。

在多范畴基准测试中，DeepSeek-GRM展现出了令人印象深入的表现。研讨团队在四个次要基准上停止了片面评价：Reward Bench（通用对话、推理和安全性评价）、PPE（包含众包偏好数据和可验证义务的正确性数据）、RMB（专注于有用性和有害性的综合基准）和ReaLMistake（诊断单个回答中的错误）。

(, 下载次数: 0)

从表格中可以看出，DeepSeek-GRM-27B在单次推理时就达到了69.9%的全体功能，超过了大多数基线方法。更令人印象深入的是，经过推理时扩展（32次采样），功能进一步提升至71.0%，加入元奖励模型引导后甚至达到了72.8%，超过了参数量高达340B的Nemotron-4-340B-Reward模型(70.5%)和GPT-4o(71.3%)。

这种功能提升并非平均分布在一切基准上。在Reward Bench上，DeepSeek-GRM经过元奖励模型引导的投票机制将功能从86.0%提升至90.4%；在PPE Preference上，从64.7%提升至67.2%；在PPE Correctness上，从59.8%提升至63.2%；在RMB上，从69.0%提升至70.3%。这表明推理时扩展在不同义务上的效果有所差异，但总体上都带来了分明提升。

特别值得留意的是训练扩展与推理扩展的性价比对比。研讨团队将DeepSeek-GRM-27B与更大参数量的模型停止了比较，包括DeepSeek-V2-Lite(16B MoE)、DeepSeek-V2.5(236B MoE)和DeepSeek-V3(671B MoE)。

结果令人诧异：DeepSeek-GRM-27B经过32次采样的推理扩展，可以达到或超过参数量高达671B的模型功能。这意味着，相比于简单地添加模型参数，推理时扩展提供了一种更高效的功能提升途径。从计算资源的角度看，32次采样的27B模型总计算量约为864B参数的单次推理，依然分明低于671B模型的计算量。

在典型案例分析方面，研讨团队提供了一些成功和失败的例子。在成功案例中，DeepSeek-GRM可以生成顺应性强的评价准绳，并基于这些准绳给出准确的批判。例如，对于一个JavaScript函数编写义务，模型可以辨认出代码中的逻辑错误，并给出合理的评分。

但是，也存在一些失败案例。次要的失败形式包括：

例如，在一个要求分析实时加密货币价格的义务中，模型无法准确判别价格数据的真实性，导致评分偏向。这表明，虽然DeepSeek-GRM在大多数场景下表现出色，但在特定范畴依然面临应战。

从工程角度看，DeepSeek-GRM的推理效率和成本也是一个需求思索的要素。虽然并行采样可以分明提升功能，但也添加了计算开支和延迟。在实践运用中，需求根据详细场景在功能和效率之间做出权衡。例如，对于对实时性要求不高的离线评价义务，可以采用更多的采样次数；而对于需求疾速反馈的在线运用，能够需求减少采样次数或采用更高效的并行计算方案。

团队还发现，DeepSeek-GRM可以根据义务复杂度自顺应地调整回答长度。在推理义务上，模型会生成更长的评价，而在安全性义务上，评价长度反而略有下降。这表明模型学会了如何在不同义务上高效分配计算资源，为复杂义务投入更多资源，为简单义务节省资源。

DeepSeek-GRM在实战功能方面的表现非常出色，特别是其推理时扩展才能。这种方法为构建高功能奖励模型提供了一条新途径，尤其合适资源有限的团队。

另外，我觉得针对特定范畴的专业知识加强也是一个值得探求的方向。例如，对于数学或编程义务，可以思索引入外部工具（如代码解释器或数学求解器）来辅助评价；对于需务实时数据的义务，可以思索接入外部API来获取最新信息。这些加强能够会进一步提升DeepSeek-GRM在特定范畴的功能。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)