职贝云数AI新零售门户

标题: 论文笔记160_AI_DeepSeek+清华_SPCT方法 [打印本页]

作者: 8bnCTDN    时间: 2025-4-5 04:00
标题: 论文笔记160_AI_DeepSeek+清华_SPCT方法
论文信息

论文次要内容

1. 论文摘要

本文讨论了如何经过添加推理计算来提高通用奖励建模(RM)的功能,特别是在各种范畴中生成准确的奖励信号。研讨者们提出了一种名为自我准绳批判调整(Self-Principled Critique Tuning, SPCT)的新方法,经过在线强化学习(RL)来促进生成式奖励模型(GRMs)的可扩展奖励生成行为。SPCT可以自顺应地生成准绳和准确的批判,从而提高奖励质量。此外,研讨者们还引入了一个元RM来指点投票过程,以完成更好的扩展功能。实验结果表明,SPCT分明提高了GRMs的质量和可扩展性,超越了现有方法和模型,并且在多个RM基准测试中表现出色,没有分明的范畴偏向。与训练工夫扩展相比,推理工夫扩展可以获得更好的功能。
2. 研讨背景与核心内容

随着大型言语模型(LLMs)的发展,强化学习(RL)作为LLMs的后训练方法得到了广泛运用。奖励建模(RM)作为RL中的关键组成部分,对于生成准确的奖励信号至关重要。但是,现有研讨次要集中在特定范畴,而在通用范畴中,由于奖励标准的多样性和复杂性,奖励生成更具应战性。本文旨在处理通用RM在推理工夫的可扩展性成绩,即如何经过添加推理计算来提高RM的功能。
3. 方法论分析与次要贡献

本文提出了一种新的方法论SPCT,经过在线RL来促进GRMs的可扩展奖励生成行为。SPCT包括两个阶段:回绝微调(Rejective Fine-Tuning, RFT)和基于规则的在线RL。RFT阶段使GRM顺应生成具有正确格式和各种输入类型的准绳和批判。基于规则的在线RL阶段进一步优化了准绳和批判的生成。此外,研讨者们还引入了一个元RM来指点投票过程,以提高扩展功能。次要贡献包括:
4. 实践工作

为了完成研讨目的,研讨者们停止了以下详细工作:
5. 实验数据与研讨成果

实验结果表明,SPCT在多个RM基准测试中获得了分明的功能提升。例如,在Reward Bench基准测试中,DeepSeek-GRM-27B在贪心解码下的功能为86.0%,经过SPCT方法提升至86.0%,并且在推理工夫扩展到32个样本时,功能进一步提升至88.5%。在与其他模型的比较中,DeepSeek-GRM-27B在多个基准测试中均表现出色,例如在PPE Correctness基准测试中,其功能从59.8%提升至60.4%,并且在元RM的指点下,功能提升至63.2%。此外,消融研讨表明,SPCT的各个组件对模型功能的提升起到了重要作用,例如准绳生成对贪心解码和推理工夫扩展的功能都有分明影响。
6. 图片与表格

Figure 1: 推理工夫扩展功能



Figure 2: 不同奖励生成范式



(, 下载次数: 0)
Figure 3: SPCT方法的阐明



(, 下载次数: 0)
Figure 4: 推理工夫扩展功能与训练工夫扩展功能的比较



(, 下载次数: 0)
Table 1: 初步实验结果



(, 下载次数: 0)
Table 2: 不同方法和模型在RM基准测试上的全体结果



(, 下载次数: 0)
Table 3: 推理工夫扩展结果



(, 下载次数: 0)
Table 4: SPCT各组件的消融研讨结果



7. 参考文献

1. 奖励建模(Reward Modeling)

2. 强化学习(Reinforcement Learning)

3. 大型言语模型(LLMs)

4. 推理工夫扩展(Inference-Time Scaling)






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5