开启左侧

论文笔记160_AI_DeepSeek+清华_SPCT方法

[复制链接]
在线会员 8bnCTDN 发表于 2025-4-5 04:00:33 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
论文疑息

    论文题目Inference-Time Scaling for Generalist Reward Modeling论文作家Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu链交地点https://arxiv.org/abs/2504.02495
论文主要实质

1. 论文择要

原文会商了怎样颠末增加拉理计较去进步通用嘉奖修模(RM)的功用,出格是正在各类范围中天生精确的嘉奖旌旗灯号。钻研者们提出了一种名为自尔绳尺批驳调解(Self-Principled Critique Tuning, SPCT)的新办法,颠末正在线加强进修(RL)去增进天生式嘉奖模子(GRMs)的可扩大嘉奖天生举动。SPCT能够自适应天天生绳尺战精确的批驳,进而进步嘉奖品质。别的,钻研者们借引进了一个元RM去辅导投票历程,以完毕更佳的扩大功用。尝试成果表白,SPCT清楚进步了GRMs的品质战可扩大性,逾越了现无方法战模子,而且正在多个RM基准尝试中表示超卓,不清楚的范围倾向。取锻炼时间扩大比拟,拉理时间扩大能够得到更佳的功用。
2. 钻研布景取中心实质

跟着庞大语言模子(LLMs)的开展,加强进修(RL)动作LLMs的后锻炼办法获得了普遍使用。嘉奖修模(RM)动作RL中的枢纽构成部门,关于天生精确的嘉奖旌旗灯号相当主要。可是,现有钻研主要集合正在一定范围,而正在通用范围中,因为嘉奖尺度的百般性战庞大性,嘉奖天生更具挑战性。原文旨正在处置通用RM正在拉理时间的可扩大性成就,即怎样颠末增加拉理计较去进步RM的功用。
3.办法 论阐发取主要奉献

原文提出了一种新的办法论SPCT,颠末正在线RL去增进GRMs的可扩大嘉奖天生举动。SPCT包罗二个阶段:拒绝微调(Rejective Fine-Tuning, RFT)战鉴于划定规矩的正在线RL。RFT阶段使GRM适应天生具备准确格局战各类输出范例的绳尺战批驳。鉴于划定规矩的正在线RL阶段退一步劣化了绳尺战批驳的天生。别的,钻研者们借引进了一个元RM去辅导投票历程,以进步扩大功用。主要奉献包罗:
    提出了SPCT办法,清楚进步了GRMs的品质战可扩大性。引进元RM去辅导投票历程,退一步进步了扩大功用。尝试成果表白,SPCT正在多个RM基准尝试中逾越了现无方法战模子,且不清楚的范围倾向。
4.理论 事情

为了完毕钻研目标,钻研者们截至了如下具体事情:
    设想并完毕了SPCT办法,包罗RFT战鉴于划定规矩的正在线RL。开辟了DeepSeek-GRM模子,鉴于Ge妹妹a-2-27B截至后锻炼。完毕了元RM,用于辅导投票历程。正在多个RM基准尝试上评介了SPCT的功用,并取现无方法战模子截至了比力。截至了具体的尝试阐发,包罗拉理时间扩大功用、差别RM办法的比力、和SPCT各组件的溶解钻研。
5. 尝试数据取钻研功效

尝试成果表白,SPCT正在多个RM基准尝试中得到了清楚的功用提拔。比方,正在Reward Bench基准尝试中,DeepSeek-GRM-27B正在贪婪解码下的功用为86.0%,颠末SPCT办法提拔至86.0%,而且正在拉理时间扩大到32个样原时,功用退一步提拔至88.5%。正在宁可他模子的比力中,DeepSeek-GRM-27B正在多个基准尝试中均表示超卓,比方正在PPE Correctness基准尝试中,其功用从59.8%提拔至60.4%,而且正在元RM的辅导下,功用提拔至63.2%。别的,溶解钻研表白,SPCT的各个组件对于模子功用的提拔起到了主要感化,比方绳尺天生对于贪婪解码战拉理时间扩大的功用皆有清楚作用。
6. 图片取表格

Figure 1: 拉理时间扩大功用

    发源:第1章"Introduction"实质描绘:图1展示了差别RM办法正在统统尝试的RM基准尝试上的拉理时间扩大功用,比力了使用差别数目的采样嘉奖时的功用。枢纽发明:DeepSeek-GRM正在拉理时间扩大圆里表示超卓,特别是正在使用元RM时,功用提拔清楚。


Figure 2: 差别嘉奖天生范式

    发源:第2章"Preliminaries"实质描绘:图2展示了三种主要的嘉奖天生范式(标质、半标质战天生式)和二种评分情势(面对于面战成对于),并比力了它们正在拉理时间扩大战输出活络性圆里的表示。枢纽发明:面对于面天生式RM(GRM)正在输出活络性战拉理时间扩大圆里具备清楚劣势。


论文条记160_AI_DeepSeek+浑华_SPCT办法w2.jpg
Figure 3: SPCT办法的分析

    发源:第3章"Self-Principled Critique Tuning (SPCT)"实质描绘:图3展示了SPCT办法的二个阶段(拒绝微和谐鉴于划定规矩的正在线RL),和正在拉理过程当中怎样颠末天生绳尺战批驳去完毕可扩大举动。枢纽发明:SPCT颠末正在线RL劣化了绳尺战批驳的天生,进而进步了嘉奖品质战拉理时间扩大功用。


论文条记160_AI_DeepSeek+浑华_SPCT办法w3.jpg
Figure 4: 拉理时间扩大功用取锻炼时间扩大功用的比力

    发源:第6章"Scaling Inference and Training Costs"实质描绘:图4比力了DeepSeek-GRM-27B正在拉理时间扩大战锻炼时间扩大上的功用,展示了差别模子巨细的功用差别。枢纽发明:拉理时间扩大(如使用32个样原的投票)能够取锻炼时间扩大(如使用更年夜模子)相媲好,以至正在某些情况下表示更佳。


论文条记160_AI_DeepSeek+浑华_SPCT办法w4.jpg
Table 1: 开端尝试成果

    发源:第2章"Boosting Reward Quality with Principles"实质描绘:表1展示了差别办法正在Chat Hard战IFEval二个数据散上的功用比力,包罗使用自天生绳尺、过滤绳尺战没有使用绳尺的情况。枢纽发明:使用过滤绳尺的办法正在二个数据散上皆得到了最佳的功用,那表白适宜的绳尺能够更佳天辅导嘉奖天生。


论文条记160_AI_DeepSeek+浑华_SPCT办法w5.jpg
Table 2: 差别办法战模子正在RM基准尝试上的部分成果

    发源:第5章"Results on Reward Modeling Benchmarks"实质描绘:表2汇总了差别办法战模子正在多个RM基准尝试上的部分功用,包罗大众模子的陈述成果战基线办法的再现成果。枢纽发明:DeepSeek-GRM-27B正在部分功用上逾越了基线办法,而且取强大的大众RM模子表示相称,以至正在某些情况下更佳。


论文条记160_AI_DeepSeek+浑华_SPCT办法w6.jpg
Table 3: 拉理时间扩大成果

    发源:第5章"Results on Reward Modeling Benchmarks"实质描绘:表3展示了差别办法正在RM基准尝试上的拉理时间扩大功用,比力了差别采样数目下的功用提拔。枢纽发明:DeepSeek-GRM-27B正在拉理时间扩大圆里表示超卓,特别是正在使用元RM时,功用提拔清楚。


论文条记160_AI_DeepSeek+浑华_SPCT办法w7.jpg
Table 4: SPCT各组件的溶解钻研成果

    发源:第5章"Results on Reward Modeling Benchmarks"实质描绘:表4展示了SPCT办法中差别组件对于模子功用的作用,包罗拒绝采样、提醒采样战绳尺天生的结果。枢纽发明:SPCT的各个组件对于模子功用的提拔起到了主要感化,出格是绳尺天生对于贪婪解码战拉理时间扩大的功用皆有清楚作用。


7. 参照文件

1. 嘉奖修模(Reward Modeling)

    Training verifiers to solve math word problems:那篇论文会商了怎样锻炼考证器去处置数教笔墨成就,提出了使用考证器去进步模子正在数教拉理任务中的功用。Scaling laws for reward model overoptimization:钻研了嘉奖模子过劣化的扩大纪律,阐发了正在差别锻炼前提下嘉奖模子的功用变革。How to evaluate reward models for RLHF:会商了怎样评介用于人类反应加强进修(RLHF)的嘉奖模子,提出了评介嘉奖模子功用的基准战办法。
2. 加强进修(Reinforcement Learning)

    Training language models to follow instructions with human feedback:介绍了怎样颠末人类反应锻炼语言模子依照指令,展示了加强进修正在进步模子人类代价对于齐圆里的使用。Let's verify step by step:提出了一种逐步考证的办法,颠末合成庞大任务去进步模子正在拉理任务中的精确性。Self-supervised alignment with mutual information: Learning to follow principles without preference labels:会商了怎样使用互疑息截至自监视对于齐,使模子能够正在不偏偏佳标签的情况放学习依照绳尺。
3. 庞大语言模子(LLMs)

    DeepSeek-V2: A strong, economical, and efficient mixture-of-experts language model:介绍了DeepSeek-V2,一种强大、经济下效的大师混淆语言模子,展示了其正在各类任务中的功用。LLaMA: Open and efficient foundation models for multilingual and multimodal applications:描绘了LLaMA模子,夸大了其正在多语言战多模态使用中的盛开性战下效性。Ge妹妹a 2: Improving open language models at a practical size:会商了Ge妹妹a 2模子,旨正在正在理论巨细的语言模子中进步功用战服从。
4. 拉理时间扩大(Inference-Time Scaling)

    Large language monkeys: Scaling inference compute with repeated sampling:钻研了颠末重复采样扩大拉理计较的办法,展示了怎样使用屡次采样进步模子功用。Inference scaling laws: An empirical analysis of compute-optimal inference for LLM problem-solving:阐发了拉理扩大纪律,供给了对于怎样劣化庞大语言模子成就处置的计较资本的真证钻研。Self-rewarding language models:会商了自嘉奖语言模子的观点,展示了怎样颠末自尔嘉奖体制进步模子的拉理才气战功用。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )