职贝云数AI新零售门户
标题:
刚刚,DeepSeek发布推理时Scaling新论文!R2要来了?
[打印本页]
作者:
QfICegVe
时间:
2025-4-5 06:43
标题:
刚刚,DeepSeek发布推理时Scaling新论文!R2要来了?
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一工夫送达
点击进入—>【顶会/顶刊】投稿交流群
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到知晓材料,及最前沿运用!发论文/搞科研/涨薪,激烈引荐!
来源:机器之心
一种全新的学习方法!
这会是 DeepSeek R2 的雏形吗?本周五,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。
当前,强化学习(RL)已广泛运用于大言语模型(LLM)的后期训练。最近 RL 对 LLM 推理才能的激励表明,适当的学习方法可以完成有效的推理工夫可扩展性。RL 的一个关键应战是在可验证成绩或人工规则之外的各个范畴获得 LLM 的准确奖励信号。
本周五提交的一项工作中,来自 DeepSeek、清华大学的研讨人员探求了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以一致纯言语表示中单个、成对和多个呼应的评分,从而克制了应战。研讨者探求了某些准绳可以指点 GRM 在适当标准内生成奖励,从而提高奖励的质量,这启示我们,RM 的推理工夫可扩展性可以经过扩展高质量准绳和准确批判的生成来完成。
(, 下载次数: 0)
上传
点击文件名下载附件
论文标题:Inference-Time Scaling for Generalist Reward Modeling
论文链接:https://arxiv.org/abs/2504.02495
基于这一初步成果,作者提出了一种新学习方法,即自我准绳批判调整(SPCT),以促进 GRM 中有效的推理工夫可扩展行为。经过应用基于规则的在线 RL,SPCT 使 GRM 可以学习根据输入查询和呼应自顺应地提出准绳和批判,从而在普通范畴获得更好的结果奖励。
基于此技术,DeepSeek 提出了 DeepSeek-GRM-27B,它基于 Gemma-2-27B 用 SPCT 停止后训练。对于推理工夫扩展,它经过多次采样来扩展计算运用量。经过并行采样,DeepSeek-GRM 可以生成不同的准绳集和相应的批判,然后投票选出最终的奖励。经过更大规模的采样,DeepSeek-GRM 可以更准确地判别具有更高多样性的准绳,并以更细的粒度输入奖励,从而处理应战。
除了投票以获得更好的扩展功能外,DeepSeek 还训练了一个元 RM。从实验结果上看,SPCT 分明提高了 GRM 的质量和可扩展性,在多个综合 RM 基准测试中优于现有方法和模型,且没有严重的范畴偏向。作者还将 DeepSeek-GRM-27B 的推理工夫扩展功能与多达 671B 个参数的较大模型停止了比较,发现它在模型大小上可以获得比训练工夫扩展更好的功能。虽然当后方法在效率和特定义务方面面临应战,但仰仗 SPCT 之外的努力,DeepSeek 置信,具有加强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口,推进 LLM 后训练和推理的前沿发展。
这项研讨的次要贡献有以下三点:
研讨者们提出了一种新方法:Self-Principled Critique Tuning(SPCT),用于提升通用奖励模型在推理阶段的可扩展性,并由此训练出 DeepSeek-GRM 系列模型。同时,他们进一步引入了一种元奖励模型(meta RM),使 DeepSeek-GRM 的推理效果在超越传统投票机制的基础上得到进一步提升。
实验证明,SPCT 在生成质量和推理阶段的可扩展性方面,分明优于现有方法,并超过了多个弱小的开源模型。
SPCT 的训练方案还被运用到更大规模的言语模型上。研讨者们发现推理阶段的扩展性收益甚至超过了经过添加模型规模所带来的训练效果提升。
(, 下载次数: 0)
上传
点击文件名下载附件
技术细节
我们一同来看看这篇论文所讨论的技术细节。
Self-Principled Critique Tuning (SPCT)
遭到初步实验结果的启示,研讨者提出了一种用于逐点通用奖励模型的新方法,可以学习生成具有顺应性和高质量的准绳,以有效引导批判内容的生成,该方法被称为自我准绳批判调整(SPCT)。
如图 3 所示,SPCT 包含两个阶段:
1. 回绝式微调(rejective fine-tuning),作为冷启动阶段;
2. 基于规则的在线强化学习(rule-based online RL),经过不断优化生成的准绳和评论,进一步加强泛化型奖励生成才能。
此外,SPCT 还能促使奖励模型在推理阶段展现出良好的扩展才能。
(, 下载次数: 0)
上传
点击文件名下载附件
研讨者们观察到,高质量的准绳可以在特定评判标准下有效引导奖励的生成,是提升奖励模型表现的关键要素。但是,对于通用型奖励模型而言,如何自动生成顺应性强、指点性强的准绳仍是一个核心难题。
为此,他们提出将准绳的作用由传统的了解阶段的辅助性输入,转变为奖励生成过程中的核心组成部分。详细而言,这项研讨不再将准绳仅作为模型生成前的提示信息,而是使模型可以在生成过程中自动生成并运用准绳,从而完成更强的奖励泛化才能与推理阶段的可扩展性。
在该研讨的设定中,GRM 可以自主生成准绳,并在此基础上生成对应的批判内容,其过程可方式化表示为:
(, 下载次数: 0)
上传
点击文件名下载附件
其中,p_θ 表示由参数 θ 所定义的准绳生成函数,该函数与奖励生成函数 r_θ 共享同一模型架构。这样的设计使得准绳可以根据输入的 query 和呼应自顺应生成,从而动态引导奖励的生成过程。此外,准绳及其对应批判的质量与细粒度可以经过对 GRM 停止后训练进一步提升。
当模型具有大规模生成准绳的才能后,GRM 便可以在更合理的准绳框架下输入更细致的奖励评价,这对于推理阶段的可扩展性具有关键意义。
基于规则的强化学习
为同步优化 GRM 中的准绳生成与批判生成,DeepSeek 提出 SPCT 框架,整合了回绝式微调与基于规则的强化学习。回绝式微调作为冷启动阶段。
回绝式微调(冷启动阶段) 的核心目的是使 GRM 可以生成格式正确且适配多种输入类型的准绳与批判。
不同于 Vu 等人(2024)、Cao 等人(2024)和 Alexandru 等人(2025)将单呼应、配对呼应和多呼应格式的 RM 数据混合运用的方案,DeepSeek 采用第 2.1 节提出的逐点 GRM,能以一致格式为恣意数量呼应生成奖励。
数据构建方面,除通用指令数据外,DeepSeek 还经过预训练 GRM 对 RM 数据中不同呼应数量的查询 - 呼应对停止轨迹采样,每个查询 - 呼应对采样
(, 下载次数: 0)
上传
点击文件名下载附件
次。回绝策略也采用一致标准:回绝预测奖励与真实值不符(错误)的轨迹,以及一切
次轨迹均正确(过于简单)的查询 - 呼应对。方式化定义为:令
(, 下载次数: 0)
上传
点击文件名下载附件
表示查询 x 第 i 个呼应
(, 下载次数: 0)
上传
点击文件名下载附件
的真实奖励,当预测逐点奖励
(, 下载次数: 0)
上传
点击文件名下载附件
满足以下条件时视为正确:
(, 下载次数: 0)
上传
点击文件名下载附件
这里需确保真实奖励仅包含一个最大值。但是,与 Zhang 等人(2025a)的研讨相似,DeepSeek 发现预训练 GRM 在有限采样次数内难以对部分查询及其呼应生成正确奖励。
因此,他们选择性地在 GRM 提示中追加
(, 下载次数: 0)
上传
点击文件名下载附件
(称为暗示采样),希冀预测奖励能与真实值对齐,同时保留非暗示采样方式。对于暗示采样,每个查询及其呼应仅采样一次,仅当预测错误时才回绝轨迹。相较于 Li 等人(2024a)和 Mahan 等人(2024)的研讨,我们观察到暗示采样轨迹有时会简化生成的批判(尤其在推理义务中),这表明 GRM 在线强化学习的必要性和潜在优势。
经过基于规则的在线 RL,研讨者对 GRM 停止了进一步的微调。与 DeepSeek R1 不同的是,没有运用格式奖励。相反,为了确保格式和避免严重偏向,KL 惩罚采用了较大的系数。从方式上看,对给定查询 x 和呼应
(, 下载次数: 0)
上传
点击文件名下载附件
的第 i 次输入 o_i 的奖励为:
(, 下载次数: 0)
上传
点击文件名下载附件
逐点奖励是
(, 下载次数: 0)
上传
点击文件名下载附件
从 o_i 中提取的。
奖励函数鼓励 GRM 经过在线优化准绳和批判来区分最佳呼应,从而完成有效的推理工夫扩展。奖励信号可以从任何偏好数据集和标注的 LLM 呼应中无缝获取。
SPCT 的推理时扩展
为了进一步提高 DeepSeek-GRM 在运用更多推理计算生成通用奖励方面的功能,研讨者探求了基于采样的策略,以完成有效的推理时可扩展性。
应用生成奖励停止投票。回顾第 2.1 节中的方法,逐点 GRM 的投票过程定义为奖励总和:
(, 下载次数: 0)
上传
点击文件名下载附件
其中,
(, 下载次数: 0)
上传
点击文件名下载附件
是第 i 个呼应(i = 1, ..., n)的最终奖励。由于 S_i,j 通常设置在一个较小的团圆范围内,例如 {1,...,10},因此投票过程实践上将奖励空间扩展了 k 倍,并使 GRM 可以生成大量准绳,从而有利于提高最终奖励的质量和粒度。
一个直观的解释是,假如每个准绳都可以被视为判别视角的代表,那么更多的准绳能够会更准确地反映真实的分布状况,从而提高效率。值得留意的是,为了避免地位偏向和多样性,在采样之前会对回答停止洗牌。
元奖励模型指点投票。DeepSeek-GRM 的投票过程需求多次采样,由于随机性或模型的局限性,多数生成的准绳和评论能够存在偏向或质量不高。因此,研讨者训练了一个元 RM 来指点投票过程。
引导投票非常简单: 元 RM 对 k 个采样奖励输入元奖励,最终结果由 k_meta ≤ k 个元奖励的奖励投票决议,从而过滤掉低质量样本。
奖励模型 Benchmark 上的结果
不同方法和模型在奖励模型基准测试上的全体结果如表 2 所示。
(, 下载次数: 0)
上传
点击文件名下载附件
不同方法在推理阶段的扩展功能结果如表 3 所示,全体趋向可见图 1。
(, 下载次数: 0)
上传
点击文件名下载附件
表 4 展现了 SPCT 各个组成部分所做的消融实验结果。
研讨者们还进一步研讨了 DeepSeek-GRM-27B 在推理阶段和训练阶段的扩展功能,经过在不同规模的 LLM 上停止后训练停止评价。一切模型均在 Reward Bench 上停止测试,结果如图 4 所示。
(, 下载次数: 0)
上传
点击文件名下载附件
更多研讨细节,可参考原论文。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的一切566页课件PPT!赶紧学起来!
CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可央求加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目的检测、图像分割、目的跟踪、人脸检测&辨认、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&紧缩、去噪、去雾、去雨、风格迁移、遥感图像、行为辨认、视频了解、图像交融、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研讨方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被经过且约请进群
(, 下载次数: 0)
上传
点击文件名下载附件
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到知晓学习教程等材料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
(, 下载次数: 0)
上传
点击文件名下载附件
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5