职贝云数AI新零售门户

标题: DeepSeek新论文:让AI评判变得更智能、更通用,效率提升不靠堆硬件! [打印本页]

作者: ZqUIC 时间: 2025-4-5 06:53
标题: DeepSeek新论文:让AI评判变得更智能、更通用,效率提升不靠堆硬件!
你有没有想过，当AI评价其他AI的回答时，需求什么样的才能？DeepSeek最新研讨告诉我们，不必再一味堆模型参数，一种全新的推理时扩展技术正在改变游戏规则。

1、AI如何做出"高质量"的评判？新思绪解锁推理时扩展

当我们议论大言语模型（LLM）训练时，强化学习（RL）已成为必不可少的环节。而在强化学习过程中，奖励建模（Reward Modeling，简称RM）是核心组件，它决议了AI模型如何评判呼应的好坏。

成绩是，现有的奖励模型往往存在局限性：要么只擅长特定范畴（如数学或编程），要么无法随着计算资源添加而提升效果，还有的仅适用于特定输入格式...这些都限制了AI模型的提高。

DeepSeek团队最新发表的研讨《Inference-Time Scaling for Generalist Reward Modeling》提出了处理方案 - 自准绳评论调优（Self-Principled Critique Tuning，简称SPCT），这是一种专为通用奖励模型设计的推理时扩展技术。

最令人惊喜的是，研讨表明，采用SPCT后的27B参数模型在扩展推理计算后，能达到甚至超过671B参数模型的功能！这意味着我们能够不再需求自觉添加模型参数量，而是经过更聪明的方法完成功能提升。

(, 下载次数: 0)

2、三大核心创新：准绳先行的评判机制

(, 下载次数: 0)

DeepSeek的研讨团队从本质上重新思索了AI如何停止评判。他们的方法有三个关键创新点：

（1）点式生成式奖励建模（Pointwise GRM）

传统奖励模型通常采用标量评分或成对比较，但DeepSeek采用点式生成式奖励模型。这意味着模型可以：

1）灵敏接受不同数量的回答作为输入（单个、成对或多个）

2）经过纯言语表示一致评分方式

3）为同一回答生成多样化的奖励信号

这种设计为后续的推理时扩展奠定了基础。

（2）自准绳评论调优（SPCT）

SPCT是这项研讨的核心创新，它包含两个阶段：

第一阶段：回绝式微调（冷启动）

1）让模型顺应生成正确格式的准绳和评论

2）对各种输入类型采用一致的处理方式

3）回绝与标准答案不分歧的轨迹

第二阶段：基于规则的在线强化学习

1）训练模型自顺应地提出评判准绳

2）让模型学会基于准绳停止准确评论

3）引导模型生成高质量的奖励信号

最关键的打破是将"准绳"从了解步骤转变为生成步骤，并将其视为奖励生成的一部分。这一简单而深入的转变使模型可以根据详细查询和回答自顺应地提出评判准绳，而不是依赖预设标准。

（3）元奖励模型引导的投票机制

为了进一步提升推理时扩展效果，研讨团队开发了：

1）并行采样：生成多组准绳和评论，扩展计算运用

2）元奖励模型：辨认生成的准绳和评论的质量

3）引导投票：根据元奖励挑选高质量样本，提高扩展功能

这种方法使得模型可以随着推理计算添加而提高功能，完成真正的推理时扩展才能。

3、惊人的实验结果：小模型也能有大表现

DeepSeek团队在多个奖励建模基准上停止了片面评价，结果令人振奋：

1）DeepSeek-GRM-27B在全体表现上优于基线方法，与弱小的公共奖励模型（如Nemotron-4-340B-Reward和GPT-4o）相比具有竞争力

2）经过推理时扩展，DeepSeek-GRM-27B进一步提升并获得最佳全体结果

3）与其他方法相比，SPCT分明改善了生成式奖励模型的通用奖励生成才能，且偏向分明减少

4）在扩展性方面，DeepSeek-GRM-27B展现出随着推理计算添加而分明提升功能的潜力

最令人诧异的是，27B参数模型经过推理时扩展能达到甚至超过671B参数模型的功能！这一发现颠覆了传统观念，证明经过设计更好的学习方法和推理策略，可以在不添加模型规模的状况下分明提升功能。

DeepSeek的这项研讨不只提供了一种提升奖励模型功能的新方法，更开启了通用奖励系统研讨的新篇章。

将来的发展方向能够包括：

1）将生成式奖励模型集成到在线强化学习流程中，作为奖励系统的多功能接口

2）探求与策略模型的推理时协同扩展

3）作为基础模型的稳健离线评价器

虽然当后方法在效率和特定义务上仍面临应战，但研讨团队置信，随着SPCT的进一步发展，具有加强扩展性和效率的生成式奖励模型将推进大言语模型后训练和推理的前沿发展。

DeepSeek团队的这项研讨给我们带来了几点重要启示：

1）不只是靠堆硬件：AI功能提升不应只依赖于添加参数量和算力，优化算法和推理策略异样重要

2）"准绳"思想的价值：让AI学会自我生成评判准绳，比固定评判标准更灵敏有效

3）推理时扩展的宏大潜力：相比训练时扩展（添加模型规模），推理时扩展能够是一条更经济高效的途径

对于AI研讨者和开发者来说，这意味着我们可以经过更聪明的方法，而不只仅是更大的投入，来完成AI才能的打破。

这也许正是将来AI发展的一个重要方向：不是简单地做更大的模型，而是做更聪明的模型。

你对这种新型奖励建模技术有什么看法？它会如何影响将来的AI发展？欢迎在评论区分享你的想法！

论文标题：Inference-Time Scaling for Generalist Reward Modeling

论文链接：https://arxiv.org/abs/2504.02495

引荐阅读

TAU-Bench、Thinking Intervention、LLM高效推理的综述、Open-Qwen2VL

Z1模型：当AI高效思索的机密被揭开，推理速度提升70%！

深度思索的代价综述：大型推理模型如何完成高效推理？

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)