职贝云数AI新零售门户

标题: 华泰 | DeepSeek GRM带来新的推理Scaling途径 [打印本页]

作者: jro    时间: 4 天前
标题: 华泰 | DeepSeek GRM带来新的推理Scaling途径
点击小程序查看研报原文

核心观点

近日,DeepSeek团队的新论文《Inference-Time Scaling for Generalist Reward Modeling》发布,引入了一种自我准绳点评调优(SPCT)的方法,提出了通用奖励模型在推理阶段的新算法,验证了推理阶段的扩展策略在效率与功能上的双重优势。同时基于此方法推出DeepSeek GRM模型,27B的参数能跑出目前R1模型671B参数相当的功能。我们以为该方法带来了推理阶段新的Scaling方法,或暗示了DeepSeek R2的技术途径,模型迭代加速可期。

SPCT经过生成的方法获得奖励信号,拓展了推理Scaling途径

目前,强化学习已广泛运用于LLM的大规模后训练阶段,现有的模型曾经证明采用合适的学习方法,可以完成推理的可拓展性。但强化学习过程中的应战在于在人工规则之外的普通范畴难以获得LLMs的准确奖励信号,这决议了强化学习的效果。DeepSeek团队发如今奖励模型中采用生成的建模方法,可以提升模型的顺应才能与推理阶段的可拓展性,为此提出一种自我准绳点评调优的方法(SPCT),可以自顺应生成评判准绳并停止评价,从而提高强化学习的质量。我们以为新方法的提出进一步拓展了推理阶段的Scaling途径,为大模型算法的迭代提供了启示。

DeepSeek GRM以27B参数媲美621B参数R1的功能

SPCT方法分明提高了模型的生成质量和可扩展性,DeepSeek GRM-27B在多个综合奖励模型的基准测试中优于现有方法和模型,达到与DeepSeek R1(621B参数)、GPT-4o相当的效果。SPCT采用双循环结构,边推理边评价效果,停止修正;而R1单一线性的形式会使得错误在思想链中积累。同时,研讨者发现相比训练阶段扩展模型参数量,推理阶段运用SPCT方法的扩展策略在功能上更具优势。我们以为该研讨成果证明了在预训练阶段Scaling Law有所放缓的背景下,推理阶段的新探求有望进一步拓展模型的边界。

硬件耗费进一步紧缩,利好端侧部署

从实验结果来看,DeepSeek GRM模型进一步紧缩的硬件需求,采用128块A100-80G GPU训练,训练成本仅仅为R1的1/6;推理阶段无需长链式推理的反复计算,降低了算力与显存的需求(GRM模型全精度显存需求108GB,R1满血版模型显存需求1300GB以上),推理能耗为R1模型的17%左右,大大降低了模型本地化部署的成本。GRM模型有望在端侧设备上停止部署,精度优化后的模型显存需求实际上有望被消费级显卡所满足,模型的功能-成本边界进一步拓展,利好模型的端侧部署与端侧AI停顿。

R2模型发布在即,算法创新可期

从近期的大模型迭代趋向来看,随预训练阶段的Scaling Law的放缓,在经典Transformer架构基础上的算法优化成为各大厂所追求的方向,包括被广泛采用的混合专家架构(MoE)提高了训练与推理的效率,以腾讯混元Turbo-S为代表的Mamba架构在长文天分力上表现愈加出色,以GPT-o3为代表的模型工具调用方面的工程优化提高模型处理复杂成绩的才能。DeepSeek R2有望在近1-2月内发布,此次GRM模型的发布或是其算法创新的雏形,建议关注算法创新带来的模型迭代加速。

风险提示:AI技术迭代不及预期,AI商业化不及预期。

相关研报
研报:《DeepSeek GRM带来新的推理Scaling途径》2025年5月6日
谢春生 分析师 S0570519080006 | BQZ938
王浩天 联络人 S0570125010006

关注我们

华泰证券研讨所国内站(研讨Portal)
https://inst.htsc.com/research

访问权限:国内机构客户

华泰证券研讨所海外站
https://intl.inst.htsc.com/research
访问权限:美国及香港金控机构客户添加权限请联络您的华泰对口客户经理
免责声明

▲向上滑动阅览

本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研讨报告的发布平台,本公众号仅供华泰证券中国边疆研讨服务客户参考运用。其他任何读者在订阅本公众号前,请自行评价接收相关推送内容的适当性,且若运用本公众号所载内容,务必寻求专业投资顾问的指点及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。

本公众号转发、摘编华泰证券向其客户已发布研讨报告的部分内容及观点,残缺的投资意见分析应以报告发布当日的残缺研讨报告内容为准。订阅者仅运用本公众号内容,能够会因缺乏对残缺报告的了解或缺乏相关的解读而产生了解上的歧义。如需了解残缺内容,请详细参见华泰证券所发布的残缺报告。

本公众号内容基于华泰证券以为牢靠的信息编制,但华泰证券对该等信息的准确性、残缺性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判别。本公众号所载的意见、评价及预测仅反映发布当日的观点和判别。在不同时期,华泰证券能够会发出与本公众号所载意见、评价及预测不分歧的研讨报告。

在任何状况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依托本订阅号中的内容而取代本身独立的判别,应自主做出投资决策并自行承担投资风险。订阅者若运用本材料,有能够会因缺乏解读服务而对内容产生了解上的歧义,进而形成投资损失。对根据或者运用本公众号内容所形成的一切后果,华泰证券及作者均不承担任何法律责任。

本公众号版权仅为华泰证券一切,未经华泰证券书面答应,任何机构或个人不得以翻版、复制、发表、援用或再次分发别人等任何方式侵犯本公众号发布的一切内容的版权。如因侵权行为给华泰证券形成任何直接或间接的损失,华泰证券保留清查一切法律责任的权益。华泰证券具有中国证监会核准的“证券投资咨询”业务资历,运营答应证编号为:91320000704041011J。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5