开启左侧

业内初次! 片面复现DeepSeek-R1-Zero数学代码才能,训练步数仅需其1/10

[复制链接]
在线会员 IMeYQk 发表于 2025-4-23 12:19:48 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
机械之心公布
机械之心编纂部

OpenAI 的 o1 系列战 DeepSeek-R1 的胜利充实证实,年夜范围加强进修已经成为一种极其有用的办法,能够激起庞大语言模子(LLM) 的庞大拉理举动并清楚提拔其才气。

可是,那些拉理模子的中心锻炼办法正在其手艺陈述中仍然陈有表露。短期社区的主要事情也仅范围于数教拉理范围,使患上跨范围泛化那一挑战仍然已获得充实根究。别的,GRPO 锻炼过程当中存留多项罕见成就,如功用瓶颈、样原使用服从卑下,和正在处置混淆范围数据散时易以培养专科拉理妙技等,那些挑战使患上加强进修办法的有用扩大变患上越发庞大。

针对于那些挑战,去自快脚Kwaipilot团队的钻研者提出了一种立异的加强进修框架——二阶段汗青沉采样战略劣化(two-Staged history-Resampling Policy Optimization,SRPO),旨正在从多个维度体系性天处置上述锻炼困难。他们对于中公布了SRPO的手艺陈述,具体表露了该锻炼办法的手艺细节,共时也启源了SRPO-Qwen-32B 模子。


    论文题目:SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM

    论文链交:https://arxiv.org/abs/2504.14286

    模子启源地点:https://huggingface.co/Kwaipilot/SRPO-Qwen-32B


那是业界尾个共时正在数教战代码二个范围复现 DeepSeek-R1-Zero功用 的办法。颠末使用取 DeepSeek 差异的根底模子 (Qwen2.5-32B) 战地道的加强进修锻炼,SRPO 胜利正在 AIME24 战 LiveCodeBench 基准尝试中得到了优良成就(AIME24 = 50、LiveCodeBench = 41.6),逾越了 DeepSeek-R1-Zero-32B 的表示。

更值患上留神的是,SRPO 仅需 R1-Zero十分 之一的锻炼步数便到达了那一水平。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w2.jpg

SRPO AIME24 战 LiveCodeBench 表示,每一项为 pass@1 的 32 次均匀患上分

办法概览

本初 GRPO 完毕的挑战

正在最开端的根究中,快脚 Kwaipilot 团队使用过尺度的 GRPO 算法(公式 1)间接截至锻炼:

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w3.jpg

公式 1:GRPO 劣化目标

可是,正在锻炼过程当中,他们很快碰到了瓶颈,模子不断没法到达预期的 R1-Zero功用 水平。那些成就包罗:


    数教取代码跨范围的劣化抵触:数教成就很简单颠末锻炼引发较少且详尽的拉理轨迹(少 CoT),而代码数据这类偏向则强许多。间接混淆那二品种型的数据也会发生抵触,招致模子正在二个范围中皆表示短好。

    差异的组嘉奖招致锻炼服从降落:GRPO 算法依靠于采样组内乱非整的嘉奖圆好去计较劣势。当一个组的 rollout发生 险些差异的嘉奖值时,计较获得的劣势会靠近于整。当一个锻炼 batch 的年夜部门数据皆表示出这类征象时,有用的梯度奉献会变患上微小,年夜幅低落锻炼服从。

    过早的功用鼓战:GRPO 锻炼正在 benchmark 评测中较早碰到了功用瓶颈,嘉奖也碰到鼓战争台期。那个成就必然水平上源于数据散的品质不敷。当锻炼数据缺少充足的庞大性或者百般性,出格是简朴的成就太多,模子会偏向于守旧天保持其正在较简单任务中的功用,易以获得处置挑战性成就所需的庞大、深入的拉理才气。


阶段锻炼

为了处置数教战代码之间内涵的照应少度抵触成就,快脚 Kwaipilot 团队终极完毕了一种二阶段锻炼范式:


    Stage 1 (Eliciting Reasoning Abilities):初初锻炼阶段仅专一于具备挑战性的数教数据。此阶段的目标是充实鼓励模子的 test-time scaling,开展出深思性平息、追溯举动战逐步合成等多种才气。

    Stage 2 (Skill Integration):正在此阶段,将代码数据引进到锻炼过程当中。使用正在阶段 1 中成立的拉理根底,退一步提拔代码才气,共时逐步加强法式性思惟、递回战东西挪用才气。


锻炼战略的比力阐发

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w4.jpg

差别锻炼数据战略对于照应少度的作用

Mixed Training:正在数教战代码混淆数据上锻炼的混淆锻炼模子,正在照应少度的增加圆里表示出范围性,且基准尝试功用较好。固然数教成就会激发一点儿拉理情势,但是代码成就经常发生冗长、间接的照应,主要集合于立即代码输出,而很少截至开端阐发或者计划。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w5.jpg

Math-Only Training:仅使用数教数据截至锻炼能够颠簸天增加复兴少度,并正在数教基准尝试中表示超卓。主要的是,那培养了强大的、能够很佳天泛化的拉理才气;劈面对于编程任务时,模子会测验考试具体的、逐步的拉理。察看到的举动包罗正在数教成就处置过程当中详尽的步调查抄战从头审阅。那反应了数教数据激起拉理才气的特性。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w6.jpg

Code-Only Training:固然正在代码基准尝试中的表示有所进步,但是隐式拉理举动的开展甚微,而且完毕照应少度的清楚增加被证实是艰难的。取杂数教锻炼比拟,对于代码战数教成就的照应皆清楚较短,代码任务的处置计划一般为间接天生的,缺少素质性的逐步拉理或者开端阐发。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w7.jpg

Staged Training:快脚 Kwaipilot 团队提出的二阶段锻炼正在数教战编程范围均表示出优良的成果。该模子正在处置数教成就时不断如一天天生具体的逐步拉理情势,并正在处置编程任务时天生构造化的拉理情势。出格天,出现出一点儿庞大的举动,比方模子自觉天使用写代码去帮助数教拉理。对于那些照应情势的更具体阐发将正在后文中介绍。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w8.jpg

History Resampling

快脚 Kwaipilot 团队收现在锻炼的中前期阶段,batch 中远 50% 的采样组发生差异的嘉奖。这类情况凡是发作正在模子正在较简单的成就上连续胜利时,招致嘉奖的圆好微小,梯度革新结果欠安。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w9.jpg

正在锻炼期间 batch 内乱远 50% 的劣势函数值为整(蓝色线)

为了处置这类高效性并进步梯度旌旗灯号的品质,他们引进了汗青沉采样(History Resampling)。正在锻炼过程当中,他们记载每一个 epoch 内乱统统 rollout 嘉奖的成果。正在一个 epoch完毕 时,他们按以下方法重修下一个 epoch 的数据散:


    过滤过于简朴的样原:拂拭统统 rollout 皆获得准确谜底的样原,它们理论上不为战略改良供给所有疑息旌旗灯号。

    保存疑息样原:保存成果百般(既有准确又有没有准确)或者成果局部没有准确的样原。那些样原天生邪背嘉奖圆好,保证劣势非整及梯度旌旗灯号有用。别的,关于目前 epoch 中统统睁开皆没有准确的艰难样原,快脚 Kwaipilot 团队也将其保存正在数据集合。来由是,那些最初具备挑战性的一点儿成就,关于革新后的战略而行可以会变患上绝对简单,进而正在后绝的锻炼中发生有用梯度。这类战略的底子思惟取课程进修相不合,即逐步将模子表露于均匀而行更具挑战性的样原,以进步锻炼服从。


业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w10.jpg

Training statistics of History Resampling

取 DAPO 中提出的 Dynamic Sampling办法 比拟,History Resampling清楚 进步了计较服从,照应少度增加也越发颠簸。

数据

快脚 Kwaipilot 团队对于社区启源的 Code&Math 数据截至了数据洗濯战选择,颠末启迪式划定规矩对于本初数据截至过滤,清理题目文原中相关的 URL、格局噪声等,保证中心字段(成就战谜底实值)残破。参照 PRIME 对于数教数据的洗濯办法,剔除一题多问、杂证实题、需要图象或者表格理解的题目。针对于代码数据,剔除依靠一定情况、需要文献 IO 或者收集接互的题目,专一于算法逻辑。

正在数据进库前,对于数教战代码题目截至准确性校验,保证谜底的准确性战可解性,剔除谜底毛病或者存留歧义的题目;而后鉴别题目易度,分离颠末率(Pass@k)将题目细分为简朴、中等、艰难三个品级。

尝试成果

原节具体介绍使用 SRPO办法 的尝试成果。快脚 Kwaipilot 团队重心观察了锻炼过程当中嘉奖的变革情况和照应少度等目标。

锻炼历程

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w11.jpg

SRPO 的静态锻炼

上图展示了 SRPO 的锻炼残破嘉奖直线战照应少度直线。正在嘉奖增加开端趋于波动后,部分加入了第 2 阶段的锻炼。正在第 2 阶段开端时,因为模子以前已锻炼编码才气,整体嘉奖降落,后绝锻炼招致嘉奖稳步增加。正在调整编码数据后,照应少度并无清楚增加,那取他们的预期不合。共时,基准尝试成果表白,该模子的数教战编码才气皆有连续战颠簸的进步,证实了新办法的有用性。

具体来讲,History Resampling 保证了正在每一个锻炼步调中梯度革新不断有用,进而间接进步了疑息梯度的比率。这类提拔的采样服从戴去了颠簸的嘉奖增加,明了天展示了沉采样战略所完毕的锻炼服从提拔。

思惟举动

快脚 Kwaipilot 团队识别出了三种代表性的深思情势。那些情势包罗 recheck、hesitation、exploration。他们对于包罗这类情势的照应截至统计,并记载那多少种情势的均匀照应少度。正在 RL 锻炼过程当中,他们察看到模子的自尔深思、改正战追溯频次逐步增加。那表白模子展示了「自尔考证」才气。他们觉得模子正在RL中出现出类似人类认知历程的「深思」,是模子正在战略劣化过程当中的适应性举动。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w12.jpg

正在锻炼过程当中差别的 aha方式 呈现的频率变革

如上图所示,正在模子锻炼的晚期阶段,模子险些不主动查抄战深思先前拉理步调。可是,跟着锻炼的截至,模子表示出清楚的深思战追溯举动,组成如逐步拉理、数值交流、一一考证战自尔劣化等照应情势。

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w13.jpg

自尔校订的例子

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w14.jpg

数值交流(绿色)战一一考证(白色)

业内乱初度! 全面复现DeepSeek-R1-Zero数教代码才气,锻炼步数仅需其1/10w15.jpg

自尔劣化

共时,他们借发明了幽默的征象:模子正在处置数教成就时,教会了自觉使用法式代码截至考证。它起首颠末数教拉理给出解题历程,随即主动编辑法式代码考证计划的准确性。这种案例表示了模子会借帮法式性思惟截至自尔纠错战屡次测验考试。那一征象也退一步表白,正在锻炼前期,模子已经把握了普遍思考战分析使用多种代码思惟截至成就供解的才气。

论断取瞻望

原文介绍了 SRPO,那是尾个正在数教取代码范围胜利复现 DeepSeek-R1-Zero-Qwen-32B 的事情。快脚 Kwaipilot 团队提出了一种立异的二阶段锻炼范式,使用锻炼过程当中的汗青沉采样战略,共时设想了博为数教取代码分离加强进修(RL)锻炼定造的数据收拾整顿过程(pipeline)。那些办法为社区建立更强大的拉理模子供给了主要参照。未来,团队将持续根究更年夜范围的数据取模子、越发下效的加强进修算法,和其正在更普遍拉理场景中的使用后劲。

© THE END

转载请联系原公家号得到受权

投稿或者追求报导:liyazhou@jiqizhixin.com
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )