职贝云数AI新零售门户

标题: 用GPT-OSS还是DeepSeek-R1的推理轨迹训练? [打印本页]

作者: 8bnCTDN    时间: 10 小时前
标题: 用GPT-OSS还是DeepSeek-R1的推理轨迹训练?
背景:推理模型与知识蒸馏

测试时扩展(Test-time Scaling)经过在推理阶段应用额外计算来提升模型准确率,催生了一类可以经过了解目的、制定计划、执行中间步骤并自我检查来处理复杂成绩的大言语模型。DeepSeek-R1和OpenAI的gpt-oss等前沿推理模型在处理复杂成绩时,都会先生成中间推理轨迹(reasoning traces)再给出最终答案。

这些模型正被越来越多地用于生成推理轨迹,作为高质量监督数据对中小型言语模型停止后训练,以教授推理才能,而无需昂贵的人工标注。但是,这些模型生成的合成推理轨迹在风格和冗长度上存在分明差异。这引出了核心研讨成绩:哪种推理风格更合适蒸馏到中小型模型?

实验设置

数据集构建:论文从Nemotron-Post-Training-Dataset-v1中采样了30万条数学对话,该数据集提供了不同难度的数学成绩及其正确答案,以及DeepSeek-R1-2508生成的残缺推理轨迹呼应。论文运用gpt-oss-120b为每个成绩生成呼应,保存残缺的推理轨迹。

数据过滤:论文过滤掉DeepSeek-R1-2508或gpt-oss-120b答案与正确答案不婚配的样本。运用Qwen3-30B-A3B-Thinking-2507作为判别模型停止自动过滤。最终数据集包含24.2万条样本(每条样本包含数学成绩、正确答案以及两个模型的残缺推理轨迹)。

推理轨迹长度差异:分析发现,DeepSeek-R1生成的token数量平均是gpt-oss-120b的4.4倍。DeepSeek-R1呼应长度平均约15,500 tokens;gpt-oss-120b呼应长度平均约3,500 tokens。

基座模型:论文运用两个12B参数模型停止实验:(1) NVIDIA-Nemotron-Nano-12B-v2-Base,NVIDIA从头预训练的高功能12B基座模型,在中期训练中注入了DeepSeek-R1的推理轨迹;(2) Mistral-Nemo-Base-2407,在推理模型出现之前发布的高功能12B模型,预训练数据集中不包含任何推理轨迹。

训练细节:每次训练运转3,000步,全局批大小64(约每步400万tokens,总计约115亿tokens)。学习率5e-6,预热比例0.03(从5e-7末尾)。运用AdamW优化器和余弦退火调度。一切样本运用first fit decreasing算法打包成60k tokens的训练样本。训练仅在补全部分计算损失。

基础设备:实验在NVIDIA DGX Cloud Lepton的H200 141GB GPU集群上运转,运用NVIDIA NeMo Framework停止训练。

实验结果

论文在三个盛行的数学基准上评价训练后的模型:GSM8k、AIME 2025和MATH-500。一切模型在相反条件下评价:temperature=0.6,top_p=0.95,tokens_to_generate=32768,number_of_repeats=8。

(, 下载次数: 0)

Nemotron-Nano-12B-V2-Base结果:

在GSM8k上,运用DeepSeek-R1风格训练达到95.1%,运用gpt-oss风格训练达到95.5%。

在AIME 2025上,运用DeepSeek-R1风格训练达到53.3%,运用gpt-oss风格训练达到56.3%。

在MATH-500上,运用DeepSeek-R1风格训练达到90.0%,运用gpt-oss风格训练达到89.6%。

Mistral-Nemo-Base-2407结果:

在GSM8k上,运用DeepSeek-R1风格训练达到93.6%,运用gpt-oss风格训练达到92.6%。

在AIME 2025上,运用DeepSeek-R1风格训练达到43.3%,运用gpt-oss风格训练达到36.7%。

在MATH-500上,运用DeepSeek-R1风格训练达到84.8%,运用gpt-oss风格训练达到83.0%。

推理效率:运用gpt-oss风格训练的模型在评价时平均生成的tokens数量减少了4倍。

核心发现

(1) 两种推理风格在下游准确率上表现相近:虽然DeepSeek-R1的推理轨迹冗长得多,但两种风格训练出的模型在数学基准上达到了相似的准确率。

(2) gpt-oss风格分明更高效:运用gpt-oss风格训练的模型在评价时生成的tokens减少约4倍。在实践运用中,这直接转化为生成呼应的延迟和成本降低约4倍。对于基于测试时扩展构建的运用,这种效率提升意义严重,可完成更快的用户体验和大幅降低的运营成本。

(3) 冗长的推理不一定带来更好的功能:论文的发现表明,在更多tokens上停止冗长推理并不必然转化为更好的功能,模型可以被训练采用更高效的推理形式。



论文的实验证明,两种推理风格在数学基准上达到相当的准确率,同时表现出不同程度的冗长度。生成tokens数量的减少直接影响消费系统中的部署成本和延迟。

论文指出,虽然数学是复杂多步推理的良好代理义务,但这些观察能够不适用于其他范畴(如编程、创意写作或通用指令遵照),在这些范畴冗长度能够扮演不同角色。将来工作将探求混合训练方法,在训练中混合两种推理风格,研讨模型能否能学会根据成绩难度运用最优的冗长度程度。

论文已在HuggingFace上开源了研讨数据集(dicta-il/MathCOT-oss-vs-DeepSeek),以支持进一步研讨。

论文标题: Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces

论文链接: https://arxiv.org/abs/2511.19333




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5