职贝云数AI新零售门户
标题:
AI大模型_DeepSeek-R1_#End
[打印本页]
作者:
ZqUIC
时间:
2025-2-13 01:59
标题:
AI大模型_DeepSeek-R1_#End
备注:仅据DeepSeek-R1官方论文简译整理
原文:https://arxiv.org/abs/2501.12948
4.讨论
4.1 蒸馏和强化学习
思索的成绩:
经过蒸馏DeepSeek-R1,小型模型可以获得令人印象深入的结果
小型模型能否可以经过大规模强化学习训练而无需蒸馏就能达到相似的功能
成绩的解答:
在Qwen-32B-Base上停止大规模的强化学习训练,训练超过10K步,从而得到了DeepSeek-R1-Zero-Qwen-32B
实验表明经过大规模RL训练后的32B基础模型在功能上与QwQ-32B-Preview相当
但是,从DeepSeek-R1蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在一切基准测试中都表现出分明优于DeepSeek-R1-Zero-Qwen-32B的功能
两个结论:
首先,将更弱小的模型蒸馏到较小的模型中可以获得很好的结果
较小的模型依赖于大规模强化学习则需求宏大的计算才能,并且能够无法达到蒸馏的效果
其次,虽然蒸馏策略既经济又有效,但要超越智能边界依然能够需求更弱小的基础模型和更大规模的强化学习
4.2 未获得成功的尝试
在开发DeepSeek-R1的早期阶段,也遇到了失败和波折
失败阅历以提供一些见解,但这并不意味着这些方法无法开发出有效的推理模型
过程奖励模型(PRM):
一种合理的方法来引导模型采用更好的方法处理推理义务
实际中,PRM存在三个次要限制,能够会影响其最终的成功
首先,明白定义普通推理中的细粒度步骤具有应战性
其次,确定当前的中间步骤能否正确是一项艰巨的义务
第三,一旦引入基于模型的PRM(Process Reward Model),就不可避免地会导致奖励破解
虽然PRM在对模型生成的前N个呼应停止重排序或辅助引导搜索方面表现出良好的才能
但与大规模强化学习过程中引入的额外计算开支相比,其优势是有限的
蒙特卡洛树搜索(MCTS):
受AlphaGo(Silver等人,2017b)和AlphaZero(Silver等人,2017a)的启示,探求了运用蒙特卡洛树搜索(MCTS)来加强测试时计算可扩展性的方法
这种方法触及将答案分解成更小的部分,以允许模型系统地探求解空间
但是,这种方法在扩展训练规模时会遇到几个应战
首先,与棋类游戏不同,在棋类游戏中搜索空间相对明白界定,而Tokens生成则具有指数级更大的搜索空间
其次,价值模型直接决议了生成的质量,由于它指点了搜索过程中的每一步
训练一个细粒度的价值模型本身就很困难,这使得模型难以迭代改进
虽然AlphaGo的核心成功在于经过训练价值模型逐渐提升其功能,但在Token生成的复杂性下,很难复制
蒙特卡洛树搜索(MCTS)可以与预训练的价值模型结合,在推理阶段提高功能,但经过自我搜索迭代提升模型功能依然是一个严重应战
5.结论、将来的工作
结论:
DeepSeek-R1-Zero代表了一种纯粹的RL方法,不依赖于冷启动数据,在各种义务中表现出色
相比之下,DeepSeek-R1愈加弱小,它应用冷启动数据并结合迭代RL微调
最终,DeepSeek-R1在一系列义务上的表现与OpenAI-o1-1217相当
运用DeepSeek-R1作为教师模型生成80万个训练样本,并对几个小型密集模型停止微调,分明优于基于相反底层检查点的指令调整模型
将来的工作:
通用才能:
目前,DeepSeek-R1 在函数调用、多轮对话、角色扮演以及JSON 输入等义务中的表现不如 DeepSeek-V3
将来将探求如何经过延伸 CoT(思索链)来提升这些范畴的义务功能
言语混合:
当前 DeepSeek-R1 最优化支持中文和英文,在处理其他言语的查询时能够会出现言语混用成绩
在将来的更新中处理这一限制
提示词工程:
在评价 DeepSeek-R1 的过程中发现,它对提示非常敏感,大批样本的提示会降低其功能表现
建议用户直接描画成绩,并在零样本设置下指定输入格式以获得最佳效果
软件工程:
评价工夫较长影响了 RL(强化学习)过程的效率,大规模的 RL 在软件工程义务中尚未广泛运用
DeepSeek-R1 在软件工程基准测试中的表现并未分明超越DeepSeek-V3
将来版本将经过在软件工程数据上实施回绝采样或在 RL 过程中采用异步评价来提高效率从而处理这一成绩
———————————————————
结语备注:
1. 仅据原文简理,无其它观点
2. 另671b参数量的DeepSeep-R1(满血版,1.3T;Q4量化版,404G),运转资源要求很高,别听忽悠
3. 国内外多家第三方平台已上线DS,官网慢可换用
AI Research & Do
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5