开启左侧

AI大模型_DeepSeek-R1_#1

[复制链接]
在线会员 5UzkOc 发表于 2025-2-10 00:46:58 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
备注:按照DeepSeek-R1民间英文论文翻译并简化收拾整顿

择要

模子介绍:

第一代拉理模子DeepSeek-R1-Zero战DeepSeek-R1

锻炼历程:

DeepSeek-R1-Zero是正在年夜范围加强进修(RL)锻炼下天生的模子,不截至监视微调(SFT)

拉理才气:

颠末RL锻炼,DeepSeek-R1-Zero天然天表示出很多强大的且众目睽睽的拉理举动

模子缺点:

DeepSeek-R1-Zero面对着诸如可读性好战语言混淆等成就

缺点改良:

为了抑制缺点成就,正在加强进修以前接纳了多阶段锻炼战热启用数据散,拉出了DeepSeek-R1

模子比力:

DeepSeek-R1正在拉理任务上的表示取OpenAI-o1-1217相称

模子启源:

DeepSeek-R1-Zero、DeepSeek-R1和从DeepSeek-R1鉴于Qwen战Llama蒸馏出的六种浓密模子(Qwen-1.5B、7B、14B、32B,Llama-8B、70B)

1.弁言

通用智能:

比年去,LLM狂言语模子快速迭代、退步,削减了背通用野生智能AGI的差异

拉理模子:

OpenAI的o1初度引进增加链式思惟历程少度的办法,正在数教、编程、科学拉理圆里得到清楚改良

此前的各种钻研事情,并无一种办法能够到达取OpenAI的o1系列模子相称的通用拉理功用

DeepSeek-R1-Zero:

那篇DeepSeek的论文中,初度测验考试颠末地道的RL加强进修进步LLM的拉理才气,根究目标为不监视数据下的自尔演变后劲

以DeepSeeK-V3-Base为根底模子,颠末数千次的RL步调后,拉理尝试才气表示出色,取OpenAI-o1-0912的表示相称

DeepSeek-R1:

DeepSeek-R1-Zero呈现了一点儿可读性战语言稠浊等成就

由此引进了DeepSeek-R1,分离了小部门热启用数据战多阶段锻炼

起首汇集数千条热启用数据微调DeepSeel-V3-Base

随即截至类似R1-Zero以拉理为导背的加强进修(RL)

获得的DeepSeek-R1,其功用取OpenAI-o1-1217相称

蒸馏模子:

使用Qwen2.5-32B为根底模子

间接从DeepSeek-R1截至常识蒸馏的表示劣于正在该根底上使用加强进修

那表白庞大根底模子发明的拉理情势关于进步拉理才气相当主要

咱们启源了蒸馏后的Qwen战Llama系列模子。

1.1奉献

加强进修:

没有依靠于监视微调,间接用加强进修使用于根底模子

那是初度公然的钻研,证实了仅加强进修能够进步年夜模子的拉理才气

那是一年夜突破,DeepSeek-R1包罗了二个RL阶段战二个SFT阶段

蒸馏,小模子能够强大:

展示了将庞大模子的拉理情势提取到小型模子中的办法

这类办法比颠末加强进修正在小模子中发明的拉理情势表示出更佳的功用

使用由DeepSeek-R1天生的拉理数据,咱们对于一点儿科研界普遍使用的麋集型模子截至了微调

评介成果显现,从庞大模子蒸馏而去的较小模子正在基准尝试中表示优良

1.2评介归纳

拉理任务:

数教上有略下于战取OpenAI-o1-1217相称的情况,近超其余模子

编程才气正在尝试中超越了96.3%的人类参赛者

工程相干任务中,DeppSeek-R1略劣于DeepSeek-V3

常识范围:

某些尝试中略高于OpenAI-o1-1217

正在那一基准尝试中OpenAI-o1异常争先于4o

超越了别的关源模子

优良的处置鉴于幻想盘问的才气

其余才气:

DeepSeek-R1 正在创意写做、通用问问、编纂、归纳等各类任务上表示超卓

备注:别的部门后绝革新

AI Research & Do.
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )