开启左侧

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

[复制链接]
在线会员 eQrFHY 发表于 2025-2-24 13:31:39 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
选自Deep (Learning) Focus
作家:Cameron R. Wolfe编译:Panda
自 OpenAI 公布 o1-mini 模子此后,拉理模子便不竭是 AI 社区的热门话题,而秋节前面世的盛开式拉理模子 DeepSeek-R1 更是让拉理模子的冷度到达了亘古未有的顶峰。
克日,Netflix 资深钻研科学野 Cameron R. Wolfe 公布了一篇题为「掀秘拉理模子」的深度少文,具体梳理了自 o1-mini 开端于今的拉理模子开展史,并具体介绍了让尺度 LLM 酿成拉理模子的具体手艺战办法。
机械之心编译了那篇文章以飨读者,共时咱们借正在文终梳理了 17 篇咱们以前公布的取拉理模子相干的文章一并送上。

本文地点:https://cameronrwolfe.substack.com/p/demystifying-reasoning-models
前些年,庞大语言模子(LLM)已经组成了绝对牢固的过程。
起首,正在去自互联网的本初文原数据上预锻炼语言模子。以后,对于齐那些模子,也即是让它们的输出更契合人类的偏偏佳,那会用到监视微调(SFT)战鉴于人类反应的加强进修(RLHF)等手艺。
不论是预锻炼仍是对于齐,皆对于模子品质相当主要,但是启动那一范式开展的年夜部门能源却去自 Scaling Law—— 使用更大都据锻炼更年夜的模子,就可以获得更佳的成果。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w2.jpg
尺度 LLM 的锻炼过程
远段时间,LLM 钻研中呈现了一个崭新的范式:拉理。取尺度 LLM 比拟,拉理模子处置成就的方法完整差别。出格是,它们正在供给成就的终极谜底以前会破费一点儿时间「思考」。锻炼能够有用思考(比方,合成成就、检测思惟中的毛病、根究替换处置计划等)的模子需要新的战略,凡是涉及年夜范围加强进修(RL)。别的,此类模子借会为颠末加强进修战拉理截至锻炼的范式出现出新的 Scaling Law。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w3.jpg
去自 [4]
原文将介绍相关拉理模子的最新平息的更多疑息。起首,咱们将重心介绍 OpenAI 最先提出的多少种(封锁式)拉理模子。咱们将正在高低文中注释 LLM 拉理才气的根本思惟。以后,咱们将根究近来提出的(盛开式)拉理模子,概括重新开端创立此类模子的须要细节。拉理模子取尺度 LLM 差别。但是不消担忧。LLM 的很多枢纽观点仍然合用于拉理模子。咱们将正在全部过程当中廓清它们之间的主要区分。
拉理时期
便正在 AI开展 瞅起去要搁慢之际,拉理模子开端提高,LLM 的才气开端蓦地提拔。OpenAI 起首公布了 o1-preview [4],随即是一系列蒸馏版(更小)模子,包罗 o1-mini 和 o3 的一点儿变体版原。别的公司也纷繁跟退,包罗google的 Gemini 2.0 Flash Thinking。那一节将会商那些最先的封锁式拉理模子及其事情道理面前 的根本思惟。
最先的拉理模子:o1 战 o1-mini
OpenAI 公布 o1-preview [4, 5] 时大白了二件事:
    拉理模子能够十分精确天处置可考证的任务,好比数教战编程任务。拉理模子处置那些成就的办法取保守 LLM 的办法判然不同。

少思惟链。拉理模子取尺度 LLM 的主要区分正在于正在答复成就以前会截至「思考」。拉理模子的思考即是 LLM输出 的少思惟链(偶然也被称为拉理迹线或者轨迹)。少思惟链的天生方法取所有其余文原序列无同。可是,那些拉理轨迹表示出了十分幽默的特征 —— 它们更类似于搜刮算法而没有是本初文原天生。举个例子,拉理模子可以会:
    仔细思考庞大成就的每一个部门。将庞大成就合成为更小的可处置部门。批驳其自己的(部门)处置计划并发明毛病。根究很多替换处置计划。

相关那些拉理轨迹的一点儿具体示例,请参阅 OpenAI 专客:https://openai.com/index/learning-to-reason-with-llms/
值患上留神的是,OpenAI 拉理模子使用的少思惟链躲藏正在其内部,那表示着正在取模子接互时,用户瞅没有睹它们。用户只可瞅到模子编辑的少思惟链择要,以下所示:

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w4.jpg

拉理模子的少思惟链输出为咱们供给了一种掌握 LLM 拉理时间计较的简朴办法。假设咱们念破费更多计较去处置成就,咱们能够简朴天天生更少的思惟链。异常,没有太庞大的成就能够用较短的思惟链处置,进而节流拉理时间的计较。
拉理才气。最初的拉理模子理论上正在很多圆里皆没有如尺度 LLM,但是它们将 LLM 的拉理才气进步了多少个数目级。比方,o1-preview 的拉理表示老是劣于 GPT-4o,以至正在年夜大都庞大拉理任务上能取人类大师的表示相媲好。为了完毕那些成果,o1-preview 使用最年夜化的拉理时间计较和 i) 单个输出样原(柱状图骨干)或者 ii) 64 个并止输出样原中的大都投票(柱状图删下部门)截至评介。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w5.jpg
o1 系列模子取 GPT-4o 正在多个拉理任务上的比力,去自 [5]
o1-preview 以后,OpenAI 的 o1(preview 公布多少个月后公布的 o1 的残破版原)正在好国数教奥林匹克资格测验(AIME 2024)中名列前 500 名,正在 Codeforces 上排名正在比赛人类法式员的第 11 个百分位以内。动作参照,GPT-4o 仅处置了 12% 的 AIME成果 ,而 o1处置 了 74% 到 93% 的成就,具体与决于拉理树立。相关 o1 战 GPT-4o功用 的更具体比力,请拜见下图。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w6.jpg
o1清楚 劣于 GPT-4o(去自 [5])
异常,o1-mini(o1 的更自制、更快的版原)也具备使人影像深化的拉理才气,不外比拟于残破版 o1 模子,其本钱低落了 80%。固然取 o1 比拟,o1-mini 的天下常识无限,但是它正在编程任务圆里特别超卓,并且思考到其服从,其表示十分超卓。
目前最好的拉理模子:o3 战 o3-mini

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w7.jpg
OpenAI o3 正在 ARC-AGI 上的功用
正在颁布发表战公布 o1 模子后没有暂,OpenAI 颁布发表了 o3——o1 系列中最新的模子。那个模子最初不过颁布发表(已公布)。咱们能够正在多少个值患上留神的基准上瞅到该模子的功用(由 OpenAI 丈量),但是理论上没法使用该模子。OpenAI 公布的目标十分惊人。幻想上,o3 的表示让许多人感应震动。o3 最清楚的成绩是:
    正在 ARC-AGI 基准尝试中患上分为 87.5%——AGI 的「北极星」,五年去不竭连结没有败 ——GPT-4o 的精确率为 5%。o3 是第一个正在 ARC-AGI 上超越人类水平 85% 的模子。正在 SWE-Bench Verified 上的精确率为 71.7%,正在 Codeforces 上的 Elo 患上分为 2727,使 o3 跻身环球前 200 名合作性法式员之列。正在 EpochAI 的 FrontierMath 基准尝试中的精确率为 25.2%,比拟以前最好的 2.0% 的精确率年夜幅进步。

可是,公家没法会见 o3 模子去考证所有那些成果。正在撰写原文时,残破的 o3 模子仍已公布,但是 OpenAI 近来公布了该模子的较小版原 ——o3-mini [6]。
取 OpenAI 的其余拉理模子比拟,o3-mini 更具本钱效率且更容易于加入消耗。比方,此模子撑持函数挪用、Web 搜刮战构造化输出等功用。o3-mini 借具备多种树立,包罗 low、medium 战 high,那指定了用于处置成就时施行的拉理质。此树立能够间接正在 API 恳求中指定,而且该模子的表示十分惊人 —— 正在很多情况下取 o1 相称,具体与决于拉理事情质的级别。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w8.jpg
o3-mini功用 概略(去自 [6])
正在年夜大都情况下,拉理事情质 low 的 o3-mini 取 o1-mini 的功用相称,而拉理事情质 high 的 o3-mini 的功用则超越 OpenAI 公布的统统其余拉理模子(包罗残破版 o1 模子)。
取以前的拉理模子比拟,o3-mini 借具备更佳的天下常识(即进步了幻想性),服从清楚更下,而且正在人类偏偏佳钻研中患上分更下。出格是,[6] 中提到,正在内部 A/B 尝试期间,「o3-mini 的照应速率比 o1-mini 快 24%,均匀照应时间为 7.7 秒,而 o3-mini 为 10.16 秒。」o3-mini 是 OpenAI 的 o1 式拉理模子中(迄古为行)公布的最下效的模子。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w9.jpg
o3-mini 取 o1-mini 正在 STEM / 非 STEM 提醒词汇上的胜率(去自 [6])
别的模子供给圆。OpenAI 公布 o1 式模子后,其余模子供给圆也疾速跟退。比方,google近来公布了尝试性的 Gemini-2.0 Flash Thinking,它保存了 Gemini 模子的标记性少高低文 ——1M token 高低文窗心,并正在枢纽可考证任务(比方 AIME 战 GPQA)上得到了可不雅的目标。可是,那个模子的功用仍然落伍于 o1 战 o3-mini。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w10.jpg

近来,Grok-3 的拉理尝试版公布,十分众目睽睽。以下所示,Grok-3 拉理模子正在 high 拉理事情质下超越了 o3-mini 的功用,以至正在大都情况下靠近残破的 o3 模子;比方,AIME'24 的精确率为 96%,而 o3 的精确率为 97%。使用庞大新计较散群截至锻炼的 Grok-3 使人影像深化(特别是思考到 xAI 的年青)。正在撰写原文时,Grok-3 的拉理尝试版是取 OpenAI 拉理模子最靠近的合作敌手。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w11.jpg

拉理模子的基准
正在退一步理解拉理模子的事情道理以前,让咱们更深入天理解它们的功用。要真实理解那些模子的才气,咱们需要干的不但仅是检察目标 —— 咱们需要查抄那些模子在处置的成就的具体示例。比方,思考 GSM8K(以下所示),那是一个小教水平的数教基准。那些成就可以瞅起去微不足道,但是 LLM 们多年去不竭正在勤奋精确天处置那个基准。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w12.jpg
GSM8K 中的示例成就
跟着拉理模子的呈现,那个基准已经完整鼓战 —— 咱们再也不能用它去故意义天评介最好拉理模子。差异,咱们开端用 LLM处置 更易的成就。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w13.jpg
AIME 2024 中的示例成就
比方,思考 AIME 2024 中的第 15 个成就,如上所示。那个成就相称庞大,超越了 GSM8K 中的算术拉理成就。有(最少)六种差别的办法能够处置那个成就,统统那些办法皆需要把握初级数教本领(比方导数、数论或者推格朗日乘数)。
别的,拉理模子在处置的庞大基准借不但仅是数教!比方,GPQA [7]包括 去自多个科学范围的数百讲多项挑选题;比方,死物教、物理教战化教。统统那些成就皆是由范围大师编辑的,颠末考证,它们既十分艰难,又没法颠末互联网搜刮找到谜底,那表示着即使有充足的时间战没有受限定的互联网会见,非大师也很易处置那些成就。
「咱们保证那些成就是下品质且极端艰难的:具有或者在攻读响应范围专士教位的大师的精确率到达 65%,而妙技纯熟的非大师考证者精确率仅为 34%,而且他们即使能够没有受限定天会见收集,也均匀破费了超越 30 分钟的时间。」 - 去自 [7]
ARC-AGI 基准 —— 被描绘为「迈背 AGI 的主要垫足石」—— 涉及各类鉴于网格的谜题,此中 LLM必需 正在输出输出网格中进修情势,并正在终极输出示例中完善复造这类进修到的情势。年夜大都 LLM 皆很易处置那些困难(比方,GPT-4o 的精确率仅为 5%),但是拉理模子正在那个基准上表示相称没有错 ——精确 率可达 30-90%,具体与决于计较估算。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w14.jpg

最少能够道,那些是拉理 LLM 开端处置的差别级此外(非巨大)成就。固然那些基准尝试易度很年夜,但是现代拉理模子的才气也很强 —— 据报导,OpenAI 的 o3 模子正在 AIME 2024 上得到了远 97% 的分数。正在野生查抄此中一点儿成就后,咱们能够真实理解那个成果的主要性。
拉理模子根底
固然上面介绍的拉理模子明显使人影像深化,但是皆是封锁模子。因而,咱们没有明白它们理论上是怎样事情的。咱们获得的唯一疑息是上面的引文战以下所示的图表。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w15.jpg
(去自 [5])
可是,从那些无限的疑息中,咱们能够患上出一点儿有效的论断。主要而行,扩大拉理模子涉及二个枢纽组件:
    颠末加强进修截至更多锻炼。更多拉理时间计较(即拉理时间扩大)。

固然 OpenAI 并已走漏扩大拉理模子那二个组件的办法面前 的很多细节,但是仍有大批对于此中心的钻研揭晓。为了供给更多布景疑息,让咱们扼要介绍一下此中一点儿事情,加之 OpenAI 分享的细节,可让咱们大抵理解拉理模子锻炼战使用的一点儿枢纽观点。
具备可考证嘉奖的加强进修
对于 o1 式模子,咱们该当留神到的一个细节是,它们主要用于素质上可考证的成就并按照那些成就截至评介;比方数教战编程。可是,正在这类情况下,「可考证(verifiable)」究竟是甚么意义?
起首,咱们假定咱们能够获得 i)成就的根本谜底或者 ii)可用于考证准确性的某些鉴于划定规矩的手艺。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w16.jpg
颠末精确字符串匹配考证数教成就
比方,咱们能够为年夜大都数教成就界说一个根本谜底 —— 正在 GSM8K 中,那是使用 #### <answer> 语法完毕的。而后,咱们能够从 LLM 的输出中提炼终极谜底,并使用根本字符串匹配将此谜底取 ground truth 谜底截至比力;睹上图。类似天,假设咱们为编程成就准备了尝试用例,咱们能够简朴天施行由 LLM 天生的代码并查抄供给的处置计划可否满意统统尝试用例。
「可考证嘉奖的加强进修(RLVR)能够看做是现有指导语言模子拉理办法的简化方法或者具备施行反应的更简朴方法的加强进修,此中咱们只要使用谜底匹配或者束缚考证动作两退造旌旗灯号去锻炼模子。」 - 去自 [13]
道一个范围是「可考证的」其实不表示着咱们能够主动考证该范围成就的尽情处置计划。差异,咱们经常需要会见 ground truth 谜底(凡是从人类那边得到)截至考证。
可是,有些举动能够使用简朴划定规矩而没有是 ground truth 去考证。比方,咱们能够使用一组软编码划定规矩施行简朴查抄去肯定拉理模子可否具备准确的输出格局、可否依照某些指令或者可否发生一定少度的输出(比方,o3-mini 使用的 low、medium 或者 high 拉理事情质)。
考证庞大性。按照咱们在处置的成就,考证 LLM 的输出可以会变患上十分庞大。即使关于数教成就,考证 LLM 的谜底取根本幻想之间的匹配也很艰难。比方,解问可以以差别的方法或者格局显现,进而招致假阳性考证。正在那些情况下,简朴的字符串匹配可以借不敷!差异,咱们能够提醒 LLM,让其报告咱们那二个解可否匹配,那已经被发明能够年夜年夜削减没有准确的考证 [14]。关于代码,完毕考证也很艰难 —— 它需要建立一个数据管讲,而且其要十分有用天正在锻炼树立中施行战考证尝试用例。
神经历证。除上面概括的可考证成就以外,咱们借能够思考较强的考证方法。比方,创意写做是一项易以考证的任务。可是,咱们能够:
    锻炼神经嘉奖模子或者考证器。使用此模子对于 LLM输出 截至评分。使用猜测分数动作嘉奖或者考证旌旗灯号。

如许的树立取鉴于人类反应的加强进修(RLHF)十分类似。正在这类情况下,会锻炼嘉奖模子按照模子照应的准确性或者品质施行两元考证。可是,使用神经历证器会有嘉奖 hacking 的危急,特别是正在施行年夜范围加强进修时。模子的锻炼时间更少,而且会对于嘉奖图景截至更多根究,进而增加了嘉奖 hacking 的危急。因而,很多近来的拉理模子皆躲启了这类办法。
「咱们正在开辟 DeepSeek-R1-Zero 时不使用神经嘉奖模子,因为咱们发明神经嘉奖模子正在年夜范围加强进修过程当中可以会受到嘉奖 hacking 进犯的作用,而从头锻炼嘉奖模子需要分外的锻炼资本,那会使全部锻炼过程变患上庞大。」 - 去自 [1]
用可考证的嘉奖进修。咱们现在理解了考证,但是怎样使用考证去锻炼 LLM?思路很简朴:间接将考证成果用做使用加强进修截至锻炼的嘉奖旌旗灯号。有许多差别的办法能够完毕那个思路(比方,历程嘉奖或者杂加强进修),但是它们的配合中心是使用加强进修按照可考证的嘉奖进修。那是统统现代拉理模子根底的根本观点。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w17.jpg
(去自 [13])
关于使用加强进修从可考证的嘉奖中进修的办法,能够参照 Sasha Rush 的那个望频:https://youtu.be/6PEJ96k1kiw
拉理时间战略:思路链息争码
咱们能够颠末二种根本办法去增加语言模子正在拉理时消耗的计较质:
    天生更多 token(即更少的输出序列)。天生多个输出。

正在原节中,咱们将更具体天介绍那些手艺,根究怎样颠末思惟链战差别的解码战略(如并止解码取挨次解码)正在 LLM 中理论完毕它们。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w18.jpg
(去自 [8])
思惟链。咱们已经明白拉理模子使用少思惟链动作拉理序言。正在 [8] 中提出,最简朴的层里上,思惟链不过 LLM 为其自己输出供给的一种注释。正在年夜大都情况下,那些注释是正在 LLM 天生终极谜底以前编辑的,许可模子正在天生谜底时将其注释用做高低文。
拉理模子使用的少思惟链取尺度思惟链有很年夜差别。尺度思惟链繁复易读。少思惟链有多少千个 token。固然它能够用于注释模子,但是少思惟链并已针对于人类可读性截至劣化。差异,它是一种普遍的拉理轨迹,以具体的方法处置成就,并包罗各类庞大的拉理举动(比方,追溯战自尔劣化)。
「咱们决定没有背用户展示本初的思惟链…… 咱们勤奋颠末教诲模子从谜底中的思惟链中沉现有效的设法去部门抵偿 [那一决定]。关于 o1 模子系列,咱们会展示模子天生的思惟链择要。」 - 去自 [5]
别的,拉理模子会正在逻辑大将其思惟链取模子的终极输出分隔。比方,OpenAI 没有会背用户展示少思惟链,而是供给 LLM 天生的少思惟链择要去弥补拉理模子的终极谜底。因为思惟链的少度,这类逻辑别离是有须要的。年夜大都用户只会浏览终极谜底 —— 浏览全部拉理轨迹将十分耗时。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w19.jpg
(去自 [15])
并止解码。为了进步 LLM 终极输出的精确性,咱们借能够使用并止解码手艺。思路很简朴:没有使用 LLM 天生单个输出,而是天生多个输出并聚拢那些输出以组成单个终极谜底。这类聚拢能够颠末多种方法完毕;比方,使用大都投票或者共鸣、使用减权投票、使用神经嘉奖模子或者考证器(即也称为 Best-of-N 或者拒绝采样)或者其余一定范围算法找到最好输出。
那些办法的主要益处是简朴又有用。并止解码很简单扩大:咱们只要天生、考证战聚拢大批输出,就可以获得故意义的功用提拔 [9, 10, 11]。o1 式模子明显使用了并止解码手艺 —— 只要检察其专客中供给的图表细节(以下所示)!可是,并止解码手艺自己没法注释近来公布的拉理模子所表示出的一点儿更庞大的拉理举动。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w20.jpg
(去自 [5])
特别道一句,咱们借能够将拒绝采样的思惟使用于锻炼(即锻炼取尝试时间拒绝采样)。为此,咱们只要:
    采样多少个输出或者轨迹。使用嘉奖模子(或者其余评分体制)挑选最好输出。使用那些输出截至锻炼。

正在实践中,这类办法很经常使用;比方,LLaMA 模子正在使用 RLHF 以前,会正在厥后锻炼过程当中施行多少轮锻炼时间拒绝采样。拒绝采样正在实践中十分有用,取鉴于 PPO 的 RLHF 比拟,它更易完毕战扩大。
自尔劣化。除并止解码以外,借能够思考为解码接纳批驳或者自尔劣化战略。起首,LLM 天生初初照应。而后,为照应供给反应(去自 LLM 或者某些内部滥觞),LLM 能够按照反应改正其照应。此轮回能够重复尽情次数;拜见下图。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w21.jpg
(去自 [15])
今朝已经有差别的劣化办法,但是它们能够大抵分为二类:
    内部式:反应去自某些内部考证器或者模块。内部式:LLM 为其自己天生供给反应。

劣化的成果战理论结果有些庞大。有很多使用内部反应(比方去自考证器 [16] 或者代码注释器 [17])去劣化 LLM输出 的胜利案例。内部劣化可否有用正在很年夜水平上与决于 LLM 供给的反应品质。内部劣化能够很佳天完毕简朴任务 [18]。可是,这类办法很易泛化到更庞大的任务(比方数教)[19]。
盛开式拉理模子:DeepSeek-R1 等
到今朝为行,咱们已经理解了 LLM取得 拉理才气的根本观点。可是,咱们所理解的统统模子皆是封锁的 —— 咱们没法明白那些模子毕竟是怎样创立的。幸运的是,近来公布了多少个盛开式拉理模子。那些模子中最众目睽睽的是 DeepSeek-R1 [1]。除取 OpenAI o1 相媲好的功用中,该模子借附加了一份残破的手艺陈述,此中供给了充足的细节,因而完整掀启了创立强大拉理模子所需历程的奥妙里纱。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w22.jpg
(去自 [1])
DeepSeek-R1面前 的中心思惟取咱们迄古为行教到的常识十分符合。该模子正在可考证任务上使用加强进修截至锻炼,它进修使用少思惟链去处置庞大的拉理成就。幽默的是,加强进修锻炼历程是该模子强大拉理才气的枢纽因素。该模子的多个版原 ——DeepSeek-R1-Zero 战 DeepSeek-R1—— 皆已经公布,具备相称的拉理才气。邪如咱们将瞅到的,它是这种模子中第一个完整抛却了所有监视锻炼的模子,表白庞大的拉理才气可天然天从使用加强进修的年夜范围锻炼中出现。
「DeepSeek-R1-Zero 是一种颠末年夜范围加强进修(RL)锻炼的模子,不监视微调(SFT)动作开端步调,它展示了不凡的拉理才气。颠末加强进修,DeepSeek-R1-Zero 天然天出现出了很多强大而幽默的拉理举动。」 - 去自 [1]
DeepSeek-v3。DeepSeek-R1-Zero 战 DeepSeek-R1 皆初于一个强大的根底模子:DeepSeek-v3 [2]。除具备盛开权沉战具体的手艺陈述 [2] 以外,该模子借逾越了以前的盛开 LLM 的功用,以至取封锁模子的品质相称。


(去自 [2])
DeepSeek-v3 是一个 6710 亿参数的混淆大师(MoE)模子。假设您没有熟谙 MoE,能够参瞅专主的那篇少文剖析,此中注释了 MoE 观点并供给了多少个真例,包罗 DeepSeek-v3:https://cameronrwolfe.substack.com/p/moe-llms
为了进步拉理战锻炼服从,DeepSeek-v3 干出了如下设想挑选:
    使用多头隐留神力(MLA)。接纳劣化的 MoE构造 (比方,细粒度战同享大师)。正在预锻炼期间使用多 token 猜测目标。抛却凡是用于锻炼 MoE 模子的背载均衡丧失。颠末接纳 [2] 中提出的新式质化锻炼战略,正在全部锻炼过程当中将粗度低落到 FP8。

出于那些启事,宁可他模子比拟,DeepSeek-v3 的锻炼十分经济:该模子正在功用战服从圆里皆表示超卓。该模子的多少个先前版原已经公布,那些版原启迪了 DeepSeek-v3 干出的一点儿设想决议计划,比方 DeepSeek-v2 战 DeepSeek-v2.5。
DeepSeek-R1-Zero
DeepSeek 提出的第一个拉理模子是 DeepSeek-R1-Zero。该模子接纳了一种幽默的锻炼战略,即学模子地道颠末年夜范围加强进修截至拉理,而无需所有 SFT。该模子会天然根究并进修使用少思惟链颠末加强进修处置庞大的拉理成就。DeepSeek-R1-Zero 是第一个公然的钻研功效,表白无需监视锻炼便可开辟拉理才气。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w24.jpg
(去自 [22])
使用 GRPO 的加强进修。DeepSeek-R1-Zero 的锻炼从 DeepSeek-v3 [2]根底 模子开端。他们是间接颠末加强进修微调那个根底模子。出格是,[1] 中的作家挑选了上图中所示的组绝对战略劣化(GRPO)[3] 动作他们的加强进修算法。挑选用于 LLM 锻炼的加强进修算法是一个盛开且活泼的钻研问题。保守上,钻研职员使用 PPO 去锻炼 LLM,但是近来有一种趋势是接纳更简朴的加强进修算法(比方 REINFORCE 或者 GRPO)截至 LLM 锻炼。[1] 中给出的挑选 GRPO 的主要启事是:
    低落加强进修锻炼本钱。再也不需要批驳模子,该模子(凡是)取战略模子(即 LLM自身 )巨细差异。

界说嘉奖。取年夜大都使用 LLM 的保守加强进修事情差别,DeepSeek-R1-Zero 没有使用神经嘉奖模子(即鉴于 LLM 的嘉奖模子,那些模子颠末偏偏佳数据截至锻炼)。差异,作家使用了鉴于划定规矩的嘉奖体系,它 i)制止嘉奖 hacking,ii)节流计较本钱,iii)更容易于完毕。出格要指出,今朝使用的嘉奖有二种:
    精确度嘉奖:评介模子的照应可否准确。格局嘉奖:自愿模子以必然格局输出。

DeepSeek-R1-Zero 完整是正在可主动考证的任务上截至锻炼的,比方数教战编程成就。关于具备肯定性成果的数教成就,该模子能够以指定的格局供给谜底,使咱们能够颠末根本的字符串匹配截至考证。异常,能够颠末正在预约义的尝试用例上施行 LLM 正在沙箱中天生的代码去考证编程成就。
如前所述,当模子的输出格局准确时,格局嘉奖会供给主动的锻炼旌旗灯号。[1] 中使用的格局不过将模子的少思惟链(或者思考 / 拉理历程)搁正在二个特别 token 之间:<think> 战 </think>。而后,正在拉理历程完毕后,模子会正在 <answer> 战 </answer> 标签之间零丁天生谜底;以下所示。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w25.jpg
(去自 [1])
颠末加强进修截至进修。固然不使用 SFT,但是 DeepSeek-R1-Zero 正在全部加强进修锻炼过程当中的拉理才气皆有了清楚的进步。跟着锻炼的截至,模子正在 AIME 2024 上的表示以下图所示。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w26.jpg
(去自 [1])
能够瞅到,模子的功用逐步进步,终极到达取 o1-preview 相称的水平。锻炼完毕后,DeepSeek-R1-Zero 正在 AIME 2024 上的表示从最初的 15.6%进步 到了 71.0%(或者正在使用 16 票大都投票时为 86.7%)!如许的成果取咱们正在封锁式拉理模子中瞅到的功用趋势是不合的 ——DeepSeek-R1-Zero 正在加强进修锻炼后完毕了使人影像深化的功用,而且能够颠末并止解码战略退一步进步其功用。
下表给出了 DeepSeek-R1-Zero 战 o1 模子之间的残破功用比力。DeepSeek-R1-Zero 正在年夜大都情况下取 o1-mini 的功用相称或者超越 o1-mini,而且正在多少个任务上的表示取 o1-preview 相称。可是,OpenAI 的拉理模子正在编程范围表示更佳 ——DeepSeek-R1-Zero 明显是一个较强的编程模子。咱们很快便会瞅到,那个成就正在 DeepSeek-R1(后绝模子)中获得了处置。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w27.jpg
(去自 [1])
发作了甚么?明显,DeepSeek-R1-Zero 从 [1] 中介绍的加强进修锻炼过程当中得到了超卓的拉理才气。可是,模子进修历程的静态也相称清楚!因为不截至 SFT 式锻炼,以是能够正在全部加强进修锻炼过程当中密切监控模子拉理战略的平息。以下所示,DeepSeek-R1-Zero 教会了使用更多的「思考时间」,即天生愈来愈少的思惟链,进而能够跟着锻炼的截至改良其拉理历程。该模子天然教会了使用更多的尝试时间计较去处置更易的成就!

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w28.jpg
(去自 [1])
[1] 的作家借察看到正在加强进修锻炼过程当中天然出现的多少种幽默趋势。比方,该模子颠末从头审阅战评介其拉理历程的先前构成部门,开展出深思自己处置计划的才气。异常,该模子正在处置成就的过程当中开端隐式天尝试战根究替换处置计划或者办法。这类举动没有是幻想编程正在模子中的,而是正在加强进修锻炼过程当中天然出现的!
正在最根本的层里上,[1] 中建立的加强进修情况许可模子根究差别的战略去患上出准确的(由考证肯定的)终极解问。正在根究过程当中,模子干到如下二面就可以得到嘉奖:
    使用了准确的拉理模板或者构造。给出的终极解问是准确的。

仅凭那些嘉奖,模子就可以教会怎样处置庞大的拉理成就。咱们没有需要隐式天学模子怎样合成成就、寻找处置计划、施行追溯或者评介自己的思路。差异,咱们只要正在锻炼过程当中为模子供给准确的鼓励(或者嘉奖)。而后,LLM 能够颠末鉴于加强进修的「自尔退步」历程自立进修处置成就所需的举动。
DeepSeek-R1
DeepSeek-R1-Zero标明 ,LLM 能够使用不 SFT 的杂加强进修得到超卓的拉理才气,但是那个模子有一点儿小毛病。比方,它的可读性很好,而且它会毛病天将语言混淆正在共同。简而行之,DeepSeek-R1-Zero十分 善于拉理,但是它缺少一点儿已经优良对于齐的 LLM 的幻想属性。为了处置那些成就,[1] 中的作家提出了一种新的多阶段锻炼历程,将一点儿「热启用」 SFT 数据宁可他一点儿本领调整到了锻炼中。此锻炼过程获得的 DeepSeek-R1 是一款既已经对于齐又能截至庞大拉理的 LLM。
取 DeepSeek-R1-Zero类似 ,DeepSeek-R1 的根底也是 DeepSeek-v3。而后,DeepSeek-R1 经历四个阶段的锻炼,包罗二个 SFT 阶段战二个加强进修阶段。SFT 阶段的目标是正在每一个加强进修阶段为根究供给更佳的尽头。该锻炼过程是 [1] 的主要奉献之一 :它供给了一种有用的办法,可将拉理式锻炼取 LLM 的尺度后锻炼办法相分离。上面更深入天介绍下 DeepSeek-R1 使用的锻炼办法的每一个阶段。
第一阶段:热启用(或者里背拉理的 SFT)。正在截至加强进修锻炼以前,R1 颠末 SFT 正在一小组少思惟链示例数据散上截至锻炼,[1] 中将其称为「热启用」数据。咱们能够使用多少种差别的办法去汇集那些热启用数据:
    颠末提醒词汇挪用一个模子(比方 DeepSeek-v3)天生少思惟链数据,能够使用年夜唆使例,也能够唆使模子天生具体谜底并截至深思战考证。使用 R1-Zero 模子天生大批少思惟链输出,而后让人类截至后处置并挑选模子的最好输出。

[1] 分离了那些办法,汇集了「数千个热启用数据」。鉴于那些数据再使用 SFT 对于 DeepSeek-V3 间接截至微调。因为那里使用的是少思惟链数据,以是那是一个里背拉理的微调历程。从那个热启用数据中,模子能够进修一个可止的(初初)模板去处置拉理成就。
用于里背拉理的 SFT 的数据可将人类先验引进 DeepSeek-R1 的锻炼历程。咱们能够隐式天挑选模子正在此阶段进修的数据气势派头战情势。比方,[1] 中提到,他们将那些数据构造化为包罗每一个少思惟链的择要,进而学会模子正在供给终极谜底以前归纳其全部拉理历程。那些数据是加强进修锻炼历程的种子 —— 模子颠末匹配 SFT 锻炼数据的气势派头开端自尔根究。
第两阶段:里背拉理的加强进修。正在 SFT 以后,即是重复 R1-Zero 提出的年夜范围加强进修锻炼历程了,那是为了增强下层模子处置拉理麋集型任务的才气。DeepSeek-R1 的唯一变革是增加了语言不合性嘉奖,其正在计较中是动作模子输出中接纳所需目标语言编辑的部门。[1] 中发明这类语言不合性嘉奖会略微低落模子的拉理才气。可是,语言不合性可进步终极模子取人类偏偏佳的部分对于齐水平 —— 模子的输出越发流畅战可读。
第三阶段:拒绝采样。正在里背拉理的加强进修支敛以后,再使用终极模子去汇集大批且百般化的 SFT 数据散。可是,取最初的热启用 SFT 阶段差别,那里汇集的不但仅是里背拉理的数据。也即是道是用通用数据扩展拉理数据,以就模子能够从更普遍的成就战范围中进修。
为了汇集更多的拉理数据,DeepSeek-R1 团队:
    整编一组百般化的鉴于拉理的提醒词汇。使用第两阶段的模子天生候选轨迹。施行拒绝采样,即按照每一个轨迹的品质战准确性过滤并挑选最好轨迹。

那取前文介绍的锻炼时间拒绝采样历程差异!幽默的是,正在那个阶段,不但仅是依靠鉴于划定规矩的手艺去截至考证。借会颠末使用 DeepSeek-v3 动作天生嘉奖模子或者强考证器去调整去自不成考证域的分外数据。正在使用启迪式过滤(比方,简略戴有多语言混淆或者少段降的输出)后,他们终极获得了一个包罗 60 万个拉理轨迹的汇合。
此阶段的 SFT 数据散包罗大批非拉理数据(比方,写做或者翻译示例)。那些数据去自 DeepSeek-v3 所用的差异的锻炼后数据散。可是,颠末请求 DeepSeek-v3 天生少思惟链去注释庞大盘问的输出,那些数据获得了增强 —— 不外,更简朴的盘问不所有思惟链。终极,他们统共汇集了 20 万个非拉理示例样原,减起去获得了一个包罗 80 万个样原的 SFT 数据散。
第四阶段:通用 RLHF。DeepSeek-R1最初 锻炼阶段的目标是使模子取人类偏偏佳对于齐,共时持续锤炼其拉理才气。取前一阶段类似,那里会使用鉴于拉理的数据战通用数据的拉拢去锻炼模子。具体来讲,锻炼的办法是使用加强进修并针对于每一品种型的数据使用差别的嘉奖拉拢:
    鉴于划定规矩的嘉奖(取 R1-Zero 差异),用于鉴于拉理的成就。针对于一般数据使用神经嘉奖模子 —— 使用人类偏偏佳对于截至锻炼,邪如 RLHF 一致。

DeepSeek-R1 颠末调解,正在通用数据上更有辅佐且无害。那是 LLM 钻研中使用的二个十分经常使用的对于齐尺度。每一个尺度皆使用零丁的神经嘉奖模子截至修模,该模子颠末人类偏偏佳的(监视)数据散截至锻炼。有效性嘉奖仅针对于模子的终极谜底截至权衡(即拂拭少思惟链),而无害嘉奖则思考模子的全部输出轨迹。颠末分离划定规矩战鉴于偏偏佳的嘉奖,DeepSeek-R1 能够取人类偏偏佳对于齐,共时连结强大的拉理功用。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w29.jpg
(去自 [1])
它的表示怎样?如上所示,R1 正在年夜大都拉理任务上的表示取 o1 相称以至超越 o1。取 R1-Zero 差别,R1 借具备相称强的编程才气。正在通用任务上,因为其混淆锻炼管讲,R1持续 表示优良。总的来讲,R1 是一个十分强大的模子,仿佛取 OpenAI 的 o1 八两半斤,而且能够下粗度天处置各类任务(包罗保守任务战拉理导背任务)。
对于那个模子(战其余拉理模子)的一个幽默的察看是,取尺度 LLM 比拟,它正在指令依照基准(比方 IF-Eval)上表示欠安。今朝,拉理模子正在依照指令圆里仿佛比尺度 LLM 更好。正在未来,尔小我私家觉得这类趋势可以会恶化。实践上,拉理模子该当能够使用它们的思惟历程去更佳天注释战依照人类用户供给的提醒词汇。比方,审议对于齐(deliberative alignment)就接纳了类似思惟的办法。
SFT 是须要的吗?R1-Zero展示 了正在不 SFT 的情况下锻炼出强大拉理模子的才气,而残破的 R1 模子使用多个 SFT 阶段去得到更强大的终极模子。因而,咱们可以会开端疑心:咱们可否该当使用 SFT?

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w30.jpg
对于拉理模子来讲,SFT 可否有须要?
关于尺度 LLM,SFT 为 RLHF 供给了下品质的尽头。假设咱们将 RLHF 间接使用于根底模子,进修历程的服从便会年夜年夜低落。SFT 的数据要末是分解的,要末是人类脚动创立的。凡是,汇集 SFT 的数据是高贵的(不管是正在时间仍是款项圆里)—— 咱们必需为 LLM 重新开端脚动编辑一个佳的照应!
因为它们的思惟链较少,为拉理模子汇集此类 SFT 数据越发艰难。请求人类脚动创立少思惟链数据将耗时且高贵!咱们唯一的挑选是分解那些数据,可是:
    可以很易使用模子天生这类一定气势派头的输出。很易准确考证这类少输出。

思考到为拉理模子汇集 SFT 数据的分外庞大性,[1] 中的作家起首测验考试了完整躲启 SFT!从那些尝试中,咱们瞅到拉理才气天然天从杂加强进修中出现 —— 那是一个使人易以相信的发明!可是,由此发生的模子有多少个缺点(比方稠浊使用多种语言)。
而当正在加强进修以前施行一点儿 SFT 锻炼(即「热启用」)时,可为加强进修供给更佳的先验,那 i)能够打消加强进修锻炼初初阶段的没有颠簸性,ii)能放慢锻炼速率,iii)能进步模子品质。因而,SFT 并不是完整须要,但是若有数据,它仍会颇有用!
蒸馏模子

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w31.jpg
常识蒸馏历程图示
除 DeepSeek-R1,DeepSeek 借公布了一系列鉴于 R1 蒸馏获得的麋集模子。人们早已经发明,蒸馏历程能够清楚增强更小、更下效的模子的拉理才气。残破版 DeepSeek-R1 是有着 6710 亿参数的混淆大师模子,十分年夜,因而那些蒸馏模子正在实践中十分有效 —— 它们的功用取 R1 相称,但是本钱更高且更容易于使用。别的,那些蒸馏模子的公布取封锁拉理模子(比方 o1-mini 战 o3-mini)的最新趋势不合。

从o1-mini到DeepSeek-R1,万字少文戴您读懂拉理模子的汗青取手艺w32.jpg
(去自 [1])
蒸馏 R1。为了创立那些模子,他们起首挑选了多少种差别巨细的 Qwen-2.5 [20] 战 LLaMA-3 [21] 模子。而后,颠末 SFT 使用正在 DeepSeek-R1 锻炼过程第三阶段整编的 80 万个监视锻炼样原对于那些根底模子截至锻炼 —— 便这样简朴!
那是一个简朴的常识蒸馏过程,但是成果却十分冷傲。如上所示,颠末蒸馏的 Qwen2.5-14B 模子的表示劣于 QwQ-32B-Preview,后者是 R1 公布以前最佳的盛开式拉理模子。别的,即使是最小的蒸馏模子也比已针对于拉理截至劣化的尺度封锁式 LLM 表示更佳(比方 GPT-4o),而 320 亿战 700 亿参数的蒸馏模子正在年夜大都基准尝试中的功用皆超越了 o1-mini。
蒸馏取加强进修。固然咱们鄙人里的会商中瞅到蒸馏是有用的,但是咱们可以念明白:假设将 DeepSeek-R1 使用的年夜范围加强进修锻炼历程间接使用于那些较小的模子,那末能得到更佳的成果吗?
幽默的是,[1] 中提到,使用上述蒸馏办法鉴于 R1 蒸馏 Qwen2.5-32B根底 模子比颠末年夜范围加强进修间接锻炼该模子表示更佳,以下所示。

(去自 [1])
换句话道,庞大模子发明的拉理情势关于进步那些较小、麋集模子的拉理才气相当主要。可是,[1] 中的作家确实提出了如下弥补概念:
    颠末增加加强进修锻炼,蒸馏模子的功用可以获得退一步提拔。「逾越智能的鸿沟」,即创立超越 DeepSeek-R1 等模子功用的新拉理模子,仍然需要强大的根底模子战年夜范围的加强进修锻炼。

其余蒸馏拉理模子。基于颠末蒸馏锻炼下品质拉理模子很简朴,钻研界正在 R1 提出后公布了林林总总的拉理模子。此中一点儿最吸收人的版原是:
    Sky-T1 战 Sky-T1-Flash:https://novasky-ai.github.io/posts/sky-t1/Bespoke Stratos:https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillationLIMO:https://arxiv.org/abs/2502.03387S1:https://arxiv.org/abs/2501.19393RedStar:https://arxiv.org/abs/2501.11284

固然,借不只那些!目前拉理模子公布的程序让人念起了 LLM 钻研的后 LLaMA 时期。正在公布强大的盛开根底模子(即 LLaMA)以后,咱们瞅到了鉴于该模子的各类模子变体(比方,Alpaca、Vicuna、Koala 等等)。现在,咱们能够使用强大的盛开拉理模子,因为咱们瞅到了十分类似的趋势!该范围的钻研十分幽默,值患上零丁写一篇文章。敬请等候!
主要的新趋势
咱们现在已经理解了各类拉理模子,从 o1 或者 o3 等封锁模子开端,到 DeepSeek-R1 中对于那些模子的残破复现。跟着咱们对于那项钻研的理解,开端呈现了一点儿配合的趋势。那些趋势对于拉理模子战尺度 LLM 的钻研干出了一点儿主要辨别。枚举以下:
少思惟链(战拉理时间扩大)。拉理模子战尺度 LLM 之间的枢纽区分正在于它们的输出构造。拉理模子没有会间接天生终极谜底(戴有可选的扼要注释),而是天生一个较少的思惟链,其具体描绘了模子的拉理历程。那个较少的思惟链少度纷歧,进而正在拉理时可完毕可控的计较本钱:较少的思惟链 = 更多的 token = 更多的计较。如许,正在拉理时使用更多的计较(天生较少的思惟链)已经成为一种东西,可以让用户静态调解模子的拉理才气。
颠末加强进修截至自尔退步。明显,LLM 使用较少的思惟链施行庞大拉理战略的才气是个新标的目的而且冲动民气。从近来的钻研中,那些特别才气开展的枢纽因素是年夜范围加强进修锻炼。咱们正在 [1] 中瞅到,假设模子获得准确的鼓励,这类拉理才气便会正在加强进修期间天然出现进去 —— 一般为颠末肯定性战可靠的鉴于划定规矩的嘉奖。别的,咱们能够颠末使用更多的计较截至加强进修锻炼去退一步进步模子的拉理才气 —— 那是咱们能够使用的另外一个 Scaling Law!
使用更少的监视。取尺度 LLM 比拟,拉理模子对于人类监视的依靠水平较高。出格是,加强进修锻炼期间的嘉奖主要去自鉴于划定规矩的体系,而没有是依靠于人类的偏偏佳。固然,拉理模子仍然有多少个范围依靠于人类的监视;比方,根底模子使用人类收拾整顿的数据截至锻炼,考证依靠于人类供给的 ground truth 标签。可是,像 R1(特别是 R1-Zero)如许的拉理模子仍然正在鼎力开展,证实拉理才气能够自立开展起去。
蒸馏是有用的。咱们能够鉴于强大的庞大拉理模子,使用简朴的战略将那些模子的才气蒸馏给更小、更麋集的模子!那一发明招致了该范围钻研的爆炸式增加,咱们很可以会正在没有暂的未来瞅到更多下效战蒸馏的拉理模子公布。该范围的一个枢纽成就是较小的模子可否泛化,仍是道易以完整对抗其西席模子的广度。
需要处置的新成就。最主要的是,拉理模子的呈现也戴去了各类幽默的新成就。咱们借需处置的成就有:
    怎样为少思惟链完毕宁静锻炼?通用任务才气 / 拉理才气之间的最好均衡是甚么?SFT 正在锻炼拉理模子中的最好感化是甚么?怎样最年夜限定天削减少思惟链中的「过分思考」?怎样完毕拉理模子的下效托管?

邪如原文收尾所述,拉理模子是一种真实新式的 LLM,它将迫使咱们从头思考现有的框架。多年去不竭使用的手艺(比方,少样原提醒)关于那些新模子来讲已经过期了。LLM 钻研范围在再次自尔沉塑。
取拉理模子相干的深度报导
前面即是 Cameron R. Wolfe 专士公布的《掀秘拉理模子》 齐文了。上面咱们简朴梳理了机械之心以前公布的拉理模子相干实质:
    「DeepSeek 交班 OpenAI」,最新启源的 R1 拉理模子,让 AI 圈爆了Sebastian Raschka:对于 DeepSeek R1 战拉理模子,尔有多少面观点二万字少文深度解稀 DeepSeek-R一、Kimi 1.5,强拉理模子凭甚么水出圈?从念太多到念没有透?DeepSeek-R1 等少拉理模子也存留「思考不敷」成就哥德我 - Prover超越 DeepSeek-Prover,金驰、陈丹琦团队制出目前最强方法化拉理模子817 样原激起 7 倍拉理功用:上接年夜「少便是多」定律挑战 RL Scaling 范式450 美圆锻炼一个「o1-preview」?UC 伯克利启源 32B 拉理模子 Sky-T1,AI 社区鼎沸了锻炼 1000 样原就可以逾越 o1,李飞飞等人绘出 AI 扩大新直线8 卡 32B 模子逾越 o1 预览版、DeepSeek V3,普林斯整理、北年夜提出条理化 RL 拉理新范式200 多止代码,超高本钱复现 DeepSeek R1「Aha Moment」!复旦年夜教启源施行拉理时能对于齐语言模子吗?google InfAlign 戴去一种对于齐新思路方才,DeepSeek 民间公布 R1 模子举荐树立,那才是准确用法啊!DeepSeek-R一、o3-mini 能解奥数题却算没有了多位数乘法?分离模子也能拉理时 Scaling,开赛宁团队沉磅钻研可以戴去文死图新范式沉磅发明!DeepSeek R1办法 胜利迁徙到望觉范围,多模态 AI 迎去新突破!启源 22 万条 DeepSeek R1 的下品质数据!您也能复现 DeepSeek 了OpenAI:加强进修确实可清楚进步 LLM功用 ,DeepSeek R一、Kimi k1.5 发明 o1 的秘密

参照文件[1] Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv preprint arXiv:2501.12948 (2025).[2] Liu, Aixin, et al. "Deepseek-v3 technical report." arXiv preprint arXiv:2412.19437 (2024).[3] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).[4] OpenAI. “Introducing OpenAI o1-preview” https://openai.com/index/introducing-openai-o1-preview/ (2024).[5] OpenAI. “Learning to Reason with LLMs” https://openai.com/index/learning-to-reason-with-llms/ (2024).[6] OpenAI. “OpenAI o3-mini” https://openai.com/index/openai-o3-mini/ (2025).[7] Rein, David, et al. "Gpqa: A graduate-level 谷歌-proof q&a benchmark." arXiv preprint arXiv:2311.12022 (2023).[8] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.[9] Zelikman, Eric, et al. "Star: Bootstrapping reasoning with reasoning." Advances in Neural Information Processing Systems 35 (2022): 15476-15488.[10] Gulcehre, Caglar, et al. "Reinforced self-training (rest) for language modeling." arXiv preprint arXiv:2308.08998 (2023).[11] Nakano, Reiichiro, et al. "Webgpt: Browser-assisted question-answering with human feedback." arXiv preprint arXiv:2112.09332 (2021).[12] Dubey, Abhimanyu, et al. "The llama 3 herd of models." arXiv preprint arXiv:2407.21783 (2024).[13] Lambert, Nathan, et al. "Tulu 3: Pushing frontiers in open language model post-training." arXiv preprint arXiv:2411.15124 (2024).[14] Bespoke Labs. “Bespoke-Stratos: The unreasonable effectiveness of reasoning distillation” https://www.bespokelabs.ai/blog/bespoke-stratos-the-unreasonable-effectiveness-of-reasoning-distillation (2025).[15] Welleck, Sean, et al. "From decoding to meta-generation: Inference-time algorithms for large language models." arXiv preprint arXiv:2406.16838 (2024).[16] Aggarwal, Pranjal, Bryan Parno, and Sean Welleck. "AlphaVerus: Bootstrapping formally verified code generation through self-improving translation and treefinement." arXiv preprint arXiv:2412.06176 (2024).[17] Chen, Xinyun, et al. "Teaching large language models to self-debug." arXiv preprint arXiv:2304.05128 (2023).[18] Wang, Yifei, et al. "A Theoretical Understanding of Self-Correction through In-context Alignment." arXiv preprint arXiv:2405.18634 (2024).[19] Huang, Jie, et al. "Large language models cannot self-correct reasoning yet." arXiv preprint arXiv:2310.01798 (2023).[20] Yang, An, et al. "Qwen2. 5 technical report." arXiv preprint arXiv:2412.15115 (2024).[21] Dubey, Abhimanyu, et al. "The llama 3 herd of models." arXiv preprint arXiv:2407.21783 (2024).[22] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." arXiv preprint arXiv:2402.03300 (2024).
© THE END 转载请联系原公家号得到受权投稿或者追求报导:liyazhou@jiqizhixin.com
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )