开启左侧

200B参数击败满血DeepSeek-R1,字节豆包推理模型Seed-Thinking-v1.5要来了

[复制链接]
在线会员 KOsV 发表于 2025-4-12 04:08:56 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
滥觞 | 机械之心

字节跳动豆包团队来日诰日公布了自野新拉理模子 Seed-Thinking-v1.5 的手艺陈述。从陈述中能够瞅到,那是一个具有 200B 总参数的 MoE 模子,屡屡事情时会激活此中 20B 参数。其表示十分冷傲,正在各个范围的基准上皆超越了具有 671B 总参数的 DeepSeek-R1。有人推测,那即是字节豆包今朝在使用的深度思考模子。

字节短期民宣的「2025 水山引擎 Force Link AI 立异巡展」举动拉文中提到,4 月 17 日尾收站杭州站时,豆包崭新模子将沉磅表态,那会是 Seed-Thinking-v1.5 的邪式公布吗?

200B参数打败谦血DeepSeek-R1,字节豆包拉理模子Seed-Thinking-v1.5要去了w2.jpg


    陈述题目:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning

    名目地点:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

    陈述地点:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf


Seed-Thinking-v1.5 是一款颠末深度思考提拔拉理才气的模子,正在多个声威基准尝试中展示出出色功用。正在具体评测中,该模子正在 AIME 2024 尝试中得到 86.7 分,Codeforces 评测到达 55.0 分,GPQA 尝试到达 77.3 分,充实证实了其正在 STEM(科学、手艺、工程战数教)范围和编程圆里的超卓拉理才气。

200B参数打败谦血DeepSeek-R1,字节豆包拉理模子Seed-Thinking-v1.5要去了w3.jpg

除拉理任务中,该办法正在差别范围皆表示出清楚的泛化才气。比方,正在非拉理任务中,其胜率比 DeepSeek R1 超出跨越 8%,那表白了其更普遍的使用后劲。

从手艺架构瞅,Seed-Thinking-v1.5 接纳了混淆大师模子(Mixture-of-Experts,MoE)设想,总参数目为 200B,理论激活参数仅为 20B,比拟划一功用的其余开始退拉理模子,范围绝对松散下效。

为全面评介模子的泛化拉理才气,团队开辟了 BeyondAIME 战 Codeforces 二个内部基准尝试,那些尝试东西将背公家盛开,以增进相干范围的未来钻研取开展。

先去瞅瞅其具体表示。

200B参数打败谦血DeepSeek-R1,字节豆包拉理模子Seed-Thinking-v1.5要去了w4.jpg

正在数教拉理圆里,正在 AIME 2024 基准上,Seed-Thinking-v1.5取得 了 86.7 的下分,取下计较质的 o3-mini-high 好未几。

因为 AIME 2024已经 不敷以彰隐前沿模子的差别,豆包团队借使用了另外一个更具挑战性的评介基准 BeyondAIME,此中统统成就皆是人类大师新收拾整顿编辑的。成果能够瞅到,固然 Seed-Thinking-v1.5 的成就超越了 R1 战 o1,但是比拟于 o3 战 Gemini 2.5 pro 另有所差异。

正在比赛编程圆里,正在 Codeforces 基准上,该团队不接纳以前的依靠 Elo 分数的评介战略,而是接纳了鉴于最新的 12 场 Codeforces 比赛的具体评介计划。

具体来讲,他们陈述的是 pass@1 战 pass@8 目标,此中 pass@k 暗示模子可否正在 k 次测验考试内乱处置成就,即从 k 次天生的提接当选择最好成果。之以是挑选陈述  pass@8,是因为能供给更颠簸的成果,而且更靠近理论用户提接情势。

成果去瞅,Seed-Thinking-v1.5 正在那二个目标上均超越 DeepSeek-R1,不外取 o3 的差异照旧比力清楚。该团队暗示未来将公然公布那个评介散。

正在科学成就上,Seed-Thinking-v1.5 正在 GPQA 基准上患上分为 77.3,靠近 o3 的表示。该团队暗示,那一提拔主要回罪于数教锻炼戴去的泛化才气的提拔,而非增加了一定范围的科学数据。

豆包也尝试了 Seed-Thinking-v1.5 正在非拉理任务上的表示。那里他们使用的尝试散极力复现了真正的用户需要。颠末人类对于 Seed-Thinking-v1.5 取 DeepSeek-R1输出 成果的比力评介,成果发明,Seed-Thinking-v1.5取得 的用户主动反应整体超出跨越 8.0%,突显了其正在庞大用户场景处置才气圆里的才气。

上面咱们便去简朴瞅瞅豆包是怎样缔造出 Seed-Thinking-v1.5 的。

开辟下品质拉理模子有三年夜枢纽:数据、加强进修算法战根底装备。为了挨制出 Seed-Thinking-v1.5,该团队正在那三个圆里皆截至了立异。

数据

拉理模子主要依靠思惟链(CoT)数据,这类数据展示逐步拉理历程。该团队的开端钻研表白,过量非思惟链数据会削弱模子根究才气。

钻研团队正在加强进修锻炼中调整了 STEM成果 、代码任务、逻辑拉理战非拉理数据。此中逻辑拉理数据提拔了 ARC-AGI 尝试表示。而数教数据则展示除优良的泛化才气。

别的,他们借建立了一个新的初级数教基准 BeyondAIME,此中包罗 100 讲题,每一讲题的易度即是或者下于 AIME 中最易的题目。取 AIME类似 ,统统谜底皆包管为整数(没有受一定数值范畴的限定),那能简化并颠簸评介历程。

加强进修算法

拉理模子的加强进修锻炼常呈现没有颠簸性,特别对于已经监视微调的模子。为处置那一成就,钻研团队提出了 VAPO 战 DAPO 框架,别离针对于鉴于代价战无代价的加强进修范式。二种办法均能供给妥当的锻炼轨迹,有用劣化拉理模子。参阅机械之心报导《逾越 DeepSeek GRPO 的枢纽 RL 算法,字节、浑华 AIR 启源 DAPO》。

嘉奖修模

嘉奖修模是加强进修的枢纽,它肯定了战略的目标。优良的嘉奖体制能正在锻炼时供给精确的旌旗灯号。团队针对于可考证战不成考证的成就使用差别的嘉奖修模办法。

一、可考证成就

颠末恰当的绳尺战思惟轨迹,团队使用 LLMs 去鉴别各类场景下的可考证成就。这类办法供给了逾越鉴于划定规矩的嘉奖体系范围性的更遍及处置计划。

团队设想了二个递退式的嘉奖修模计划:Seed-Verifier 战 Seed-Thinking-Verifier:


    Seed-Verifier  鉴于一套由人类订定的绳尺,使用狂言语模子的才气评介由成就、参照谜底战模子天生谜底构成的三元组。假设参照谜底取模子天生的谜底素质上乘价,它前去「YES」;不然前去「NO」。那里的等价没有请求逐字匹配,而是鉴于计较划定规矩战数教道理截至深层评介,保证嘉奖旌旗灯号精确反应模子答复的素质准确性。

    Seed-Thinking-Verifier 的灵感去自人类的鉴别历程,颠末详尽思考战深入阐发患上出论断。为此,团队锻炼了一个能够供给具体拉理路子的考证器,将其望为可考证任务,宁可他数教拉理任务共同劣化。该考证器能够阐发参照谜底取模子天生谜底之间的同共,供给精确的鉴别成果。


Seed-Thinking-Verifier清楚 减缓了 Seed-Verifier 存留的三个主要成就:


    嘉奖欺骗(Reward Hacking):非思考型模子可以使用漏洞获得嘉奖,而没有真实理解成就。Seed-Thinking-Verifier 的具体拉理历程使这类欺骗变患上越发艰难。

    猜测的谬误定性:正在参照谜底取模子天生谜底素质差异但是格局差别的情况下,Seed-Verifier可以 偶然前去「YES」,偶然前去「NO」。Seed-Thinking-Verifier 颠末深入阐发谜底面前 的拉理历程,供给不合的成果。

    鸿沟情况处置失利:Seed-Verifier 正在处置某些鸿沟情况时表示欠安。Seed-Thinking-Verifier 供给具体拉理的才气使其能够更佳天应付那些庞大场景。


表 1展示 了上述二种考证器的功用。成果表白,Seed-Verifier 正在处置某些特别情况实效因短好,而 Seed-Thinking-Verifier展示 出供给精确鉴别的出色才气。固然后者的思惟历程消耗了大批 GPU 资本,但是其发生的精确且妥当的嘉奖成果关于付与战略强大的拉理才气相当主要。

二、不成考证成就

钻研团队为不成考证成就锻炼了一个加强进修嘉奖模子,使用取 Doubao 1.5 Pro 差异的人类偏偏佳数据,主要笼盖创意写做战择要天生。

团队接纳了成对于天生式嘉奖模子,颠末间接比力二个答复的好坏并将「是 / 可」几率动作嘉奖分数。这类办法让模子专一于答复间的素质差别,制止存眷相关细节。

尝试表白,此办法进步了加强进修的颠簸性,特别正在混淆锻炼场景中削减了差别嘉奖模子间的抵触,主要是因为它能低落非常分数的天生,制止取考证器发生清楚的分数散布差别。

根底装备

狂言语模子加强进修体系需要强大根底装备撑持。团队开辟的流式拉演架构颠末劣先级样原池同步处置轨迹天生,使迭代速率提拔 3 倍。体系借撑持主动缺陷规复的混淆粗度锻炼,保证年夜范围加强进修运行的颠簸性。

框架

Seed-Thinking-v1.5 接纳的锻炼框架是鉴于 HybridFlow 编程抽象建立的。全部锻炼事情背载运行正在 Ray 散群之上。数据减载器战加强进修算法正在单历程 Ray Actor(单掌握器)中完毕。模子锻炼战照应天生(rollout)正在 Ray Worker Group 中完毕。

流式 Rollout零碎

其 SRS 架构引进了流式 Rollout,可将模子演变取运行时施行解耦,并颠末参数 α静态 调解正在战略战离战略的样原比率:


    将完毕率(α ∈ [0, 1])界说为使用最新模子版原以正在战略方法天生的样原比率。

    将盈余的已完毕片断(1- α)分派给去自版原化模子快照的离战略 rollout,并颠末正在自力资本上同步持续部门天生去完毕无缝散成。


别的,该团队借正在情况接互阶段完毕了静态粗度调理,颠末后锻炼质化战偏差抵偿范畴缩搁去布置 FP8战略 收集。

为了处置 MoE零碎 中 token 不服衡的成就,他们完毕了一个三层并止架构,分离了用于分层计较的 TP(弛质并止化)、具备静态大师分派的 EP(大师并止)战用于高低文分块的 SP(序列并止)。如许一去,其 kernel auto-tuner 就可以按照及时背载监控静态挑选最好 CUDA 核设置。

锻炼体系

为了下效天年夜范围锻炼 Seed-Thinking-v1.5 模子,该团队设想了一个混淆散布式锻炼框架,该框架散成为了先辈的并止战略、静态事情背载均衡战内乱存劣化。上面具体介绍一下此中的中心手艺立异:


    并止体制:该团队 TP(弛质并止)/EP(大师并止)/CP(高低文并止)取完整分片数据并止(FSDP)相分离,用于锻炼 Seed-Thinking-v1.5。具体而行,他们将 TP/CP 使用于留神力层,将 EP 使用于 MoE 层。

    序列少度均衡:有用序列少度可以正在差别的 DP 品级上不服衡,进而招致计较背载不服衡战锻炼服从卑下。为了应付那一挑战,他们使用 KARP 算法从头陈设了一个 mini-batch 内乱的输出序列,使它们正在 mini-batch 之间连结均衡。

    内乱存劣化:他们接纳逐层从头计较、激活卸载战劣化器卸载去撑持更年夜 micro-batch 的锻炼,以笼盖 FSDP构成 的通信开销。

    主动并止:为了完毕最好体系功用,他们开辟了一个主动微调体系,称为 AutoTuner。具体来讲,AutoTuner 可根据鉴于设置文献的处置计划对于内乱存使用情况截至修模。而后,它会预算各类设置的功用战内乱存使用情况,以得到最好设置。

    查抄面:为了以最小的开销从差别的散布式设置规复查抄面,该团队使用了 ByteCheckpoint。那能让用户弹性天锻炼任务以进步散群服从。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )