职贝云数AI新零售门户

标题: DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型 [打印本页]

作者: jro 时间: 3 小时前
标题: DeepSeek再破谷歌OpenAI垄断:开源IMO数学金牌大模型
大模型智能｜分享来源 | 量子位作者 | henry
AI界掌管开源的神——DeepSeek回来了！

刚刚，DeepSeek开源了全新的数学模型DeepSeekMath-V2，专注于可自验证的数学推理。

DeepSeekMath-V2不只在IMO 2025和CMO 2024中获得金牌级分数，而且还在Putnam 2024中，得分118/120，超过了人类最高分90。

与此同时，DeepSeekMath-V2在一切CNML级别成绩类别（代数、几何、数论、组合学、不等式）上均优于GPT-5-Thinking-High和Gemini 2.5-Pro。

(, 下载次数: 0)

不只功能无敌，网友表示这还是第一个开源的IMO金牌模型。

(, 下载次数: 0)

这下，谷歌和OpenAI要坐不住了！

特别是OpenAI，本来就打算放出IMO金牌模型来应对谷歌Gemini 3 Pro的冲击，如今被DeepSeek抢先一步。

（鲸鱼回来了！）

值得一提是，这篇论文的一作邵智宏也是之前DeepSeekMath 7B的一作，在那篇论文中，他们提出了著名的GRPO。
01最强开源IMO金牌模型
总的来说，DeepSeekMath-V2是一个旨在完成自验证数学推理（Self-verification）的大型言语模型（685B）。

它的核心在于开发和应用弱小的证明验证才能来指点和优化证明生成，从而克制传统上依赖最终答案作为奖励的强化学习（RL）方法的局限性。

传统用于数学推理的强化学习（RL）方法存在根本性限制：

DeepSeekMath-V2采用迭代的强化学习循环，交替优化证明验证器和证明生成器，以完成可自验证的数学推理。
证明验证

训练验证器

研讨首先训练一个准确且忠实的LLM-based验证器，使其可以根据人类专家的标准辨认证明中的成绩并评分。

详细来说，验证器针对给定的数学成绩与证明，输入一个证明分析，该分析首先总结辨认出的成绩（假如有），然后基于三个级别分配一个分数：

1：完全正确、严谨且逻辑明晰的证明。0.5：总体逻辑合理，但有宏大错误或细节遗漏的证明。0：包含致命逻辑错误或关键破绽的根本性错误的证明。

验证器的训练分为数据构建（冷启动）和模型强化学习目的两个关键阶段。

在数据构建阶段，研讨首先从AoPS竞赛中搜集了1.75万个要求证明的奥赛级别数学成绩。

随后，应用现有模型（DeepSeek-V3.2-Exp-Thinking）生成大量的候选证明，并经过多轮迭代来提升证明的严谨性，最终请数学专家人工对这些证明停止评分，分数分为1、0.5和0三个级别，从而创建了初始的RL验证数据集。

进入强化学习目的阶段，研讨运用上述数据集对基础模型（DeepSeek-V3.2-Exp-SFT）停止训练，使其可以输入证明分析总结和最终分数。

奖励函数一方面经过格式奖励强迫模型输入格式包含成绩总结和分数，另一方面经过分数奖励激励模型预测的分数与专家标注的分数高度分歧，从而使验证用具有模拟人类专家评价严谨性的才能。

(, 下载次数: 0)

引入元验证 (Meta-Verification)

为处理初步训练的验证器能够因幻觉（hallucinating）不存在的成绩而获得正确低分，从而损害其对错误辨认的忠实性（faithfulness）的成绩，研讨团队引入了元验证（Meta-Verification）机制。

元验证作为一个二级评价过程，旨在审查验证器生成的证明分析（Proof Analysis），评价其中辨认出的成绩能否真实存在，以及这些成绩能否在逻辑上合理地支持了其预测的证明分数。

为了训练元验证器，研讨首先让数学专家根据专门的元验证标准对验证器输入的分析质量停止评分，创建了元验证数据集。

随后，研讨训练了一个专门的元验证器，该元验证器生成对验证分析本身的成绩总结，并分配一个质量分数，以衡量原验证器分析的准确性和合感性。

元验证器的强化学习目的结构与验证器训练相似，异样包含格式奖励和分数奖励。

接上去是加强验证器训练，研讨应用训练好的元验证器，将元验证的质量分数集成到验证器的奖励函数中，以加强验证器的忠实性。

(, 下载次数: 0)

最终，运用原验证数据集和元验证数据集共同训练加强后的验证器，使该模型可以同时执行证明验证和元验证两项义务。

在原验证数据集的一个验证子集上，阅历证器评价的证明分析的平均质量分数从 0.85 提升到了0.96，同时保持了证明分数预测的准确性不变，有力证明了元验证机制能有效提高验证器辨认成绩的忠实度。
证明生成

接上去，研讨用训练好的验证器作为奖励模型来训练证明生成器，并进一步经过“自验证”机制，让生成器学会严厉地自我审查和修正，从而提高证明质量。

详细来说，研讨训练生成器以最大化验证器赋给其生成的证明的分数。

在训练中，生成器被要求在生成证明后，紧跟着停止自我分析。奖励函数激励准确的自我评价和正确性。

最终奖励是对证明质量和自我评价质量的加权组合。

由此，自我评价奖励不只奖励自评分的准确性，还奖励自我分析的忠实性。

这种奖励结构激励生成器：忠实地承认错误（而非自觉自信）。获得高奖励的最佳策略是在最终输入前，积极辨认并处理本身证明中存在的成绩，从而完成自我迭代完善。
证明验证与生成之间的协同作用

接上去，研讨应用验证器和生成器的协同作用，经过规模化的计算和元验证机制，建立了一个完全自动化的数据标注流程，从而持续提升验证器的才能，并最终取代耗时的人工标注。

但是，随着成绩难度添加，人工标注耗时且效率低下。由此研讨提出了一套自动化标注的方法：

首先，经过生成n个独立的验证分析，提高在有缺陷证明中捕获真实成绩的概率。接上去，应用元验证器生成m个评价，对报告成绩的分析停止有效性确认，确保辨认出的成绩是真实的（元验证比从零辨认成绩更高效）。

详细的标注流程如下：

由此，上述流程在最终的训练迭代中彻底取代了耗时的人力标注，完成了验证和生成的协同循环，保证了模型才能的持续打破。
02实验结果
研讨采用GRPO停止强化学习，迭代地优化证明验证和生成才能。

在每次迭代中，研讨首先优化证明验证。然后，证明生成器会从验证器的checkpoint初始化，并针对证明生成停止优化。

从第二次迭代末尾，证明验证器会运用一个检查点停止初始化，该检查点经过回绝微调（rejection fine-tuning）巩固了前一次迭代中的验证和生成才能。

研讨首先评价了模型未经迭代完善的单次生成正确证明的才能。

实验结果表明，在一切CNML级别成绩类别中——包括代数、几何、数论、组合学和不等式——DeepSeekMath-V2 持续优于 GPT-5-Thinking-High和Gemini 2.5-Pro。

(, 下载次数: 0)

为了探求扩展上下文和自验证如何提高证明质量，研讨又评价了带有自验证的顺序精炼方法。
(, 下载次数: 0)

研讨表明，自选的最佳证明比线程平均得分获得了分明更高的验证分数，这证明生成用具有准确评价证明质量的才能。

此外，随着最大顺序尝试次数的添加，Pass@1大幅提升，表明自验证有效地指点了迭代改进。

这些结果表明，生成器可以牢靠地区分高质量和有缺陷的证明，并应用这种自我看法系统地改进其数学推理。

最后，为了处理最具有应战性的成绩，研讨采用了高计算量搜索策略，该策略经过并行生成探求多样化的证明途径，并结合规模化的（64 次）验证来准确辨认纤细错误。

模型迭代地从包含成绩分析的候选证明池中精炼出最优证明，直到证明经过一切验证。

最终，这种方法使其在Putnam竞赛中以118/120的分数超越人类最高分90分，展现了在验证器指点下，AI处理复杂成绩的弱小才能。

(, 下载次数: 0)
03One more thing
如扫尾所说，这篇论文的一作邵智宏也是DeepSeek之前数学模型DeepSeekMath 7B的一作。

(, 下载次数: 0)

值得一提的是，也就是在DeepSeekMath 7B的论文中，他和团队提出了经典的GRPO（Group Relative Policy Optimization ）。异样的，他也是DeepSeek-R1的核心贡献者。

(, 下载次数: 0)

邵智宏目前是DeepSeek从事大模型推理研讨的研讨员，他本科毕业于北京航空航天大学，博士毕业于清华，师从黄民烈教授。

参考链接

[1] https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

[2]https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

[3]https://zhihongshao.github.io/

(, 下载次数: 0)

技术交流群约请函

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)
△长按添加小助手
扫描二维码添加小助手微信
请备注：姓名-学校/公司-研讨方向-城市（如：小夏-浙大-大模型-杭州）即可央求加入深度学习/机器学习等技术交流群—完—为您引荐
《跨言语大模型》最新综述

深度学习范畴，你心目中 idea 最冷艳的论文是哪篇？

思索丨到底什么叫算法工程师的落地才能？
Transformer模型有多少种变体？看看这篇片面综述
从SGD到NadaMax，十种优化算法原理及完成各种留意力机制的PyTorch完成

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)