职贝云数AI新零售门户

标题: DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点! [打印本页]

作者: jGuGBg 时间: 3 小时前
标题: DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点!
继谷歌发布Gemini 3系列再次引爆AI圈后，11月27日晚间，DeepSeek又放出了一个“王炸”！

悄然开源了一个新模型——DeepSeek Math-V2，斩获首个开源奥数金牌！

首个开源奥数金牌

该模型不只在国际数学奥林匹克竞赛（IMO）2025（注：共6题，破解了5题）、中国数学奥林匹克（CMO）2024斩获双金牌。

在2024 Putnam还考了118分接近（120）的满分，远超2024年人类最高分90分！

且部分功能已表现出优于谷歌旗下的Gemini DeepThink（闭源范畴冠军）的表现。

比如，在Basic基准测试中，DeepSeek-Math-V2得分接近99%，分明高于Gemini Deep Think (IMO Gold)的89%。

(, 下载次数: 0)

往年7月，谷歌Gemini Deep Think，在4.5小时内解出6题中的5题，以总分35分的成绩，经过达到了IMO金牌标准。

但在开源范畴，这属于第一次！

且与谷歌等闭源模型相比，作为开源模型，DeepSeekMath-V2真正的意义在于，背后技术途径与思绪。

重要打破：学会“自我验证+闭环纠错”

重点来了，DeepSeek Math-V2这次不只碾压了人类顶尖选手，它还能“自我验证+闭环纠错”。

详细的特点：

1、准确率高：答案正确率超过 GPT-5 与 Gemini 系列的闭源模型。

2、推理严谨：每一步逻辑都能自检，避免跳步或幻觉；

3、自我改进才能强：能在多轮验证中不断提升证明质量；

4、解释性好：输入不只要结论，还有残缺推理过程。

这不只是技术打破，更是AI推理逻辑的质变！

DeepSeek在其《DeepSeek Math-V2：迈向可自验证的数学推理》的论文中也表示：

大言语模型曾经在数学推理方面获得了分明停顿，该范畴作为人工智能的重要实验场，假如进一步推进，能够会对迷信研讨产生深远影响！

(, 下载次数: 0)

DeepSeek指出当前AI推理痛点

论文提出，当前AI在数学推理方面，都是经过强化学习（奖励正确的最终答案）来扩展推理才能。

但是，这种方法面临根本性局限，正确答案并不能保证推理过程正确。

比如，在高等数学、定理证明范畴，需求的是逐渐推导而非数值答案，其核心价值在于论证过程的严密性与逻辑性，这使得基于最终答案的奖励机制不再适用。

DeepSeekMath-V2引入的“自我验证”框架，正是对这一根本应战的回应。

为完成可自我验证的数学推理，DeepSeek团队研讨了如何训练一个精准、牢靠的基于LLM的定理证明验证器。随后，团队运用该验证器作为奖励模型来训练证明生成器，并激励生成器在最终确定其证明前，尽能够多地辨认并处理本身证明中的成绩。

随着生成器才能加强，为维持生成与验证之间的差距，团队又提出经过扩展验证计算来自动标记新的难以验证的证明，从而创建训练数据以进一步改进验证器。

简单来说，此次DeepSeek Math-V2就是将模型从本来的结果导向转向了过程导向。

这使得模型不再依赖于大量的正确答案投喂，而是像人类一样，教会了AI审查证明过程，使得AI在没有人类干涉的状况下，也能经过不断学习提升处理高难度数学题的才能。

最终得到了学会“自我反思”的——DeepSeek Math-V2。

AI训练“重结果，轻过程”普遍存在

DeepSeek团队提到的成绩“重结果，轻过程”，不只是在数学推理范畴，也是当前AI训练范畴普遍存在的成绩。

最新的一篇来自UIUC、华盛顿大学等机构的重磅论文《推理的认知基础及其在大型言语模型中的表现》中，也指出了这一点。

当前AI迷信家们不断在奖励模型去模拟表面上的推理步骤，却忽略了那些更能决议义务成功的才能。

论文作者对arXiv 上的 1598 篇推实际文停止了元分析，结果显示：55%的研讨都在关注序列组织（由于它好量化），只要16%的论文关注自我看法，仅10%关注空间组织。

(, 下载次数: 0)

也导致当前AI模型看起来在思索，却缺乏真正处理成绩的才能。

往年以来，强化学习之父 Richard Sutton 也曾多次发出正告：

现有的模型缺乏真正的强化学习（Real RL）和持续学习（Continuous Learning）机制，假如只是在静态数据集上预训练，无论数据量多大，永远无法达到真正的 AGI。

可以说，DeepSeek团队推出的DeepSeekMath-V2模型，至少成功打破了在AI数学推理范畴“重答案、轻过程”的困局，也给当前AI发展带来新的思索和参考途径。

不过，作为一款开源模型，研讨团队也称，目前仍有改进空间，但结果表明可自我验证的数学推理是可行方向，有望推进更弱小的数学AI系统发展。

目前，该模型的代码与权重均已开源，发布在了HuggingFace及GitHub平台。

参考材料：

[1]https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

[2]DeepSeek上新！首个奥数金牌程度的模型来了

[3]GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

[4]DeepSeekMath-V2模型推出，可打破数学推理瓶颈

[5]17万条推理轨迹扒出AI推理的真相：有劲儿，但用错了地方｜哈佛新论文解读

注：卓乎是一家服务于高科技赛道的新媒体品牌，提供硬科技行业资讯和岗位招聘信息，欢迎咨询和简历投递：

|数字芯片芯片规划/生态类
|模拟与射频设计类芯片验证/质量/硬件/职能/中后端/汽车电子

|芯片软件/算法/测试/渠道营销智能制造/力学/EDA设计/产研等

大模型/人工智能存算一体与系统架构

数字动力/新动力存算一体 (1)

光通讯和服务器存储大模型/算法（1）

网络/架构/营销销售类大模型/算法 (2)

往期引荐：摩尔线程张建中：部分卡脖子范畴已打破，S80 显卡接近 RTX 3060

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)