职贝云数AI新零售门户

标题: DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点! [打印本页]

作者: jGuGBg    时间: 3 小时前
标题: DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点!
继谷歌发布Gemini 3系列再次引爆AI圈后,11月27日晚间,DeepSeek又放出了一个“王炸”!

悄然开源了一个新模型——DeepSeek Math-V2,斩获首个开源奥数金牌!


首个开源奥数金牌

该模型不只在国际数学奥林匹克竞赛(IMO2025(注:共6题,破解了5题)、中国数学奥林匹克(CMO)2024斩获双金牌

2024 Putnam118分接近120)的满分,远超2024年人类最高分90分!


且部分功能已表现出优于谷歌旗下的Gemini DeepThink(闭源范畴冠军)的表现。

比如,在Basic基准测试中,DeepSeek-Math-V2得分接近99%,分明高于Gemini Deep Think (IMO Gold)的89%。

(, 下载次数: 0)

往年7月,谷歌Gemini Deep Think,在4.5小时内解出6题中的5题,以总分35分的成绩,经过达到了IMO金牌标准。


但在开源范畴,这属于第一次!

且与谷歌等闭源模型相比,作为开源模型,DeepSeekMath-V2真正的意义在于,背后技术途径与思绪。


重要打破:学会“自我验证+闭环纠错”

重点来了,DeepSeek Math-V2这次不只碾压了人类顶尖选手,它还能“自我验证+闭环纠错”。

详细的特点:

1、准确率高:答案正确率超过 GPT-5 与 Gemini 系列的闭源模型。

2、推理严谨:每一步逻辑都能自检,避免跳步或幻觉;

3、自我改进才能强:能在多轮验证中不断提升证明质量;

4、解释性好:输入不只要结论,还有残缺推理过程。




这不只是技术打破,更是AI推理逻辑的质变!




DeepSeek在DeepSeek Math-V2:迈向可自验证的数学推理》的论文中也表示:

大言语模型曾经在数学推理方面获得了分明停顿,该范畴作为人工智能的重要实验场,假如进一步推进,能够会对迷信研讨产生深远影响


(, 下载次数: 0)


DeepSeek指出当前AI推理痛点

论文提出,当前AI在数学推理方面,都是经过强化学习(奖励正确的最终答案)来扩展推理才能

但是,这种方法面临根本性局限正确答案并不能保证推理过程正确。

比如,在高等数学、定理证明范畴,需求的是逐渐推导而非数值答案,其核心价值在于论证过程的严密性与逻辑性,这使得基于最终答案的奖励机制不再适用。

DeepSeekMath-V2引入的“自我验证”框架,正是对这一根本应战的回应。

为完成可自我验证的数学推理,DeepSeek团队研讨了如何训练一个精准、牢靠的基于LLM的定理证明验证器。随后,团队运用该验证器作为奖励模型来训练证明生成器,并激励生成器在最终确定其证明前,尽能够多地辨认并处理本身证明中的成绩。

随着生成器才能加强,为维持生成与验证之间的差距,团队又提出经过扩展验证计算来自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。

简单来说,此次DeepSeek Math-V2就是将模型本来的结果导向转向了过程导向。

使得模型不依赖大量的正确答案投喂,而是像人类一样,教会了AI审查证明过程,使得AI在没有人类干涉的状况下,也能经过不断学习提升处理高难度数学题的才能。

最终得到了学会“自我反思”的——DeepSeek Math-V2

AI训练“重结果,轻过程”普遍存在

DeepSeek团队提到的成绩“重结果,轻过程”,不只是在数学推理范畴,也是当前AI训练范畴普遍存在的成绩。

最新的一篇来自UIUC、华盛顿大学等机构的重磅论文《推理的认知基础及其在大型言语模型中的表现》中,也指出了这一点。

当前AI迷信家们不断在奖励模型去模拟表面上的推理步骤,却忽略了那些更能决议义务成功的才能。

论文作者对arXiv 上的 1598 篇推实际文停止了元分析,结果显示:55%的研讨都在关注序列组织(由于它好量化),只要16%的论文关注自我看法,仅10%关注空间组织。


(, 下载次数: 0)


也导致当前AI模型看起来在思索,却缺乏真正处理成绩的才能

往年以来,强化学习之父 Richard Sutton 也曾多次发出正告:

现有的模型缺乏真正的强化学习(Real RL)和持续学习(Continuous Learning)机制,假如只是在静态数据集上预训练,无论数据量多大,永远无法达到真正的 AGI。

可以说,DeepSeek团队推出的DeepSeekMath-V2模型,至少成功打破了AI数学推理范畴“重答案、轻过程”的困局,也给当前AI发展带来新的思索和参考途径

不过,作为一款开源模型,研讨团队也称目前仍有改进空间,但结果表明可自我验证的数学推理是可行方向,有望推进更弱小的数学AI系统发展。

目前,该模型的代码与权重均已开源,发布在了HuggingFace及GitHub平台。

参考材料:

[1]https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

[2]DeepSeek上新!首个奥数金牌程度的模型来了

[3]GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

[4]DeepSeekMath-V2模型推出,可打破数学推理瓶颈

[5]17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读





注:卓乎是一家服务于高科技赛道的新媒体品牌,提供硬科技行业资讯和岗位招聘信息,欢迎咨询和简历投递:

|数字芯片芯片规划/生态类
|模拟与射频设计类芯片验证/质量/硬件/职能/中后端/汽车电子


|芯片软件/算法/测试/渠道营销 智能制造/力学/EDA设计/产研等


大模型/人工智能存算一体与系统架构


数字动力/新动力 存算一体 (1)

光通讯和服务器存储 大模型/算法(1)

网络/架构/营销销售类 大模型/算法 (2)








往期引荐:摩尔线程张建中:部分卡脖子范畴已打破,S80 显卡接近 RTX 3060






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5