职贝云数AI新零售门户

标题: DeepSeek最新发布再放大招,DeepSeekMath-V2背后的认知 [打印本页]

作者: ty19    时间: 2 小时前
标题: DeepSeek最新发布再放大招,DeepSeekMath-V2背后的认知
DeepSeekMath-V2:当AI学会自我怀疑,数学竞赛金牌只是末尾

我们似乎曾经习气了AI在计算上的无所不能,但内心深处总有一个疑问:它真的懂数学吗?

还是只是一个更快的计算器?

过去,AI在数学范畴的表现,常常像一个自信的骗子,它能够经过暴力搜索或纯粹的运气,猜中正确答案,但推理过程却破绽百出。

这种形式在需求严谨证明的数学范畴,几乎是死路一条。

由于对于真正的数学,尤其是定理证明,答案正确不等于推理正确。过程的严谨性,才是灵魂所在。

传统依赖最终答案奖励的训练方法,无法教会AI这一点。

它只会鼓励模型不择手腕地得到那个数字,哪怕逻辑链条早已断裂。

就在最近DeepSeek团队发布的DeepSeekMath-V2,似乎彻底改变了这一切。

它不再满足于给出答案,而是学会了像人类数学家一样,审视、怀疑并修副本人的证明过程。

这不只仅是一次技术迭代,更像是一场AI思想方式的革命。

(, 下载次数: 0)

核心打破:从自信的骗子到严谨的数学家

DeepSeekMath-V2最有目共睹的地方,不是它又刷新了多少榜单,而是它采用了一种全新的方法论:自验证数学推理。

简单来说,它不再自觉自信,而是学会了自我怀疑。

生成器验证器双模型博弈

这个系统的核心,是一个精妙的生成器验证器双模型架构。

你可以把它想象成一个先生和一个极其严苛的教授之间的互动:

生成器(TheProofGenerator):扮演着先生的角色,它的义务是产出解题步骤和证明过程。

验证器(TheVerifier):扮演着教授的角色,它不关怀最终答案能否正确,而是逐行审查先生的证明,寻觅逻辑上的任何瑕疵、腾跃或不严谨之处。

这个过程构成了一个闭环:生成器提交证明,验证器停止严厉评审并打分(例如,1分代表严谨,0.5分代表思绪对但有瑕疵,0分代表存在致命错误)。

假如验证器不称心,生成器就必须根据反馈停止修正,直到证明过程无懈可击。

这就像我们上学时,把作业交给教师修改,再订正,直到完美为止。

这种机制,迫使AI从一个猜答案的机器,转变为一个构造论证的思想者。

永不满足的教师:动态才能差距的奥妙

这里有一个更巧妙的设计。

假如先生提高太快,超过了教师的程度怎样办?

系统就会得到自我纠错的才能。

为了处理这个成绩,DeepSeek团队引入了动态才能差距机制。

当生成器变得越来越强,能写出更复杂、更精妙的证明时,验证器也会随之退化。

系统会自动辨认出那些验证器难以判别的硬骨头样本,然后投入更多的计算资源(相当于让教授花更多工夫、查更多材料)去停止深度分析和标注。

这些被强化审阅过的数据,又会反过来用于训练,让验证器变得愈加火眼金睛。

这种生成器和验证器之间的协同退化,就像一场永不休止的军备竞赛。

验证器一直保持着对生成器的微弱优势,迫使后者不断打破自我,攀爬更高的逻辑高峰。

这正是DeepSeekMath-V2可以持续提高的动力源泉。

惊人的成绩单:AI如何碾压人类顶级数学竞赛

实际说得再好,终究要靠实力说话。

DeepSeekMath-V2的表如今各大顶级数学竞赛和基准测试中,只能用惊人来描画。

在被誉为数学世界杯的国际数学奥林匹克竞赛(IMO)2025年的测试中,它获得了金牌程度的成绩。

在中国数学奥林匹克(CMO)2024和美国最难的大先生数学竞赛普特南(Putnam)2024的测试中,它异样表现出色,尤其是在普特南竞赛中获得了近乎满分的118/120分。

(, 下载次数: 0)

要知道,这项竞赛的人类中位数分数常常接近于零。

这些成绩的获得,并非简单的单次运转,而是经过测试时计算扩展(scaledtest-timecompute)完成的,即让模型有更多工夫去思索、生成多种解法并停止自我验证,最终选出最优解。

这更接近人类顶尖高手处理难题时的形态。

在由GoogleDeepMind团队开发的定理证明基准测试IMO-ProofBench上,DeepSeekMath-V2的表现更是直接应战了此前的王者,GeminiDeepThink。

(, 下载次数: 0)

在基础证明集(ProofBench-Basic)上,DeepSeekMath-V2达到了惊人的99%准确率,超越了GeminiDeepThink的89%。

在更困难的高级证明集(ProofBench-Advanced)上,两者虽互有胜负(61.9%vs65.7%),但DeepSeekMath-V2曾经稳稳地站在了第一梯队,并将GPT-4o、Claude3.5Sonnet等通用模型远远甩在身后。

不只是刷分:为什么说这改变了游戏规则?

假如仅仅将DeepSeekMath-V2的成就看作是刷分才能的又一次提升,那就太小看它了。

它的出现,至少在两个层面上改变了AI范畴的游戏规则。

开源的力气:打破巨头垄断的神话

过去几年,一个普遍的看法是,只要像Google、OpenAI这样的巨头,仰仗其海量的计算资源和封闭的数据,才有能够在自动定理证明这样的前沿范畴获得打破。DeepSeekMath-V2的成功,以及其基于Apache2.0协议的完全开源,有力地打破了这一神话。

超越数学:一种全新的AI思想范式

生成器-验证器的架构,其意义远不止于数学。它为构建更牢靠、更具逻辑性的AI智能体(Agent)提供了一个全新的蓝图。这种先生成、再批判的形式,可以被广泛运用于:

代码生成:AI不只写代码,还能自我审查代码的逻辑破绽和潜在bug。

法律分析:AI在起草合同时,能自我检查条款能否存在矛盾或法律风险。

迷信研讨:AI在提出迷信假说后,能自我评价其与现有证据的逻辑分歧性。

我们正在从依赖人类反馈停止强化学习(RLHF)的时代,迈向一个依赖AI本身逻辑反馈停止学习(RLAIF)的新时代。

这标志着AI从一个听话的模拟者,末尾向一个独立的思索者转变。

如何征服这只数学猛兽?

DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建,可以经过HuggingFace的transformers库停止调用。但需求留意的是,这是一个拥有6850亿参数的庞然大物(虽然采用了MoE架构,每次推理激活的参数较少),对硬件要求极高,通常需求企业级的GPU集群才能流利运转。对于普通用户和研讨者来说,等待社区推出轻量化的量化版本能够是更理想的选择。

更重要的是,要发挥其最大威力,不能简单地停止一次性发问。最佳实际是采用一种智能体形式(Agent Mode)停止序贯优化:

1.生成初步证明:向模型提出成绩。

2.获取自我评价:模型在输入证明的同时,会给出一个自我评价分数。

3.循环优化:假如分数不完美,将带有成绩的证明连同反馈再次输入模型,并提示它:请根据你发现的成绩优化你的证明。

经过这种方式,你可以引导模型停止多次迭代,模拟其训练时的自我验证过程,从而获得远超单次发问的推理深度和准确性。

比奶茶更精彩的,是AI学会了思索

AI行业曾经很久没有出现真正让人眼前一亮、心跳加速的新事物了。我们看了太多的参数竞赛和功能刷榜,却很少看到思想方式的根本性变革。

DeepSeekMath-V2的出现它让我们看到,AI的发展途径并非只要更大、更快这一条路。

经过教会AI自我怀疑,我们或许能打开一扇更智能的大门。






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5