职贝云数AI新零售门户
标题:
【产业资讯】DeepSeek 开源 IMO 金牌模型,破局谷歌 OpenAI 垄断
[打印本页]
作者:
DDeEB0
时间:
11 小时前
标题:
【产业资讯】DeepSeek 开源 IMO 金牌模型,破局谷歌 OpenAI 垄断
DeepSeek最新发布的开源数学模型,正将其推向与OpenAI和谷歌等科技巨头同场竞技的舞台DeepSeekMath-V2的模型,在被誉为全球最难的高中数学竞赛中达到了金牌程度,成为首个完成这一成就的开源模型,标志着开源人工智能在复杂推理才能上的一次严重打破。
昨日DeepSeek宣布推出其最新的数学推理模型DeepSeekMath-V2,该模型在模拟的2025年国际数学奥林匹克竞赛(IMO)中处理了6个成绩中的5个,达到了金牌程度。
这一成就使其成为第一个在IMO级别竞赛中获得金牌的开源模型,引发了AI研讨和开发者社区的高度关注。
这一表现直接对标了行业巨头。就在往年7月,谷歌DeepMind的Gemini高级版本和一个来自OpenAI的实验性推理模型也达到了IMO 2025的金牌标准,异样处理了5个成绩,它们是首批达到该程度的人工智能模型。
但是,与谷歌和OpenAI的闭源实验模型不同,DeepSeekMath-V2的模型权重根据Apache 2.0答应证公开发布,可供公众下载。
值得一提的是,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其义务是评价证明过程的质量,而不是最终答案的对错。
而且为了防止模型过度拟合其本身的检查机制,DeepSeek经过添加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步退化。
此举被视为人工智能民主化的重要一步。该模型的发布不只证明了开源社区有才能在尖端AI研讨范畴追逐甚至比肩顶级闭源实验室,也能够再次引发了市场对于开源模型能否会腐蚀闭源产品商业护城河的讨论——这一话题曾一度动摇投资者对英伟达等AI巨头的决计。
跻身顶尖行列:与OpenAI和谷歌同台竞技
DeepSeekMath-V2的杰出表现,标志着其在复杂的数学推理范畴,与全球抢先的AI实验室站在了同一同跑线上。国际数学奥林匹克竞赛(IMO)通常被以为是全球难度最高的高中生数学竞赛,在2025年的竞赛中,630名人类参赛者中仅有72人获得金牌。
除了在IMO 2025获得的成就,该模型还在其他高难度数学竞赛中展现了顶级程度。据DeepSeek称,它在中国最顶尖的全国性竞赛——中国数学奥林匹克(CMO)中也达到了金牌程度。
在面向大学本科生的普特南数学竞赛(Putnam 2024)中,该模型在12道题中完全处理了11道,另一道题也仅有宏大错误,最终得分118/120,超过了人类参赛者90分的最高分记录。
(, 下载次数: 0)
上传
点击文件名下载附件
开源的里程碑:社区盛赞“了不起的发布”
与谷歌和OpenAI尚未公开的实验模型相比,DeepSeekMath-V2的核心吸引力在于其彻底的开放性。该模型的权重已在开源社区Hugging Face上发布,允许研讨人员和开发者自在下载。
Hugging Face的结合创始人兼首席执行官Clement Delangue在社交平台X上盛赞道:“想象一下,你可以收费拥有世界上最优秀数学家之一的大脑。”
他补充说,“据我所知,此前没有任何聊天机器人或API能让你接触到一个IMO 2025金牌程度的模型。”他强调,用户可以不受限制地探求、微调、优化模型,并运转在本人的硬件上,“没有任何公司或政府可以发出它。这是人工智能和知识民主化的最佳表现。”
(, 下载次数: 0)
上传
点击文件名下载附件
另一位网友elie也评论称:“DeepSeek Math V2是第一个在IMO上达到金牌程度的开源模型吗?而且我们还得到了技术报告,这真是一次了不起的发布。”
(, 下载次数: 0)
上传
点击文件名下载附件
还有网友评论称,他们喜欢 5-7 个想法,每个想法都相对简单,不断堆叠,结果出人预料地越来越好,看起来更像工程而不是研讨。
(, 下载次数: 0)
上传
点击文件名下载附件
(, 下载次数: 0)
上传
点击文件名下载附件
自我验证框架:超越答案,关注推理过程
DeepSeek在技术报告中指出,近期的人工智能模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程。报告写道:“许多像定理证明这样的数学义务,需求严谨的逐渐推导,而非仅仅一个数值答案。”
为了处理这一成绩,DeepSeekMath-V2采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的“验证器”(verifier),其义务是评价证明过程的质量,而不是最终答案的对错。随后,这个验证器被用作奖励模型,来引导一个独立的“证明生成器”(proof-generator)。只要当生成器成功辨认并修复本身证明中的错误时,它才会获得奖励。
这种机制激励模型在最终确定答案之前,尽能够多地发现和处理本身推理链条中的成绩。DeepSeek强调,“对于没有已知处理方案的开放性成绩,自我验证在扩展测试时计算(test-time compute)方面尤为重要。”测试时计算指的是在推理阶段分配大量计算资源,让模型有更长工夫停止推理、探求多种处理方案并完善答案。
(, 下载次数: 0)
上传
点击文件名下载附件
动态退化系统:破解“自我过度拟合”难题
为了防止模型过度拟合其本身的检查机制——即只学会诈骗本人的验证器——DeepSeek采用了一种动态退化的策略。该团队经过添加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步退化。
DeepSeek在技术文件中解释,这种方法允许他们“扩展验证计算,以自动标记新的、难以验证的证明,从而创造新的训练数据来进一步改进验证器。”经过这种验证-生成闭环和元验证机制,模型可以完成全自动化的数据标注和持续的功能优化,验证了自驱动学习系统在处理复杂数学推理义务上的可行性。
来源:华尔街见闻
(, 下载次数: 0)
上传
点击文件名下载附件
市场合作
联络人 | 王亚平联络电话 | 15950538675
联络我们
序号
担任内容
担任人及手机号
01
产品推行&活动
王亚平15950538675
02
企业出海
03
场景合作&推行
尚嘉俊13709577554
04
机器人合作&表演
非诚勿扰,请根据实践需求咨询相关工作人员
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5