职贝云数AI新零售门户
标题:
DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点!
[打印本页]
作者:
jGuGBg
时间:
3 小时前
标题:
DeepSeek又放出一个“王炸”,锋芒直指AI推理痛点!
继谷歌发布
Gemini 3系列再次引爆AI圈后,11月27日晚间,DeepSeek又放出了一个“王炸”!
悄然开源了一个新模型
——DeepSeek Math-V2,斩获首个开源奥数金牌!
首个开源奥数金牌
该模型不只在国际数学奥林匹克竞赛(
IMO
)
2025
(注:共
6题,破解了5题)、
中国数学奥林匹克(
CMO)2024斩获双金牌
。
在
2024
Putnam
还
考
了
118分接近
(
120)的
满分
,远超
2024年人类最高分90分!
且部分功能已表现出优于谷歌旗下的Gemini DeepThink(闭源范畴冠军)的表现。
比如,在
Basic基准测试中,DeepSeek-Math-V2得分接近99%,分明高于Gemini Deep Think (IMO Gold)的89%。
(, 下载次数: 0)
上传
点击文件名下载附件
往年
7月,谷歌Gemini Deep Think,在4.5小时内解出6题中的5题,以总分35分的成绩,经过达到了IMO金牌标准。
但在开源范畴,这属于第一次!
且与谷歌等闭源模型相比,作为开源模型,
DeepSeekMath-V2真正的意义在于,
背后技术途径与思绪。
重要打破:学会“自我验证+闭环纠错”
重点来了,
DeepSeek Math-V2这次不只碾压了人类顶尖选手,它还能“自我验证+闭环纠错”。
详细的特点:
1、准确率高:答案正确率超过 GPT-5 与 Gemini 系列的闭源模型。
2、推理严谨:每一步逻辑都能自检,避免跳步或幻觉;
3、自我改进才能强:能在多轮验证中不断提升证明质量;
4、
解释性好:输入不只要结论,还有残缺推理过程。
这不只是技术打破,更是
AI推理逻辑的质变!
DeepSeek在
其
《
DeepSeek Math-V2:迈向可自验证的数学推理》的论文中也
表示:
大言语模型曾经在数学推理方面获得了分明停顿,该范畴作为人工智能的重要实验场,假如进一步推进,能够会对迷信研讨产生深远影响
!
(, 下载次数: 0)
上传
点击文件名下载附件
DeepSeek指出当前AI推理痛点
论文提出,当前
AI在数学推理方面
,都是
经过强化学习(奖励正确的最终答案)来扩展推理才能
。
但是,这种方法面临根本性局限
,
正确答案并不能保证推理过程正确。
比如,在高等数学、
定理证明范畴,需求
的是
逐渐推导而非数值答案,其核心价值在于论证过程的严密性与逻辑性,这使得基于最终答案的奖励机制不再适用。
DeepSeekMath-V2引入的“自我验证”框架,正是对这一根本应战的回应。
为完成可自我验证的数学推理,
DeepSeek团队研讨了如何训练一个精准、牢靠的基于LLM的定理证明验证器。随后,
团队
运用该验证器作为奖励模型来训练证明生成器,并激励生成器在最终确定其证明前,尽能够多地辨认并处理本身证明中的成绩。
随着生成器才能加强,为维持生成与验证之间的差距,
团队又
提出经过扩展验证计算来自动标记新的难以验证的证明,从而创建训练数据以进一步改进验证器。
简单来说,
此次
DeepSeek Math-V2
就是将模型
从
本来的
结果导向转向了过程导向。
这
使得
模型不
再
依赖
于
大量的
正确
答案
投喂
,而是
像人类一样,教会了
AI审查证明过程,
使得
AI
在没有人类干涉的状况下,也能
经过
不断
学习
提升处理高难度数学题的才能。
最终得到
了学会
“自我反思”的——
DeepSeek Math-V2
。
AI训练“重结果,轻过程”普遍存在
DeepSeek团队提到的成绩“重结果,轻过程”,不只是在数学推理范畴,也是当前AI训练范畴普遍存在的成绩。
最新的一篇
来自
UIUC、华盛顿大学等机构的重磅论文《推理的认知基础及其在大型言语模型中的表现》
中,也指出了这一点。
当前
AI迷信家们不断在奖励模型去模拟表面上的推理步骤,却忽略了那些更能决议义务成功的才能。
论文作者对
arXiv 上的 1598 篇推实际文停止了元分析,结果显示:55%的研讨都在关注序列组织(由于它好量化),只要16%的论文关注自我看法,仅10%关注空间组织。
(, 下载次数: 0)
上传
点击文件名下载附件
也导致当前
AI
模型
看起来在思索,却缺乏真正处理成绩
的才能
。
往年以来,强化学习之父
Richard Sutton
也曾
多次发出正告:
现有的模型缺乏真正的强化学习(
Real RL)和持续学习(Continuous Learning)机制,假如只是在静态数据集上预训练,无论数据量多大,永远无法达到真正的 AGI。
可以说,
DeepSeek团队推出的DeepSeekMath-V2模型,
至少成功
打破了
在
AI数学推理
范畴
“重答案、轻
过程
”的困局
,也给当前
AI
发展带来新的思索和参考途径
。
不过,作为一款开源模型,
研讨团队
也称
,
目前
仍有改进空间,但结果表明可自我验证的数学推理是可行方向,有望推进更弱小的
数学
AI系统发展。
目前,该模型的代码与权重均已开源,发布在了
HuggingFace及GitHub平台。
参考材料:
[1
]https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
[2
]
DeepSeek上新!首个奥数金牌程度的模型来了
[3
]
GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
[4
]
DeepSeekMath-V2模型推出,可打破数学推理瓶颈
[5
]
17万条推理轨迹扒出AI推理的真相:有劲儿,但用错了地方|哈佛新论文解读
注:卓乎是一家服务于高科技赛道的新媒体品牌,提供硬科技行业资讯和岗位招聘信息,欢迎咨询和简历投递:
|
数字芯片芯片规划/生态类
|模拟与射频设计类
芯片验证/质量/硬件/职能/中后端/汽车电子
|芯片软件/算法/测试/渠道营销 智能制造/力学/EDA设计/产研等
大模型/人工智能存算一体与系统架构
数字动力/新动力 存算一体 (1)
光通讯和服务器存储 大模型/算法(1)
网络/架构/营销销售类 大模型/算法 (2)
往期引荐:
摩尔线程张建中:部分卡脖子范畴已打破,S80 显卡接近 RTX 3060
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5