职贝云数AI新零售门户

标题: DeepSeek-Math-V2深度拆解:开源IMO金牌模型的自验证秘诀 [打印本页]

作者: bNu6V5zl    时间: 前天 13:47
标题: DeepSeek-Math-V2深度拆解:开源IMO金牌模型的自验证秘诀
智元宇宙是一家努力于普及AIGC技术与运用的新媒体平台。我们为您提供最新的AIGC行业资讯,精选优质企业运用案例和适用方法,旨在协助企业和个人迅速掌握人工智能运用技巧。我们的愿景是让人工智能成为普惠企业和个人的基础设备,完成无处不在的智能化服务。

DeepSeek悄然在Hugging Face上发布了新模型DeepSeek-Math-V2。间隔上一代7B参数量的模型曾经过去一年半,这次直接放大招,不只拿下IMO 2025金牌,还是首款开源的IMO金牌模型,硬刚谷歌、OpenAI不在话下。

(, 下载次数: 0)

先划重点:这模型到底牛在哪?

最亮眼的当然是成绩单:IMO 2025里6题破解5题,稳拿金牌;CMO 2024也达到金牌程度;Putnam 2024更是考了118分,接近120分满分,直接超过人类参赛者的最高分90分。这成绩放在以前,谁能想到是开源模型能做到的?

(, 下载次数: 0)

戳破行业痛点:只看答案的AI都是“大忽悠”

其实以前训练AI做数学题,思绪很简单:答案对了就给奖励,错了就罚。这种玩法对付AIME、HMMT这类有明白数值答案的竞赛还行,甚至能做到成绩饱和。

但一碰到IMO这种级别的难题,就彻底露馅了。IMO考的不是最后一个数字,是一整套逻辑严丝合缝的证明。

以前的AI常常搞“虚晃一枪”,堆砌一堆看着很专业的数学黑话,最后强行凑个结论,结果过程全是破绽。

DeepSeek团队早就看透了这点:正确答案不代表推理过程没成绩,尤其是定理证明这类义务,过程严谨性比结果重要多了。

更关键的是,面对没有已知解的开放性成绩,只看结果的评判方式根本没用。所以这次V2模型,核心就是处理“会做还会查”的成绩。

(, 下载次数: 0)

杀手锏:AI大脑里的“三人协作小队”

为了完成“自我验证”,DeepSeek搞了个特别巧妙的设计,相当于在AI脑子里塞了三个角色,用“做题家(Generator)-阅卷教师(Verifier)-督导(Meta-Verifier)”的组合,把推理和验证玩出了新花样。

第一个角色是“做题家”,也就是证明生成器。它不光要解题写证明,最特别的是得加一段“自我评价”。

比如做完题要诚实交代“这步我没把握,能够错了”,要是做错了还硬说本人对,或者想蒙混过关,就拿不到奖励;反之,就算做错了但照实承认,还能有奖励。

这么一来,“做题家”就被迫在输入前多揣摩几遍,尽量本人找出错误。

第二个是“阅卷教师”,也就是证明验证器。这货不看答案对不对,专门盯着证明过程挑刺,像学校里的阅卷教师一样打分:1分是逻辑严密完美,0.5分是大体对但有小瑕疵,0分就是有致命逻辑错误。打分前还得写“评语”,明白指出哪里好、哪里有成绩,比真教师还担任。

第三个是“督导”,也就是元验证器。这步可谓点睛之笔——毕竟“阅卷教师”也能够犯糊涂,比如乱扣分、指出不存在的错误。

“督导”就专门查“阅卷教师”的评语,确认指出的成绩是不是真的存在,扣分逻辑合不合理。这么一折腾,AI评价证明的准确度从0.85提到了0.96,靠谱多了。

闭环退化:本人出题本人改,越练越狠

光有三个角色还不够,DeepSeek还设计了一套自动化闭环,让系统能“左右互搏”自我晋级。毕竟人类专家没法给成千上万道奥数题写详细评分,自动化才是霸道。

流程其实很简单:先让“做题家”对同一道题生成很多种解法,然后让“阅卷教师”集体投票评价。多数“阅卷教师”以为有成绩,就断定为错题;没发现任何破绽,才算是正确解法。

更绝的是“以战养战”:系统会自动挑选出那些难判卷、难答对的标题,当成新教材去训练“做题家”和“阅卷教师”。

随着“做题家”程度提升,出的题越来越刁钻,“阅卷教师”的目光也会越来越毒辣,构成良性循环。

到了最后两轮训练,这套流程曾经完全替代人工标注,而且自动生成的标签和人类专家判别高度分歧。

正面硬刚谷歌:是碾压还是追逐?

在IMO金牌这个level,DeepSeek可不是孤军奋战,谷歌的Gemini Deep Think也是微弱对手。两者对比上去,还挺有看头。

谷歌就像家底丰厚的贵族,在IMO-ProofBench Advanced这种更难的测试集上还保持抢先。

(, 下载次数: 0)

但DeepSeek这个“后起之秀”也不逞强,在ProofBench Basic基础测试集上直接碾压Gemini Deep Think,公开竞赛标题里更是展现出统治力。

更关键的是,DeepSeek把技术途径开源了,还详细披露了训练方法。要知道谷歌、OpenAI的同类模型都藏着掖着,DeepSeek这波操作,相当于给全世界AI研讨者指了条明路:通往更高级AI,自验证能够比堆算力更重要。

两个反直觉亮点:实力藏不住了

除了金牌和开源,模型还有两个细节特别圈粉,完全打破了不少人的固有认知。

第一个是“一次做对”的才能超强。就算不让模型反复思索验证,只看“第不断觉”的One-Shot才能,它也能吊打GPT-5-Thinking-High和Gemini 2.5-Pro。

在对标中国高中数学联赛的CNML测试集上,不管是代数、几何,还是数论、组合,DeepSeek-Math-V2都稳稳占据第一梯队,几何得分几乎是Gemini 2.5-Pro的三倍。

第二个是“多想几次真的会更好”。面对IMO候选题这种难题,模型第一次迭代的平均得分只要0.15,允许8次自我修正后,分数飙升到0.27;假如从32个解法里挑最优的,得分直接冲到0.42。

这阐明模型不只能改错,还特别有自知之明,知道本人哪个答案最好。

Putnam近满分的机密:高算力的“千锤百炼”

能够有人会问,Putnam 118分这么夸张,是不是运气好?还真不是,背后是“高算力搜索”的暴力美学。

DeepSeek团队用了一套极端严苛的测试策略:每道题先生成64个候选证明,再给每个证明做64次独立验证分析,只要经过一切64次验证的证明,才被以为“完全可信”。

就靠这种千锤百炼的方式,模型才在各大竞赛里交出封神答卷。

更重要的是,这证明了一个关键假设:LLM是可以被训练成牢靠的数学验证者的。对于没做出来的题,模型能准确找出破绽;做出来的题,也能经得起反复琢磨,这才是真正的“靠谱”。

这波打破的意义在哪?

DeepSeek-Math-V2的核心,其实是从“结果导向”转向“过程导向”。它不再依赖海量答案数据,而是教会AI像数学家一样严谨审查过程,包括审查本人。这种自验证框架,不只打破了传统强化学习的限制,还大幅减少了大模型幻觉。

虽然DeepSeek本人也说还有很多工作要做,但这曾经证明“可自我验证的数学推理”是条可行的路。对于整个行业来说,这不只是一个优秀的数学模型,更揭示了通往更高级AI的必经之路——学会自我反思。将来AI在科研、工程等需求严谨推理的范畴,或许会有更多惊喜。

模型链接:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
论文链接:https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

- END -

智元易成科技有限公司专注于先进人工智能底层技术和专业运用开发,现已推出面向企业专属的AIGC运用平台——智元3.0,独有的企业级架构、自主可控的BrainByte AI大模型底座、无监督学习技术、低成本微调技术和各类企业级强运用。

👇点击关注“智元宇宙”,AIGC就在你身边




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5