开启左侧

DeepSeek上新!首个奥数金牌程度的模型来了

[复制链接]
11月27日早,DeepSeek悄悄天正在Hugging Face 上启源了一个新模子:DeepSeek-Math-V2。那是一个数教圆里的模子,也是今朝止业尾个到达IMO(国内奥林匹克数教比赛)金牌水平且启源的模子。

正在共步公布的手艺论文中,DeepSeek暗示,Math-V2的部门功用劣于google旗下的Gemini DeepThink,并展示了模子正在IMO-ProofBench基准和短期数教比赛上的表示。

具体去瞅,正在此中的Basic基准上,DeepSeek-Math-V2 近胜其余模子,到达了远99%的下分,而排正在第两的google旗下Gemini Deep Think (IMO Gold)分数为89%。但是正在更易的 Advanced 子散上,Math-V2分数为61.9%,略逊于 Gemini Deep Think (IMO Gold)的65.7%。

正在那篇名为《DeepSeek Math-V2:迈背可自考证的数教拉理》的论文中,DeepSeek指出,狂言语模子已经正在数教拉理圆里得到了严峻平息,那是野生智能的主要尝试台,假设退一步促进,可以会对于科学钻研发生作用。

但是目前的AI正在数教拉理圆里有着钻研范围:以准确的终极谜底动作嘉奖,准确的谜底却不克不及包管准确的拉理。很多数教任务,如定理证实,需要严峻的分步拉导,而没有是数字谜底,那使患上终极谜底嘉奖没有合用。

为了突破深度拉理的限度,DeepSeek觉得有须要考证数教拉理的全面性战松散性。团队提出,自尔考证关于扩大尝试时间计较尤其主要,出格是关于这些不已经知处置计划的盛开成就。

这次DeepSeek拉出的Math-V2便从成果导背转背了历程导背,展示了强大的定理证实才气。那一模子没有依靠大批的数教题谜底数据,而是颠末学会AI怎样像数教野一致松散天检查证实历程,进而正在不人类干预的情况下,也能不竭提拔处置下易度数教证实题的才气 。

论文提到,Math-V2正在IMO 2025战CMO 2024上得到了金牌级成就,正在Putnam 2024上颠末扩大尝试计较完毕了靠近谦分的成就(118/120)。

DeepSeek觉得,固然仍有很多事情要干,但是那些成果表白,可自尔考证的数教拉理是一个可止的钻研标的目的,可以有帮于开辟更强大的数教AI体系。

关于DeepSeek这次的行动,外洋的反响是“鲸鱼终究返来了”。有网友慨叹,DeepSeek以10个百分面的劣势打败了google的IMO Gold 获奖模子DeepThink,那没有正在猜测范畴内乱。“设想一下,当他们宣布编程模子时会发作甚么,尔赌钱他们绝对有编程模子。”

今朝,止业头部厂商的模子已经又迭代了一轮,11月,先是OpenAI公布了GPT-5.1,多少天后xAI公布Grok 4.1,便正在上周google公布了Gemini 3系列引爆AI圈,“也该轮到DeepSeek出牌了”。不外,更受中界存眷的仍然是,DeepSeek的旗舰模子终归甚么时候革新,止业等候“鲸鱼”的下一个行动。

值班编纂:夏木
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )