DeepSeek秒杀韦神封神题,但考不上北大,考研仅得103分

KOsV · 发表于 2 小时前

近来DeepSeek刚刚收的模子Math V2风头无二。

按照民间宣布的疑息，号称V2具有国内数教奥林匹克比赛IMO金牌级的水平，更正在北好地域最声威的年夜师长教师数教比赛Putnam中拿下了118/120的下分，近超人类最下分90

可是，不但是尔，相信各人皆有一个疑义：跑分下，果然代表数教佳吗？仍是题库违患上佳？

为了考证它的实在露金质，尔决定抛弃凉飕飕的尝试散，没有弄实的。尔要让DeepSeek挑战一下华夏数教界的才华天花板，韦东奕。

出错，即是谁人脚提馒头矿泉火，正在北年夜深躲罪取名的韦神，不管正在公家层里仍是数教圈，他的露金质皆无需多行。

假设有一个硅基年夜脑念要从头走一遍韦东奕正在IMO2008战丘成桐数教奖的启神路，成果会怎样？道谎话，有面忐忑。

上面是理论尝试历程：

1.冷身赛，齐员翻车？

起首，尔问了一下DeepSeek，它知没有明白DeepSeekMath V2模子，它的谜底以下：

因为答复过长，尔截来了中心的根底介绍部门

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w2.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w2.jpg

因为原次尝试的是年夜模子的数理才气，尔封闭了联网搜刮，以防它间接抄谜底。OK，启开思考情势，尝试开端。

先去讲启胃菜：2024阿里环球数教比赛试题。正在客岁年夜赛方才完毕之时，便有人把齐套试题喂给了GPT-4，其时的表示是：齐线翻车。

一年已往了，DeepSeekMath V2能一雪前荣吗？成果让尔年夜跌眼镜。

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w3.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w3.jpg

DeepSeek脚脚思考了837秒，快14分钟！正在背景的思惟链里，尔睁年夜眼睛瞅着它猖獗输出了4.5万字的心机举动：不竭提出思路，又不竭颠覆以前的论断，像极了科场上抓耳挠腮的尔。

过程当中实在等不迭了，尔又共时把题目别离拾给了豆包、Kimi战Gemini3.0 Pro，动作比较组。

后收之下，豆包仍是领先给出了谜底，而后是Kimi，最初是Gemini3.0 Pro战DeepSeek，很遗恨，四个年夜模子皆选的是（D）12，毛病。

测验前西席道过，没有要被考前模仿作用心态，交下来，上邪菜！

2.IMO奥赛韦神的启神之战尝试

咱们将时间拨回到2008年，这一年，韦东奕正在IMO奥赛上用一种共同的解法震动了天下，被称为韦办法。尔把那讲题，即IMO 2008第2题扔给了DeepSeek。

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w4.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w4.jpg

那一次，奇迹发作了，89秒。DeepSeek的解法取民间供给的参照谜底办法不合：先干等质交流，而后按照前提xyz=1干没有等式变更，历程也十分明了，准确。

以后，咱们又挑选了第五题：

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w5.jpg

那一次，DeepSeek颠末49秒，十分疾速的患上出准确谜底：

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w6.jpg

归纳：正在复刻IMO中，同尝试3讲题，DeepSeek干对于3讲，但是前面阿里环球比赛干错一讲，少思惟链纠错并无获得准确的成果。以后，咱们借截至了多个试题尝试，那里便没有一一搁出了。

正在尝试过程当中，尔发明一个十分奇妙的纪律：正在思惟链很短的题目中，DeepSeek的成果多数是准确，快准稳；

正在思惟链很少的题目中，能够瞅到它正在不竭调解办法，不竭否认，至于可否终极患上出准确谜底，瞅命运。

那末DeepSeek能不克不及考上北年夜呢？韦神天然是没有需要考研的，但是AI需要原人证明。

3.交下来咱们截至最枢纽的一环：北年夜考研尝试

起首，尔正在网上找到了一份北京年夜教数教阐发考研实题，试题一同九讲题，谦分是150分。

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w7.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w7.jpg

尔把卷子拾给DeepSeek，报告它现在是一个要考北年夜的师长教师，请开端您的演出。

924秒后，它接卷了。卷里整齐，步调具体，瞅着像模像样。

但是成就去了：谁去阅卷？

起首，尔把试题及谜底、DeepSeek的做问别离拾给了当下可以是最强大的模子Gemini3.0 Pro，战高低文检索才气强的Kimi动作阅卷西席。

可是出于对于年夜模子的没有信赖战有可以共类偏护，尔请去了尔的朋友，华夏科学院年夜教结业的数教专士动作场中阅卷西席。

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w8.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w8.jpg

人类专士终极的阅卷成果以下：1-10；2-15；3—15；4-7+8；5-0；6-15；7-15；8-5+3；9-10（固然思考的很治，但是最初仍是干进去了，不易）+0；总分：103分，患上分率：68.7%

Kimi阅卷成果：130分，患上分率86.7%

Gemini 3.0 Pro阅卷成果：142分

因为是尝试数理才气，没有包罗英语政事等科目，那里将以上患上分率换算成总分。好比正在人类专士那里的患上分率是68.7%，乘以谦分500分，便获得DeepSeek的考研成就342.5分。

而后尔又查阅了2020年北年夜数教的登科成果，最高分为382分。

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w9.jpg

DeepSeek秒杀韦神启神题,但是考没有上北年夜,考研仅患上103分w9.jpg

分析以上：根据华夏科学院年夜教专士的阅卷尺度，DeepSeek颠末了北年夜初试分数线，但是距离昔时考上北年夜的最高分，另有四十分的差异；根据Kimi战Gemini 的尺度，DeepSeek考上北年夜了。

一个幽默的征象呈现了，人类战机械的定见又一次当面错过。

固然，阅卷也存留必然的主观性。

尝试干完了，面临那份人类给高分，AI给下分的试卷，尔的疑义反而更多了。

1.DeepSeek终归退步了吗？

谜底是，退步了，但是标的目的战设想中的纷歧样。DeepSeek的论文里有一句话让尔影像深化：让模子教会诚笃。V2模子更在乎的是评介证实历程的品质，而没有是终极谜底的对于错。

简朴来讲即是DeepSeek脑筋里有三个君子，别离是师长教师、西席和给西席浮薄缺陷的督导。它们随时正在截至复核历程、挨分、成立赏罚体制。

师长教师对于一讲题天生无数种解法；西席战督导共同挨分，把这些简单发生歧义的、易判的题浮薄进去，当天生的解题思路被量信，解题历程便会不竭盘旋。

那大要也就能够注释前面DeepSeek思惟链比其余多少个年夜模子皆少了。

归纳一下：

DeepSeek确实很致命，它能正在IMO典范题上秒杀人类，也能正在考研实题上拿到进场券。但是此次尝试也有情天表露了它的短板：

正在超少思惟链的无人区，它仍然会迷路。

战人类先天比拟，它仍是缺少这种一眼便瞅到了脱素质、宽丝开缝的逻辑直观。

2.细思极恐的一面是，年夜模子之间可否存留共类幻觉的偏护举动？

那是原次尝试中最使尔违脊收凉的发明。

面临统一份问卷：Gemini 3.0 Pro给了142分，Kimi给了130分，而人类专士只给了103分。

会呈现这类弘大的不同？一个注释是：AI更懂AI的乌话，也更易忍耐共类的幻觉。

正在人类眼中逻辑欠亨、跳步严峻的拉导，正在另外一个年夜模子眼里，可以被觉得是公道的逻辑腾踊。

假设未来咱们完整依靠AI去评介AI，那一层共类纯量会没有会让咱们永久没法发明真谛的漏洞？

别的，多提一嘴，正在尝试过程当中，尔不竭的正在战以上提到的多少个模子对于话，令尔感应无语的是，Gemini3.0竟然把韦东奕识别成韦德，有多少句瞅下来仿佛是把韦东奕战篮球明星韦德混正在共同了。

近来Gemini仿佛老收神经？懂的朋友助尔解解惑，跪开了。

越消费越富有？陕西永倍达疑涉传销被多地发

DeepSeek秒杀韦神封神题,但考不上北大,考研仅得103分

浏览过的版块

DeepSeek再破谷歌OpenAI垄断:开源IMO数学金

关于我们

产品与服务

全网营销

加盟与合作