职贝云数AI新零售门户

标题: DeepSeek秒杀韦神封神题,但考不上北大,考研仅得103分 [打印本页]

作者: KOsV    时间: 2 小时前
标题: DeepSeek秒杀韦神封神题,但考不上北大,考研仅得103分
最近DeepSeek刚发的模型Math V2风头无两。

根据官方公布的信息,号称V2拥有国际数学奥林匹克竞赛IMO金牌级的程度,更在北美地区最威望的大先生数学竞赛Putnam中拿下了118/120的高分,远超人类最高分90

但是,不只是我,置信大家都有一个疑问:跑分高,真的代表数学好吗?还是题库背得好?

为了验证它的真实含金量,我决议丢弃冷冰冰的测试集,不搞虚的。我要让DeepSeek应战一下中国数学界的智力天花板,韦东奕。


没错,就是那个手提馒头矿泉水,在北大深藏功与名的韦神,无论在公众层面还是数学圈,他的含金量都无需多言。

假如有一个硅基大脑想要重新走一遍韦东奕在IMO2008和丘成桐数学奖的封神路,结果会如何?说假话,有点忐忑。

下面是实践测试过程:

1.热身赛,全员翻车?

首先,我问了一下DeepSeek,它知不知道DeepSeekMath V2模型,它的答案如下:

由于回答太长,我截去了中间的基础引见部分

(, 下载次数: 0)

由于本次测试的是大模型的数理才能,我关闭了联网搜索,以防它直接抄答案。OK,开启思索形式,测试末尾。

先来道开胃菜:2024阿里全球数学竞赛试题。在去年大赛刚刚结束之时,就有人把全套试题喂给了GPT-4,当时的表现是:全线翻车。

一年过去了,DeepSeekMath V2能一雪前耻吗?结果让我大跌眼镜。

(, 下载次数: 0)

DeepSeek足足思索了837秒,快14分钟!在后台的思想链里,我睁大眼睛看着它疯狂输入了4.5万字的心思活动:不断提出思绪,又不断推翻之前的结论,像极了考场上抓耳挠腮的我。

过程中真实等不及了,我又同时把标题分别丢给了豆包、Kimi和Gemini3.0 Pro,作为对照组。

后发之下,豆包还是率先给出了答案,然后是Kimi,最后是Gemini3.0 Pro和DeepSeek,很遗憾,四个大模型都选的是(D)12,错误。

考试前教师说过,不要被考前模拟影响心态,接上去,上正菜!

2.IMO奥赛韦神的封神之战测试

我们将工夫拨回到2008年,那一年,韦东奕在IMO奥赛上用一种独特的解法震惊了世界,被称为韦方法。我把这道题,即IMO 2008第2题扔给了DeepSeek。

(, 下载次数: 0)

这一次,奇观发生了,89秒。DeepSeek的解法与官方提供的参考答案方法分歧:先做等量交换,然后根据条件xyz=1做不等式变换,过程也非常明晰,正确。

之后,我们又选择了第五题:

(, 下载次数: 0)

这一次,DeepSeek经过49秒,非常迅速的得出正确答案:

(, 下载次数: 0)

总结:在复刻IMO中,共测试3道题,DeepSeek做对3道,但后面阿里全球竞赛做错一道,长思想链纠错并没有得到正确的结果。之后,我们还停止了多个试题测试,这里就不逐一放出了。

在测试过程中,我发现一个非常巧妙的规律:在思想链很短的标题中,DeepSeek的结果大都是正确,快准稳;

在思想链很长的标题中,可以看到它在不断调整方法,不断否定,至于能否最终得出正确答案,看运气。

那么DeepSeek能不能考上北大呢?韦神自然是不需求考研的,但AI需求本物证明。

3.接上去我们停止最关键的一环:北大考研测试

首先,我在网上找到了一份北京大学数学分析考研真题,试题一共九道题,满分是150分。

(, 下载次数: 0)

我把卷子丢给DeepSeek,告诉它如今是一个要考北大的先生,请末尾你的表演。

924秒后,它交卷了。 卷面整洁,步骤详细,看着像模像样。

但成绩来了:谁来阅卷?

首先,我把试题及答案、DeepSeek的作答分别丢给了当下能够是最弱小的模型Gemini3.0 Pro,和上下文检索才能强的Kimi作为阅卷教师。

但是出于对大模型的不信任和有能够同类包庇,我请来了我的冤家,中国迷信院大学毕业的数学博士作为场外阅卷教师。

(, 下载次数: 0)

人类博士最终的阅卷结果如下:1-10;2-15;3—15;4-7+8;5-0;6-15;7-15;8-5+3;9-10(虽然思索的很乱,但最后还是做出来了,不容易)+0;总分:103分,得分率:68.7%

Kimi阅卷结果:130分,得分率86.7%

Gemini 3.0 Pro阅卷结果:142分

由于是测试数理才能,不包含英语政治等科目,这里将以上得分率换算成总分。比如在人类博士这里的得分率是68.7%,乘以满分500分,就得到DeepSeek的考研成绩342.5分。

然后我又查阅了2020年北大数学的录取结果,最低分为382分。

(, 下载次数: 0)

综合以上:按照中国迷信院大学博士的阅卷标准,DeepSeek经过了北大初试分数线,但间隔当年考上北大的最低分,还有四非常的差距;按照Kimi和Gemini 的标准,DeepSeek考上北大了。

一个风趣的现象出现了,人类和机器的意见又一次失之交臂。

当然,阅卷也存在一定的客观性。

测试做完了,面对这份人类给低分,AI给高分的试卷,我的疑问反而更多了。




1.DeepSeek到底退化了吗?

答案是,退化了,但方向和想象中的不一样。DeepSeek的论文里有一句话让我印象深入:让模型学会诚实。V2模型更在意的是评价证明过程的质量,而不是最终答案的对错。

简单来说就是DeepSeek脑子里有三个小人,分别是先生、教师以及给教师挑缺点的督导。它们随时在停止复核过程、打分、建立奖惩机制。

先生对一道题生成有数种解法;教师和督导一同打分,把那些容易产生歧义的、难判的题挑出来,当生成的解题思绪被质疑,解题过程就会不断回旋。


这大概也就可以解释后面DeepSeek思想链比其他几个大模型都长了。

总结一下:

DeepSeek的确很致命,它能在IMO经典题上秒杀人类,也能在考研真题上拿到入场券。但这次测试也无情地暴露了它的短板:


在超长思想链的无人区,它依然会迷路。

和人类天赋相比,它还是缺乏那种一眼就看到了穿本质、严丝合缝的逻辑直觉。

2.细思极恐的一点是,大模型之间能否存在同类幻觉的包庇行为?

这是本次测试中最让我背脊发凉的发现。

面对同一份答卷:Gemini 3.0 Pro给了142分,Kimi给了130分,而人类博士只给了103分。

会出现这种宏大的差别?一个解释是:AI更懂AI的黑话,也更容易忍受同类的幻觉。


在人类眼中逻辑不通、跳步严重的推导,在另一个大模型眼里,能够被以为是合理的逻辑腾跃。

假如将来我们完全依赖AI来评价AI,这一层同类杂质会不会让我们永远无法发现真理的破绽?

另外,多提一嘴,在测试过程中,我不断的在和以上提到的几个模型对话,令我感到无语的是,Gemini3.0居然把韦东奕辨认成韦德,有几句看上去似乎是把韦东奕和篮球明星韦德混在一同了。

最近Gemini似乎老发神经?懂的冤家帮我解解惑,跪谢了。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5