老胡:哈,AI们自我感觉这么好,看来这种自信也在以讹传讹上助火上浇油了,真是不可思议!弘教师:更不可思议的是,一个月前的测试结果和明天的抽样测试相比,DeepSeek的准确率忽然暴涨,曾经接近满分了。不过,其他大模型的表现依然很糟。老胡:为啥?DeepSeek忽然变聪明了?弘教师:这应该是由于DeepSeek根据2024系列高考题,对模型停止了微调。不多,当我我对标题稍做调整,就会发现DeepSeek又末尾出错了。小涂:这么神奇,阐明什么?DeepSeek并没有真正的掌握,只是记住了答案?弘教师:大模型“记住答案”其实就是更新参数的过程,你这么了解也算对。斯坦福大学曾发表了相关论文《Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning》,指出,当标题稍作变换,准确率则会大幅下降。有兴味的冤家可以下载阅读,深化了解。 (, 下载次数: 0)
弘教师:这里缘由比较复杂,我先重点说一个关键——数据,DeepMind训练数学AI的大部分数据都是合成的,这样就能生成无量无尽的数据供 AI 训练,自然容易让 AI 变得弱小。小涂:训练数据为什么可以合成?弘教师:这里不展开细说,简单举个例子,人类发现三角形内角之和等于180度、两边之和大于第三边、勾股定理等等。其实有足够多的图形数据和尝试,AI也能发现这些规律的,而且能够发现得更多。所以,合成数学数据是可行的。 (, 下载次数: 0)