职贝云数AI新零售门户

标题: 警觉!对AI大模型的错误认知正在误导你 [打印本页]

作者: U4MxpqoQqf    时间: 2025-2-28 12:11
标题: 警觉!对AI大模型的错误认知正在误导你
引言DeepSeek的横空出世引爆国内大模型热潮,但乱象也随之浮现。老胡:自从采纳了两位教师的建议,引入大模型技术后,我们团队的编程和运维效率就得到大幅提升,工作变得轻松多了(详见链接:《A+B=C》,《DBA—>DBA²》,《AI✖️数据= ∞》 )。但最近也有烦心事,家中孩子即将高考,数学成绩不佳,让我有些焦虑。小涂:您在工作中运用AI得心应手,为什么不试着在孩子的教育上也用用呢?如今网上很多自媒体都在说,DeepSeek的才能远超学校教师,能在高考各科中获得满分。甚至有人说教育界要变天了,只需孩子们跟着DeepSeek学,人人都能考上清华北大。老胡,您得抓紧机会啊。

1


全军覆没——大模型征战高考数学卷


弘教师:一个月前,我刚用大模型测试了2024年的高考数学I卷,我让DeepSeek、通义千问、豆包、Kimi、文心一言、GPT-o3、Claude-3.5-Sonnet这七款大模型分别参与解答,你们猜结果如何?小涂:全部满分?弘教师:全军覆没!表现最好的大模型离及格线还差十多分,还没考生的平均分高。
(, 下载次数: 0)
小涂:这么差?这跟我们看到的信息差距也太大了!彬教师:很诧异吧?你们可以本人试试,就会发现弘教师所言不虚。如今很多自媒体为了吸引眼球、博取流量,往往未阅历证就急于追逐热点,发表意见,导致以讹传讹,误导大众。风趣的是,假如你问这些大模型考2024年数学高考卷能考多少分时,它们大多觉得本人能拿135分以上。下图中DeepSeek对高考数学各题型分数比例显然是错误,普通人就难以辨认出来。
(, 下载次数: 0)
有的甚至以为本人能拿满分。总之,个个自信满满。
(, 下载次数: 0)
老胡:哈,AI们自我感觉这么好,看来这种自信也在以讹传讹上助火上浇油了,真是不可思议!弘教师:更不可思议的是,一个月前的测试结果和明天的抽样测试相比,DeepSeek的准确率忽然暴涨,曾经接近满分了。不过,其他大模型的表现依然很糟。老胡:为啥?DeepSeek忽然变聪明了?弘教师:这应该是由于DeepSeek根据2024系列高考题,对模型停止了微调。不多,当我我对标题稍做调整,就会发现DeepSeek又末尾出错了。小涂:这么神奇,阐明什么?DeepSeek并没有真正的掌握,只是记住了答案?弘教师:大模型“记住答案”其实就是更新参数的过程,你这么了解也算对。斯坦福大学曾发表了相关论文《Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning》,指出,当标题稍作变换,准确率则会大幅下降。有兴味的冤家可以下载阅读,深化了解。
(, 下载次数: 0)
小涂:啊,水这么深啊!彬教师:其实,不止是高考,就连小学3年级以下的奥数题,各大模型的正确率也基本只能维持在50%左右,大家可以自行验证。但是你看下图,一位主播正喜形于色地分享如何用DeepsSeek教孩子学数学,还让DeepsSeek来出相似标题来考孩子,这样做,瞎出题的概率极高,很能够适得其反。
(, 下载次数: 0)
弘教师:或许,将来DeepSeek真可以达到数学一无所知的程度,但至少当下是不行的。这里需求惹起留意的是,为什么错误认知可以广泛传播?本质上是由于大多数人无法判别真伪,就好比这位主播,假如她是一位数学教师,或许很快就会发现大模型解题中存在的错误了。小涂:啊..我也刷到过大量相似这样的视频啊,而且我还真信了,当前我再也不用DeepSeek了。彬教师:千万不要从一个极端到另一个极端。从目前来看,至少对于语文、英语、历史等文科类知识而言,大模型还是非常强的。当然,正确的问法也能更容易得到正确答案,这一点后续可以专门展开来说。现如今,多数人对AI大模型的认知不足,依然以高考数学为例,我来考考大家,假如用同一款大模型多次测试同一道数学题,你们觉得每次解题的答案会保持分歧吗?老胡:一定分歧啊,不然岂不是一会儿对一会儿错?弘教师:其实未必,真能够时对时错,这取决于三大要素。小涂:哪三大要素?

2


三大要素——保障模型推理质量的关键

弘教师:在解答之前,得澄清一个概念,AI大模型分为训练和推理两个阶段。训练是学会知识的过程,推理是思索如何回答的过程,两者都需求GPU算力支持,大家能听明白吗?老胡:明白。弘教师:假如GPU算力充足,模型能深化思索,回答质量更高;算力不足时,则质量下降,甚至能够出错。所以,第一个影响AI推理的关键要素是——GPU算力。小涂:弘教师,我往常用APP或网页版发问,也会遇到算力成绩吗?弘教师:会。比如清晨5点访问平台时,用户少,系统资源充足,模型有足够算力停止复杂推理,答案能够更准确;而在白天高峰期,用户多,算力紧张,准确性能够下降。在企业本地部署中,这种现象更分明,当算力不足时,模型能够会跳过关键步骤、降低计算精度,甚至直接罢工。处理办法只能是添加显卡,提升GPU算力。
(, 下载次数: 0)
小涂:原来如此,那第二个要素呢?弘教师:大模型经过学习海量数据让本人变“聪明”,但它并不是融会贯通去存储这些“原始数据”,而是将学习到的知识以参数的方式保存上去,这些参数往往高达数千亿,在训练时期被不停的更新。老胡:弘教师,参数是什么意思?我有点听不懂。弘教师:这个话题比较复杂,简单说,言语是由有限的单词组合而成,以“苹果”为例,一方面,大模型会不断完善“苹果”的维度,比如读了《苹果树的故事》一书,就知道苹果能吃;读了《乔布斯传》后,就知道“苹果”还是个品牌....这样的维度有成千上万个。另一方面,会完善“苹果”的空间地位,比如发现苹果和梨子常一同出现、一同被吃,于就会让它们的空间地位上更接近。无论是维度还是空间地位,都是大模型的参数,这些参数就是大模型学到的知识。但训练结束后,这些参数就固定了。比如某个大模型是2024年10月训练完成的,它就不知道11月的事(详见链接:《AI识字说》,《AI读心术》,《AI修仙传》,《AI断案路》 )。小涂:不能实时学习吗?弘教师:可以,但需求访问外部的数据(详见链接:《AI海马体》 )。比如企业数据或互联网数据。所以,第二个影响AI推理质量的要素是——外部访问。假如允许模型上网搜索,它能够从做错变成做对。
(, 下载次数: 0)
小涂:哈,就是抄答案嘛。弘教师:可以这么了解,不过搜索不会让它记住,断开外部访问后,它还是不会!小涂:为啥,哦...我明白了! 由于记住等同于对其外部参数停止更新,这个过程代价很大,所以不会实时停止,对吗?弘教师:小涂很聪明!更新参数的过程就叫微调,属于模型训练阶段,而非推理。小涂:那第三个要素是啥?彬教师:我来说,第三个要素是——专家交互。弘教师是清华大学高材生,对数学研讨很深,他能给出专业提示词,引导模型找到正确答案。比如往年高考最后一题,在弘教师引导下,部分大模型就能解出正确答案。但是我怎样试都不成功。也就是说,异样的模型和标题,弘教师能让AI表现更好。
(, 下载次数: 0)
小涂:我明白了。这就像彬教师您之前说的,不同人让 AI 大模型写 SQL,效率差别很大。您是 SQL 专家,能合理引导、纠正不完善的地方,最后得到效率更高的 SQL,这和大模型做高考题的引导是一个道理。(概况点链接:《SQL人生》 )彬教师:对,总结得很好!

3


云泥之别——当下垂直范畴公用AI碾压大模型

老胡:我还是不敢置信AI做高考数学题这么“拉胯”,太不测了!彬教师:我要纠正一下,是大模型做高考数学很差,不是一切的AI都这样。认知误区又来了!老胡:啊?可把我弄糊涂了。彬教师:Google的DeepMind团队开发的Alpha-Geometry2,在国际数学奥林匹克竞赛(IMO)的几何体测试中,初次超越人类金牌得主的程度,你们听说过吗?老胡:我就记得在哪听过AI在国际奥数很凶猛,那高考数学怎样不行?彬教师:我们说的DeepSeek等是通用大言语模型,而非公用AI。老胡:哦,公用AI能拿国际奥数金牌,高考数学一定不在话下。彬教师:这是数学范畴的几何专项工具,解高考几何题一定是没成绩的。不只是在数学范畴,DeepMind旗下的AlphaGo,围棋程度远超人类顶尖棋手(详见链接《狗大师崛起》 ,《狗大师修仙》)。而大模型虽然经过阅读大量围棋电子书籍也懂下棋,但程度也就5级左右(大模型们的自我判别),相差甚远!还有AlphaFold,可以预测含有蛋白质结构,为药物研发带来了新的能够,其CEO 哈萨比斯还因此获得了诺贝尔奖。老胡:这些公用AI要么打败奥数金牌得主,要么碾压人类围棋顶尖高手,要么拿诺贝尔奖,太神了,为什么通用大模型就达不到它们的才能呢?
(, 下载次数: 0)
弘教师:这里缘由比较复杂,我先重点说一个关键——数据,DeepMind训练数学AI的大部分数据都是合成的,这样就能生成无量无尽的数据供 AI 训练,自然容易让 AI 变得弱小。小涂:训练数据为什么可以合成?弘教师:这里不展开细说,简单举个例子,人类发现三角形内角之和等于180度、两边之和大于第三边、勾股定理等等。其实有足够多的图形数据和尝试,AI也能发现这些规律的,而且能够发现得更多。所以,合成数学数据是可行的。
(, 下载次数: 0)
小涂:太不可思议了!弘教师:其实AlphaGo的训练方式——左右手互搏完成数千万盘对局,不断总结提高,这些自我对弈的棋谱也是一种合成数据。小涂:有道理。弘教师:AlphaFold则是在专门的蛋白质数据库上完成训练,这不是合成数据,但属于范畴专业数据,通用大模型不一定能获取到。除了数据,公用范畴往往需求一些特定的专业处理形式,以便高效的发挥其功能,这就是第二个要点,这里不展开了。小涂:那有没有能够,通用大模型也能达到这些公用AI的才能呢?彬教师:这是必然的,完成的方法也有很多,后期能够是整合多种才能的混合架构形式。目前,迷信界的主流看法是,将来3-5年内即可完成。也就是说,大模型训练终了后,便能在数学范畴超越奥数金牌选手,在蛋白质折叠研讨上与AlphaFold媲美,在围棋竞技中毫无悬念地打败世界冠军...要是这些都成为理想,那就标志着通用人工智能AGI时代的初级阶段已然降临。老胡:那还只是初级阶段?那达到怎样的程度才算算高级阶段呢?弘教师:我们刚才提到那些专业范畴的严重打破,其实都是人类可以预想到的。当AI获得了远远超出人类认知范围,让大家连想都想不到的成就时,那便是进入高级阶段了。老胡:等待那一天的到来!






总结(三点认知)1. 对当下大模型学科才能的认知
目前,通用大模型在高考数学方面表现仍处“学渣”程度。不只如此,在物理、化学、生物等科目上成绩也难以及格。不过,其在语文、英语、历史等科目中表现相对不错,准确率可达80%。
2. 模型与个人才能强相关的认知
当下,善用AI的人优势将进一步扩展,个人才能程度越高,向AI提出的发问越有智慧,就越能从AI那里获得高质量的回复(专家介入)。而且,对AI大模型运转原理了解得越深化(GPU算力,外部访问...),你就越清楚如何让它更顺畅地运转,发挥出更好的效果(详见链接 《AI大揭秘》 )。
3. 对大模型与公用AI差异的认知
虽说公用AI和大模型都采用了深度神经网络技术,但是两者架构差异很大。目前公用AI在垂直范畴的才能远超通用大模型(“奥数拿金牌” vs “数学不及格”,“碾压顶尖棋力” vs “围棋专业5级”,“诺贝尔奖” vs “略懂皮毛”...)。不过,将来大模型必定能一统江湖之时,其实,这和关系型数据库能末尾交融各个公用数据库场景,走向超交融(一体化),是一个道理。到那时,就是通用人工智能时代到来之际(详见链接:《穿越者》 ,《将来已来》 )。

倡议(从我做起)

在将来的网络环境中,虚伪和错误的观点能够会愈发众多。一方面,部分博主为追逐热点,自觉传播未经证明的信息;另一方面,大模型本身也能够给出诸多错误回复。因此,我们必须保持持质疑肉体,不随便接受和传播未经核实的内容。只要经过亲身动手确认、多AI交叉验证及查找第一手信息源(详见链接:《乱象》),才能有效避免被误导。

或许不久后,大模型就能达到高考数学满分的才能,但即便如此,大家也应自行验证其对错。假如无法判别数学题的正确性,可以讨教相关专家或经过威望平台核实。不要自觉置信未阅历证的答案。

令人担忧的是,我提到的那两个视频号主播的视频转发量竟已超过10万+。虽然他们的初衷能够是好的,但实践上却误导了孩子们。希望大家在发布信息时保持严谨,对分享的内容担任,共同维护健康、真实的网络环境。

更值得警觉的是,大模型经过微调可以“记住答案”,但稍作修正就能够出错,阐明它并未真正掌握知识。因此,大家在运用时更要擦亮眼睛,系统学习,勤于思索,多向教师或范畴专家讨教

在当前大模型尚不成熟的状况下,孩子们仍应以讨教教师为主,尤其在文科方面。即便大模型给出了正确答案,其讲解过程也能够存在错误,孩子们难以分辨。现阶段,更需求专业教师的引导,优化教学方法,协助孩子们正确看法AI,拥抱变化,积极创新。

文末

感恩身边的每一个人,不断以来对我的宽容以待。刚好有在 IF-CLUB 社区平台录制视频的机会,借此简单和大家分享个人感悟。


更多精彩原创内容见公众号    点关注  

  不迷路     
往期回顾,欢迎留言与转发





欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5