职贝云数AI新零售门户

标题: 警觉!对AI大模型的错误认知正在误导你 [打印本页]

作者: U4MxpqoQqf 时间: 2025-2-28 12:11
标题: 警觉!对AI大模型的错误认知正在误导你
引言DeepSeek的横空出世引爆国内大模型热潮，但乱象也随之浮现。老胡：自从采纳了两位教师的建议，引入大模型技术后，我们团队的编程和运维效率就得到大幅提升，工作变得轻松多了（详见链接：《A+B=C》，《DBA—>DBA²》，《AI✖️数据= ∞》）。但最近也有烦心事，家中孩子即将高考，数学成绩不佳，让我有些焦虑。小涂：您在工作中运用AI得心应手，为什么不试着在孩子的教育上也用用呢？如今网上很多自媒体都在说，DeepSeek的才能远超学校教师，能在高考各科中获得满分。甚至有人说教育界要变天了，只需孩子们跟着DeepSeek学，人人都能考上清华北大。老胡，您得抓紧机会啊。

1

全军覆没——大模型征战高考数学卷

弘教师：一个月前，我刚用大模型测试了2024年的高考数学I卷，我让DeepSeek、通义千问、豆包、Kimi、文心一言、GPT-o3、Claude-3.5-Sonnet这七款大模型分别参与解答，你们猜结果如何？小涂：全部满分？弘教师：全军覆没！表现最好的大模型离及格线还差十多分，还没考生的平均分高。
(, 下载次数: 0)
小涂：这么差？这跟我们看到的信息差距也太大了！彬教师：很诧异吧？你们可以本人试试，就会发现弘教师所言不虚。如今很多自媒体为了吸引眼球、博取流量，往往未阅历证就急于追逐热点，发表意见，导致以讹传讹，误导大众。风趣的是，假如你问这些大模型考2024年数学高考卷能考多少分时，它们大多觉得本人能拿135分以上。下图中DeepSeek对高考数学各题型分数比例显然是错误，普通人就难以辨认出来。
(, 下载次数: 0)
有的甚至以为本人能拿满分。总之，个个自信满满。
(, 下载次数: 0)
老胡：哈，AI们自我感觉这么好，看来这种自信也在以讹传讹上助火上浇油了，真是不可思议！弘教师：更不可思议的是，一个月前的测试结果和明天的抽样测试相比，DeepSeek的准确率忽然暴涨，曾经接近满分了。不过，其他大模型的表现依然很糟。老胡：为啥？DeepSeek忽然变聪明了？弘教师：这应该是由于DeepSeek根据2024系列高考题，对模型停止了微调。不多，当我我对标题稍做调整，就会发现DeepSeek又末尾出错了。小涂：这么神奇，阐明什么？DeepSeek并没有真正的掌握，只是记住了答案？弘教师：大模型“记住答案”其实就是更新参数的过程，你这么了解也算对。斯坦福大学曾发表了相关论文《Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning》，指出，当标题稍作变换，准确率则会大幅下降。有兴味的冤家可以下载阅读，深化了解。
(, 下载次数: 0)
小涂：啊，水这么深啊！彬教师：其实，不止是高考，就连小学3年级以下的奥数题，各大模型的正确率也基本只能维持在50%左右，大家可以自行验证。但是你看下图，一位主播正喜形于色地分享如何用DeepsSeek教孩子学数学，还让DeepsSeek来出相似标题来考孩子，这样做，瞎出题的概率极高，很能够适得其反。
(, 下载次数: 0)
弘教师：或许，将来DeepSeek真可以达到数学一无所知的程度，但至少当下是不行的。这里需求惹起留意的是，为什么错误认知可以广泛传播？本质上是由于大多数人无法判别真伪，就好比这位主播，假如她是一位数学教师，或许很快就会发现大模型解题中存在的错误了。小涂：啊..我也刷到过大量相似这样的视频啊，而且我还真信了，当前我再也不用DeepSeek了。彬教师：千万不要从一个极端到另一个极端。从目前来看，至少对于语文、英语、历史等文科类知识而言，大模型还是非常强的。当然，正确的问法也能更容易得到正确答案，这一点后续可以专门展开来说。现如今，多数人对AI大模型的认知不足，依然以高考数学为例，我来考考大家，假如用同一款大模型多次测试同一道数学题，你们觉得每次解题的答案会保持分歧吗？老胡：一定分歧啊，不然岂不是一会儿对一会儿错？弘教师：其实未必，真能够时对时错，这取决于三大要素。小涂：哪三大要素？

2

三大要素——保障模型推理质量的关键

弘教师：在解答之前，得澄清一个概念，AI大模型分为训练和推理两个阶段。训练是学会知识的过程，推理是思索如何回答的过程，两者都需求GPU算力支持，大家能听明白吗？老胡：明白。弘教师：假如GPU算力充足，模型能深化思索，回答质量更高；算力不足时，则质量下降，甚至能够出错。所以，第一个影响AI推理的关键要素是——GPU算力。小涂：弘教师，我往常用APP或网页版发问，也会遇到算力成绩吗？弘教师：会。比如清晨5点访问平台时，用户少，系统资源充足，模型有足够算力停止复杂推理，答案能够更准确；而在白天高峰期，用户多，算力紧张，准确性能够下降。在企业本地部署中，这种现象更分明，当算力不足时，模型能够会跳过关键步骤、降低计算精度，甚至直接罢工。处理办法只能是添加显卡，提升GPU算力。
(, 下载次数: 0)
小涂：原来如此，那第二个要素呢？弘教师：大模型经过学习海量数据让本人变“聪明”，但它并不是融会贯通去存储这些“原始数据”，而是将学习到的知识以参数的方式保存上去，这些参数往往高达数千亿，在训练时期被不停的更新。老胡：弘教师，参数是什么意思？我有点听不懂。弘教师：这个话题比较复杂，简单说，言语是由有限的单词组合而成，以“苹果”为例，一方面，大模型会不断完善“苹果”的维度，比如读了《苹果树的故事》一书，就知道苹果能吃；读了《乔布斯传》后，就知道“苹果”还是个品牌....这样的维度有成千上万个。另一方面，会完善“苹果”的空间地位，比如发现苹果和梨子常一同出现、一同被吃，于就会让它们的空间地位上更接近。无论是维度还是空间地位，都是大模型的参数，这些参数就是大模型学到的知识。但训练结束后，这些参数就固定了。比如某个大模型是2024年10月训练完成的，它就不知道11月的事（详见链接：《AI识字说》，《AI读心术》，《AI修仙传》，《AI断案路》）。小涂：不能实时学习吗？弘教师：可以，但需求访问外部的数据（详见链接：《AI海马体》）。比如企业数据或互联网数据。所以，第二个影响AI推理质量的要素是——外部访问。假如允许模型上网搜索，它能够从做错变成做对。
(, 下载次数: 0)
小涂：哈，就是抄答案嘛。弘教师：可以这么了解，不过搜索不会让它记住，断开外部访问后，它还是不会！小涂：为啥，哦...我明白了! 由于记住等同于对其外部参数停止更新，这个过程代价很大，所以不会实时停止，对吗？弘教师：小涂很聪明！更新参数的过程就叫微调，属于模型训练阶段，而非推理。小涂：那第三个要素是啥？彬教师：我来说，第三个要素是——专家交互。弘教师是清华大学高材生，对数学研讨很深，他能给出专业提示词，引导模型找到正确答案。比如往年高考最后一题，在弘教师引导下，部分大模型就能解出正确答案。但是我怎样试都不成功。也就是说，异样的模型和标题，弘教师能让AI表现更好。
(, 下载次数: 0)
小涂：我明白了。这就像彬教师您之前说的，不同人让 AI 大模型写 SQL，效率差别很大。您是 SQL 专家，能合理引导、纠正不完善的地方，最后得到效率更高的 SQL，这和大模型做高考题的引导是一个道理。（概况点链接：《SQL人生》）彬教师：对，总结得很好！

3

云泥之别——当下垂直范畴公用AI碾压大模型

老胡：我还是不敢置信AI做高考数学题这么“拉胯”，太不测了！彬教师：我要纠正一下，是大模型做高考数学很差，不是一切的AI都这样。认知误区又来了！老胡：啊？可把我弄糊涂了。彬教师：Google的DeepMind团队开发的Alpha-Geometry2，在国际数学奥林匹克竞赛(IMO)的几何体测试中，初次超越人类金牌得主的程度，你们听说过吗？老胡：我就记得在哪听过AI在国际奥数很凶猛，那高考数学怎样不行？彬教师：我们说的DeepSeek等是通用大言语模型，而非公用AI。老胡：哦，公用AI能拿国际奥数金牌，高考数学一定不在话下。彬教师：这是数学范畴的几何专项工具，解高考几何题一定是没成绩的。不只是在数学范畴，DeepMind旗下的AlphaGo，围棋程度远超人类顶尖棋手（详见链接《狗大师崛起》，《狗大师修仙》）。而大模型虽然经过阅读大量围棋电子书籍也懂下棋，但程度也就5级左右（大模型们的自我判别），相差甚远！还有AlphaFold，可以预测含有蛋白质结构，为药物研发带来了新的能够，其CEO 哈萨比斯还因此获得了诺贝尔奖。老胡：这些公用AI要么打败奥数金牌得主，要么碾压人类围棋顶尖高手，要么拿诺贝尔奖，太神了，为什么通用大模型就达不到它们的才能呢？
(, 下载次数: 0)
弘教师：这里缘由比较复杂，我先重点说一个关键——数据，DeepMind训练数学AI的大部分数据都是合成的，这样就能生成无量无尽的数据供 AI 训练，自然容易让 AI 变得弱小。小涂：训练数据为什么可以合成？弘教师：这里不展开细说，简单举个例子，人类发现三角形内角之和等于180度、两边之和大于第三边、勾股定理等等。其实有足够多的图形数据和尝试，AI也能发现这些规律的，而且能够发现得更多。所以，合成数学数据是可行的。
(, 下载次数: 0)
小涂：太不可思议了！弘教师：其实AlphaGo的训练方式——左右手互搏完成数千万盘对局，不断总结提高，这些自我对弈的棋谱也是一种合成数据。小涂：有道理。弘教师：AlphaFold则是在专门的蛋白质数据库上完成训练，这不是合成数据，但属于范畴专业数据，通用大模型不一定能获取到。除了数据，公用范畴往往需求一些特定的专业处理形式，以便高效的发挥其功能，这就是第二个要点，这里不展开了。小涂：那有没有能够，通用大模型也能达到这些公用AI的才能呢？彬教师：这是必然的，完成的方法也有很多，后期能够是整合多种才能的混合架构形式。目前，迷信界的主流看法是，将来3-5年内即可完成。也就是说，大模型训练终了后，便能在数学范畴超越奥数金牌选手，在蛋白质折叠研讨上与AlphaFold媲美，在围棋竞技中毫无悬念地打败世界冠军...要是这些都成为理想，那就标志着通用人工智能AGI时代的初级阶段已然降临。老胡：那还只是初级阶段？那达到怎样的程度才算算高级阶段呢？弘教师：我们刚才提到那些专业范畴的严重打破，其实都是人类可以预想到的。当AI获得了远远超出人类认知范围，让大家连想都想不到的成就时，那便是进入高级阶段了。老胡：等待那一天的到来！

总结（三点认知）1. 对当下大模型学科才能的认知
目前，通用大模型在高考数学方面表现仍处“学渣”程度。不只如此，在物理、化学、生物等科目上成绩也难以及格。不过，其在语文、英语、历史等科目中表现相对不错，准确率可达80%。
2. 模型与个人才能强相关的认知
当下，善用AI的人优势将进一步扩展，个人才能程度越高，向AI提出的发问越有智慧，就越能从AI那里获得高质量的回复(专家介入）。而且，对AI大模型运转原理了解得越深化（GPU算力，外部访问...），你就越清楚如何让它更顺畅地运转，发挥出更好的效果（详见链接《AI大揭秘》）。
3. 对大模型与公用AI差异的认知
虽说公用AI和大模型都采用了深度神经网络技术，但是两者架构差异很大。目前公用AI在垂直范畴的才能远超通用大模型（“奥数拿金牌” vs “数学不及格”，“碾压顶尖棋力” vs “围棋专业5级”，“诺贝尔奖” vs “略懂皮毛”...）。不过，将来大模型必定能一统江湖之时，其实，这和关系型数据库能末尾交融各个公用数据库场景，走向超交融（一体化），是一个道理。到那时，就是通用人工智能时代到来之际（详见链接：《穿越者》，《将来已来》）。

倡议（从我做起）

在将来的网络环境中，虚伪和错误的观点能够会愈发众多。一方面，部分博主为追逐热点，自觉传播未经证明的信息；另一方面，大模型本身也能够给出诸多错误回复。因此，我们必须保持持质疑肉体，不随便接受和传播未经核实的内容。只要经过亲身动手确认、多AI交叉验证及查找第一手信息源（详见链接：《乱象》），才能有效避免被误导。

或许不久后，大模型就能达到高考数学满分的才能，但即便如此，大家也应自行验证其对错。假如无法判别数学题的正确性，可以讨教相关专家或经过威望平台核实。不要自觉置信未阅历证的答案。

令人担忧的是，我提到的那两个视频号主播的视频转发量竟已超过10万+。虽然他们的初衷能够是好的，但实践上却误导了孩子们。希望大家在发布信息时保持严谨，对分享的内容担任，共同维护健康、真实的网络环境。

更值得警觉的是，大模型经过微调可以“记住答案”，但稍作修正就能够出错，阐明它并未真正掌握知识。因此，大家在运用时更要擦亮眼睛，系统学习，勤于思索，多向教师或范畴专家讨教

在当前大模型尚不成熟的状况下，孩子们仍应以讨教教师为主，尤其在文科方面。即便大模型给出了正确答案，其讲解过程也能够存在错误，孩子们难以分辨。现阶段，更需求专业教师的引导，优化教学方法，协助孩子们正确看法AI，拥抱变化，积极创新。

文末

感恩身边的每一个人，不断以来对我的宽容以待。刚好有在 IF-CLUB 社区平台录制视频的机会，借此简单和大家分享个人感悟。

更多精彩原创内容见公众号点关注

不迷路
往期回顾，欢迎留言与转发

小冤家都能懂的人工智能⓸ -狗大师的修仙之路

小冤家都能懂的人工智能⓺ -留意，句中高能！

小冤家都能懂的人工智能⑪一滴墨汁成就一代画师

小冤家都能懂的人工智能⑫从画师到视频大师

小冤家都能懂的人工智能⑬AI时代，将来失业走势

数据库二十年目击之怪现状⓵ 太！多！了！

数据库二十年目击之怪现状⓶ 测评现形记

数据库二十年目击之怪现状⓷ 隐蔽的套壳

数据库二十年目击之怪现状⓸ 小黑入狱记

数据库二十年目击之怪现状⓹ 真实的谎言

从DTCC专场变换窥探数据库风云

从围棋收官到秦楚大战的数据库SQL完成（上）

从围棋收官到秦楚大战的数据库SQL完成（中）

从围棋收官到秦楚大战的数据库SQL完成（下）

⓵悟！从12306改签困惑到数据库设计—高铁随记

⓶惊！12306业务系统晋级也能被普通人推进？

⓷妙！探求12306车内换座的最优分配法

国产数据库第一股背后的机密

“作弊”有理！——OceanBase2024发布会勾起我二十年前的回忆

SQL优化思想⓵--不优化或许是最好的优化！

SQL优化思想⓶--让SQL跑得更慢一些！

SQL优化思想⓷--工夫都去哪儿了

A+B=C的交融AI形式已来，巨头怎样做？

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)