职贝云数AI新零售门户
标题:
陈经:AI大模型的幻觉是怎样回事?
[打印本页]
作者:
795eQI
时间:
2025-3-16 21:44
标题:
陈经:AI大模型的幻觉是怎样回事?
本文共计3200字,建议阅读工夫10分钟。
(, 下载次数: 0)
上传
点击文件名下载附件
大模型问世以来,幻觉就是一个“顽疾”。不管多先进的AI,总有不靠谱的时分,一本正派地编 假话,没阅历的人往往容易受骗。近日Deepseek爆火,许多平台纷纷接入。Deepseek的言语和逻辑才能弱小,擅长生成“合情合理”但理想根据不足的内容。不少人没留意到幻觉成绩,将有成绩的内容发到互联网上。有识者担心,Deepseek正在中文互联网上构建“幻觉长城”,生成的大量错误内容污染了网络信息的真实性。有些人想用Deepseek搞研讨、协助写作,但细心一查才发现幻觉严重,大段编造,不知道是怎样回事。实际下去说,AI的幻觉深深嵌入在神经网络架构与运作机制中,难以彻底消弭。就如车祸,总是会发生。但良好的道路规划与红绿灯交通规则,能大幅降低车祸概率,而且是安全带等措施还能大幅降低车祸的危害,所以人们还是开车、乘车。研讨者想了很多办法对抗AI的幻觉,减少大模型幻觉的发生概率、降低其危害,获得了相当的成效。运用者假如了解大模型幻觉相关的常识,用正确的办法运用它,学习大模型运用的“红绿灯交通规则”常识,对它的输入留个心眼保持警觉,就能“用其长而避其短”,像顺应汽车社会一样,让大模型成为工作与生活中的有用工具。大模型幻觉的概率根源大模型有训练和推理两种形式,普通人接触的是推理。幻觉在推理时产生,由于大模型工作是基于概率而非基于理想。幻觉也有部分根源与训练有关。训练时,大模型用几千亿个(Deepseek R1是6710亿个)权重系数,学习人类以文字记述的整个知识体系。不思索视频图像等多模态样本,训练素材也有10万亿个token(词元,可简单了解为一个汉字)以上,Deepseek V3的预训练语料就有14.8万亿个token。这是一种知识紧缩,大模型显得一无所知,但并不是准确记忆,而是去汇总体会这些知识。语料是有工夫节点的,Deepseek V3的语料截止至2024年一季度,之后发生的事没材料。另外,训练数据本身会包含错误与成见,如一些从互联网抓取的信息。一些知识素材搜集困难或数据量过大,难以放进语料中,总会有些范畴知识没覆盖到。训练语料的“小缺点”,是幻觉的部分根源,但并非大模型幻觉的次要缘由。不少工作生活靠谱的人,并非全知全能,而是老实牢靠,真知道才说,不会不懂装懂。但大模型在推理输入时,由于工作原理的限制,做不到这么老实,“不懂装懂”的成绩很严重。很多人以为,大模型看见用户的成绩(提示词),会像人一样思索,然后末尾回答。其实不是这样,大模型推理时工作机理很朴素,可以说有些“暴力”。大模型收到用户提示词,会立刻停止一个矩阵(几千亿系数就在这些矩阵里)计算过程,输入一个词(next token);再将这个词加到提示后面,组成新的提示词,用异样的计算过程,又输入下一个词;不断反复,直到出现终止条件(如输入了一个终止标记),最终输入。大模型没有“懂”“不懂”的概念,面对任何提示,都直接吐出一个词。无论怎样输入,都会给出计算结果。也就是说,本质上大模型是在做计算。但知识紧缩、推理计算的过程很巧妙,计算结果和人们的提示对得上,很智能,Deepseek还显得很有灵性,似乎很“懂”人们的内心。要留意,大模型输入一个词之时,最终计算结果不是一个词,而是一切token类别(Deepseek V3 有12.9万种)的概率组合,如12.9万个概率数值。绝大部分token跟在提示后面不靠谱,概率为零;但也有一些接着输入,的确合理,概率不为零,言语本来就是灵敏的。大模型会从中选择一个输入,异样地成绩再问,大模型的回答并不相反,输入有一定随机性。不管怎样随机选择,由于都是合理的概率,最终输入看上去“挺像回事”。训练中,开发者让人类(如Deepseek找中文博士)给大模型的一些输入打分;再用这些打分素材开发出一个“打分器”;再用它对大模型的输入不停打分(人打分太慢太累),用分数训练大模型的系数,让它输入得分越来越高。在实际中,人类容易打分的是“言语方式”,以及“相关性”。假如回答得言语错乱,或答非所问、牛头不对马嘴,立刻会被打低分。所以,大模型的言语才能被训练得非常强,而且答的就是人们想问的范畴。这就是人们的运用体验,真能聊,梗能接得上,惊叹大模型的才能。但是,假如大模型答得有错误,或者编造了,有时就不容易发现。实际中,开发出来的“打分器”会更关注言语方式的错误、相关性成绩,以及一些简单错误。结果就是,大模型输入了像模像样的回答,虽然是错误的、编造的,但打分器得分还挺高。这样的结果,出如古人类用户面前,就是“幻觉”。即便大模型的训练语料里没有相关知识,它仍会概率性地选出能“接得上”的词,像模像样地输入。它的推理工作机制,并没有“验证输入真实性” 的环节,直接就输入了。大模型的每个词输入,是从一堆“看似合理” 的词里挑一个,这是在停止概率选择,而不是“推理”。在计算这些概率时,大模型隐含地停止了基于人类知识的推理,不然也不会看上去合理,甚至绝大部分都是正确的。但是,这种矩阵概率计算,不等同于人类准确的逻辑推理,不能够完全靠谱(有时概率大的也不对),总会有些输当选择是不好的,在一个个词不停输入后,最终导向错误、成为幻觉。这就是大模型幻觉的实际背景,深深嵌入在大模型工作原理中。它需求以概率的方式工作,而计算过程又难以保证概率都是靠谱的。无论有没有知识,它都会生成下一个词的概率组合。最后,大模型从言语方式以及问答“相关性” 上完美满足了人类要求。在训练中,人类对于这类错误非常敏感,而且义务本身不需求太深逻辑,代表人类浅层智慧,容易训练成功。而与理想相关的错误,就非常难以消弭。幻觉就成为大模型最大的缺点,甚至没有之一。更费事的是,人们由于大模型输入方式的“完 美”,天分地忽视幻觉成绩,大面积受骗。就如教师面对知识丰富、言语有条理的先生,总是更为信任。大模型就是这样有两面性,很有诈骗性。需求指出,大模型并不是有意诈骗人。它不知道本人错了,以为本人输入的都是算法的合理结果。所以,这个成绩叫“幻觉”,大模型自认正确,不是有意骗人。对付大模型幻觉有武器开发者“对症下药”处理幻觉成绩,获得了很大停顿。一个很管用的技术是RAG(R etrieval AugmentedGeneration, 检索加强生成)。典型的RAG例子是运用Deepseek时点上的“联网搜索”,幻觉就会大幅减少。RAG的原理是,大模型先拿用户提示词生成搜 索关键词;再拿关键词去互联网搜索;将前往的搜索信息整合进大模型数据结构中;再去停止矩阵计算,对用户给出反馈。每一步都有相关技术,需求细心开发。最终效果很好,大模型会把信息的出处都给出,而非编造信息,用户可以核实信息来源,大幅减少了幻觉成绩。有的用户不知道要联网搜索,一些平台整合Deepseek调用时实践没联网搜索,都会有严重的幻觉成绩。大部分与理想相关的义务,用联网搜索是必需的。大模型训练时,也有很多招数可减少幻觉。如清洗样本、严厉打标、招博士来打标。近期,一个引人关注、很有潜力的技术是思想链(CoT, Chain of Thought)。这对应Deepseek的“深度思索”形式。思想链是开发者先让大模型不断输入token序列外部运用(思索),不急着回答用户。人类思想也是文字序列,可以训练大模型输入相似的token序列。一步步链式思索会有成果,如解数学题时有意义的中间结果。Deepseek的重要发现是,思想链可以自动训练,机器本人就能学会检查结果、反思等高级思想,人刻意教,反而教不好。大模型思索一段工夫后,中间结果靠谱,就能整合输入,对用户给出正确的最终回答。思想链可以隐藏,也可以给用户看。思想链技术最直接的效果是,大模型做数学题 程度一日千里,逻辑才能飞跃,有奥数高手程度。以前大模型做数学题其实是在蒙,方式对,细节错得离谱。RAG和思想链让开发者有了对付幻觉的弱小武器。大模型技术会日益提高,幻觉会越来越少。大模型用户需求了解幻觉原理,留意运用联网搜索和深度思索减少幻觉。即便如此,也还是要小心它的输入,一些数据和理想要对原始链接出处停止核查,不能得到警觉。大模型的幻觉会越来越少,但不会消逝。人们正确了解、小心运用,把它当工具助手,只需本人当好主人检查把关,大模型就会成为人们很好的帮手。本文来源:微信公众号“中国青年杂志”。
■ 作者简介
陈经中国迷信技术大学计算机迷信学士,香港科技大学计算机迷信硕士,科技与战略风云学会会员,《中国的官办经济》作者。转自微信公众号:风云之声。
商业合作请后台联络,谢谢。
欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)
Powered by Discuz! X3.5