开启左侧

深度讲解AI大模型原理,它到底是如何工作的

[复制链接]
在线会员 S4D4fWQM6yo 发表于 2026-3-11 16:25:24 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
媒介

现在许多朋友皆正在钻研AI年夜模子;
对于各个公司的年夜模子更是数如野珍。
“chatgpt、Claude、Gemini、Llama三、文心一行、千问…”
外洋的、海内的、启源的、没有启源的;
只要进去一个年夜模子,快要备案,试一试结果。
但是尔念问的是:
您真实理解它们是怎样事情的吗?
各人能够测验考试答复上面那多少个成就;
就可以明白自己是否是实懂,甚么是LLM狂言语模子了。
比方:
“为何鉴于天生式的模子,能够模仿出谈天对于话的模样?”
“为何狂言语模子,能够天生差别的、非牢固的对于话复兴?”
“天生式的AI年夜模子,依靠的是Transformer中的哪一部门?”
“险些统统的年夜模子的最初一层皆是softmax层,它的感化是甚么?”
“怎样快速的正在条记原电脑上,布置狂言语模子截至尝试?”
瞅完来日诰日的文章,上面的成就城市水到渠成!
最初期望能辅佐各人:
真实理解AI年夜模子的事情道理。
具体来讲,尔会从三个圆里截至解说:
1)文原天生的道理,如何鉴于文原天生模仿对于话。
2)鉴于llama模子的构造,解说年夜模子的拉理历程。
3)鉴于openai的GPT2模子,截至拉理尝试。
1.文原天生的道理
深度解说AI年夜模子道理,它究竟是怎样事情的-1.png


您可否猜疑过,不管背chatgpt输出甚么样的成就,它皆能精确的复兴。
而且,chatgpt借能参照已往的对于话实质,天生契合汗青对于话的新复兴。
不但云云,假设咱们以为chatgpt复兴结果不敷佳;
借可让它沉更生成一个、差别于以前的复兴。
那毕竟是甚么样的道理呢?
理论上,咱们瞅似是取chatgpt截至问问式的相同取对于话交换;
但是关于gpt来讲,它干的工作,仍然是文原天生
也即是鉴于已往的数据,猜测出下一个最有可以呈现的单词汇。
上面尔举二个例子,去分析那个成就。
1)终归甚么是文原天生?
假设咱们有一个AI年夜模子,好比GPT2。
深度解说AI年夜模子道理,它究竟是怎样事情的-2.png


此时咱们背模子输出,“[cls]、古、天、天、气鼓鼓、实”,一同6个字(单词汇)。
咱们期望模子鉴于那6个字,天生第7个字。
此时,模子会输出第7个字,是“的”字。
那里要需要特别分析:
最开端的[cls],是一个特别标识表记标帜;
它用于标识表记标帜句子的肇端职位;
模子需要鉴于一点儿特别的标识表记标帜去截至计较。
现在没有太理解也不妨,能够临时疏忽那个cls标识表记标帜。
交着,咱们要天生第8个字。
关于第8个字的天生,便会依靠初初输出的6个字,取方才天生的第7个“的”字。
鉴于那7个字,模子会持续天生“很”字。
交着,咱们能够再鉴于那8个字,再背后天生一个字;
也即是第9个字,模子会输出“佳”字。
以此类拉,交着今后天生“,咱们一止人来吃的,咱们面了一个牛肉锅”。
归纳来讲:
文原天生,即是使用前面的字动作输出,天生新的字。
而终归要天生几实质,与决于咱们期望天生几实质。
深度解说AI年夜模子道理,它究竟是怎样事情的-3.png


也即是,只要您甘愿,狂言语模子能够天生无穷无尽的文原。
2)chatgpt战文原天生又有甚么干系?
chatgpt即是对于话方法的文原天生。
假设此时,咱们有一个颠末对于话数据微调的、华文GPT2狂言语模子。
深度解说AI年夜模子道理,它究竟是怎样事情的-4.png


异常背那个模子输出“[cls]、古、天、天、气鼓鼓、实”,一同6个字。
那一次咱们会发明,天生的下一个字是“佳”;
而后是“[SEP]”;
交着是“是的,您近来如何样[SEP]挺佳的,您呢[SEP]”。
那又代表甚么意义呢?
SEP分开符
理论上,SEP便像一开端的[cls],是一种预约义的特别字符;
SEP用于暗示对于话的分开符。
咱们能够将SEP看作是二小我私家对于话的分开标识表记标帜。
模子特地输出那个特别字符[SEP],去唆使对于话的构造。
比方,假设以SEP朋分模子天生的文原,便会模仿出二小我私家的对于话。
深度解说AI年夜模子道理,它究竟是怎样事情的-5.png


比方,咱们能够将:
第1句“来日诰日气候实佳”看作是A道的;
第2句“是的,您近来如何样”看作是B道的;
第3句“挺佳的,您呢”,又是A道的;
第4句“尔也是,借鄙人班”,又是B道的。
如许便获得了,对于话方法的天生成果。
咱们正在使用模子的输出时,也即是chatgpt正在展示成果的时候:
深度解说AI年夜模子道理,它究竟是怎样事情的-6.png


只要供展示、输出第1个SEP后取第2个SEP前的文原就能够了。
也即是道,chatgpt会复兴:
“是的,您近来如何样”,如许就能够了。
那以后的输出,关于此时的对于话是不意思的。
当瞅到SEP后,便代表了原次的复兴完毕了。
分析上面那二个例子:
咱们便会发明:
chatgpt的素质,即是文原天生
模子自己,并无试图来理解对于话自己的意思。
chatgpt只是是颠末文原天生,模仿出对于话的结果罢了。
以是,各人会没有会以为:
AI年夜模子也不外云云呢?
2.怎样拉理计较出下一个字
怎样鉴于已经有的文原,计较出下一个字呢?
也即是:
终归怎样鉴于“[cls]、古、天、天、气鼓鼓、实、”;
计较出下一个单词汇是“的”;
再下一个字是“很”;
再下一个是“佳”呢?
上面尔鉴于llama3模子,去分析那个成就。
深度解说AI年夜模子道理,它究竟是怎样事情的-7.png


简朴介绍Llama3,它是Meta的启源AI年夜模子;
结果先搁一边,最枢纽的是它的质料十分全面;
关于进修者来讲,是罕见的进修资本。
Llama3鉴于Transformer架构。
深度解说AI年夜模子道理,它究竟是怎样事情的-8.png


假设实念弄懂llama,
必然需要先理解Transformer。
上面尔会鉴于Transformer战llama的模子构造图;
去注释狂言语模子的拉理历程
各人即使瞅着似懂非懂也不妨,枢纽是感触感染一下年夜模子是怎样事情的。
上面加入邪题!
1)模子的构造:
深度解说AI年夜模子道理,它究竟是怎样事情的-9.png


右图是Transformer构造图,左图是llama构造图。
Transformer中的左边构造是编码器,右边是解码器。
比照察看那二个构造图能够瞅到,llama模子借鉴了Transformer的解码器。
理论上,天生式的AI年夜模子,皆依靠Transformer的解码器架构。
假设深入去瞅模子圆框中的构造;
Transformer的解码器战llama模子,共时皆包罗了:
    白色的embedding层
    绿色的尺度化层
    橙色的自留神力体制
    蓝色的前馈神经收集
正在模子的输入地位,又共时皆有:
    一个灰色linear线性层
    一个绿色的softmax层
2)数据流的计较
深度解说AI年夜模子道理,它究竟是怎样事情的-10.png


输出数据Input标识表记标帜为1,会从下圆输出。
起首颠末2号embedding,截至词汇嵌进,将单词汇序列转为背质序列。
交着加入N个transformer块,截至特性提炼。
实线框中的构造,编号3到10,皆是Transformer块中的实质。
咱们只要供明白,它们会将Input,变换为一个牢固少度的背质。
交着,那个背质会被11号RMS-norm战12号Linear层处置。
3)猜测下一个字
猜测下一个字,即是使用Linear层+softmax层。
Linear层用于将特性背质的维度数,变换为字典中字的数目。
softmax层用于计较下一个字呈现的几率,也即是猜测下一个字。
那理论上是一个分类的历程!
假设正在华文辞汇表中,有1000个字:
深度解说AI年夜模子道理,它究竟是怎样事情的-11.png


那末它即是一个1000个种别的多分类任务。
具体来讲:
给定的输出文原会被Transformer转为牢固少度的背质:
深度解说AI年夜模子道理,它究竟是怎样事情的-12.png


图中标识表记标帜的4096,即是输出文原变换后的维度。
那个4096的背质会输出到Linear线性层:
颠末Linear线性层:
咱们能够将那个4096维的背质,变换为字典中字的个数的维度的背质;
好比字典中有1000个字,那末便被转为1000维的背质。
进而截至1000个种别的分类。
分类的成果,即是具体的某一个字。
将1000维的背质,持续输出到softmax层:
softmax层会给出1000个字,每一个字可以的几率。
比方,对于输出文原“来日诰日气候实”截至“分类”,便获得“佳”字。
4)怎样挑选输出成果
贪婪方法挑选:
假设咱们挑选几率最年夜的字动作下一个字,截至输出;
那是贪婪的方法去挑选成果。
深度解说AI年夜模子道理,它究竟是怎样事情的-13.png


比方,1000个字:
“佳”字的几率是0.67;
“糟糕”字的几率是0.32;
其余统统减共同是“0.01”。
这时候咱们能够间接输出“佳”字。
这类挑选成果的方法,固然简朴,但是也存留短处:
因为间接输出几率最年夜的字,输出成果老是牢固的。
chatgpt的复兴便不百般性了。
鉴于几率散布挑选:
咱们能够鉴于几率散布,随机的掏出下一个字动作输出。
深度解说AI年夜模子道理,它究竟是怎样事情的-14.png


便像从一个乌箱中有搁回的摸球,摸到哪一个字,便输出哪一个字;咱们也不消担忧摸到没有经常使用的字;
因为咱们能够将几率太低的字截至抛弃。这时候咱们便会挑选“佳”字,大概“糟糕”字;进而天生出二差别的成果了。那即是为何,chatgpt能够天生差别成果的道理。
3.GPT2模子的拉理尝试
最初咱们正在当地电脑,截至年夜模子的拉理尝试。
那里挑选GPT2截至尝试。
深度解说AI年夜模子道理,它究竟是怎样事情的-15.png


简朴介绍GPT2:
它是GPT4的前身,是openai的最初一个启源版原。
之所挑选GPT2截至拉理尝试,是因为它所依靠的资本很少;
单机情况就能够运行年夜模子拉理;
而且关于入门者,假设您念教狂言语模子;
GPT2即是最适宜的!
因为它的质料,果然许多!
1)模子下载
gpt2的华文模子,能够从huggingface高低载。
深度解说AI年夜模子道理,它究竟是怎样事情的-16.png


咱们挑选此中的clue-corpus-small,那个版原。
为了布置模子,需要下载此中的3个枢纽文献:
模子的设置:config.json
模子自己:pytorch_model.bin
切词汇字典:vocab.txt
2)尝试代码1
使用那个模子需要鉴于Transformer库。
主要需要使用Transformer库的切词汇组件取GPT2模子组件。
上面正在解说代码时,尔会鉴于代码的调试疑息去分析。
尝试部分包罗二个部门,分词汇部门战拉理部门。
分词汇部门:
深度解说AI年夜模子道理,它究竟是怎样事情的-17.png


起首界说装备变质device,挨印后会瞅到咱们目前的装备是cuda,GPU装备。
界说分词汇器,BertTokenizerFast。
使用分词汇器的encode函数,能够将句子分词汇,并将华文词汇语转为数字索引的方法。
比方,输出句子“[CLS]来日诰日气候实”;
它便会被变换为6个整数索引,别离是10一、791等等。
咱们能够正在字典vacab.txt中,找到那些词汇战对于应的索引。
翻开vacab.txt文献察看:
深度解说AI年夜模子道理,它究竟是怎样事情的-18.png


找到字典的第102止,即是[CLS]那个词汇。
找到字典的第792止,即是“古”那个字。
拉理部门:
深度解说AI年夜模子道理,它究竟是怎样事情的-19.png


交着,咱们使用交心from_pretrained,减载预锻炼模子。
界说max_len=20,暗示背后天生20个字。正在轮回中,每一轮回一次,便天生一个字。
将输出序列input_ids输出到模子model后,管帐算出拉理成果output。那里咱们间接挑选几率最年夜的字,动作下一个字。也即是使用softmax函数,计较出统统字呈现的几率后;
使用torch.max,贪婪的挑选最大要率的字。将那个字动作下一个天生成果,增加到response中。而后革新输出序列input_ids,把更生成的next_token,cat到input_ids中。交着咱们将input_ids的整数索引取文原方法挨印进去。
输出成果:
深度解说AI年夜模子道理,它究竟是怎样事情的-20.png


这时候会瞅到,每轮轮回,城市天生一个字。
i=0时,天生了“的”字;
i=1时,天生了“很”字;
i=2时,天生了“佳”字;

i=19时,便鉴于前面的19个字,便会天生最初一个“锅”字。
如许咱们便鉴于“[CLS]来日诰日气候实”;
天生了“的很佳,咱们一止人来吃的,面了一个牛肉锅”。
3)尝试代码2:
尝试代码1,是一般的文原天生;
尝试代码2,是对于话方法的文原天生。
那二个代码,不过减载的模子差别:
深度解说AI年夜模子道理,它究竟是怎样事情的-21.png


左边是根底华文gpt2模子,右边是华文对于话微调的gpt2模子。
咱们会发明,使用对于话文原微调的gpt2模子,输出的成果包罗了SEP分开符。
深度解说AI年夜模子道理,它究竟是怎样事情的-22.png


假设输出“[CLS]来日诰日气候实”;便会输出“佳[SEP]是的,您近来如何样”等等。颠末SEP分开符,咱们就能够模仿出对于话的结果了。
以上即是AI年夜模子的根本事情道理。
最初的最初

感谢您们的浏览战喜好,尔珍藏了许多手艺搞货,能够同享给喜好尔文章的朋友们,假设您肯花时间重下心来进修,它们必然能助到您。
因为那个止业差别于其余止业,常识系统实在是过于宏大,常识革新也十分快。动作一个一般人,没法局部教完,以是咱们正在提拔手艺的时候,起首需要大白一个目标,而后订定佳残破的方案,共时找到佳的进修办法,如许才气更快的提拔自己。
那份残破版的年夜模子 AI 进修质料已经上传CSDN,朋友们假设需要能够微疑扫描下圆CSDN民间认证两维码免费付出【包管100%免费】
深度解说AI年夜模子道理,它究竟是怎样事情的-23.jpeg

年夜模子常识脑图

为了成为更佳的 AI年夜模子 开辟者,那里为各人供给了总的门路图。它的用处便正在于,您能够根据上面的常识面来找对于应的进修资本,包管自己教患上比较全面。

深度解说AI年夜模子道理,它究竟是怎样事情的-24.png


典范册本浏览

浏览AI年夜模子典范册本能够辅佐读者进步手艺水平,开辟视线,把握中心手艺,进步处置成就的才气,共时也能够借鉴他人的经历。关于念要深入进修AI年夜模子开辟的读者来讲,浏览典范册本长短常有须要的。
深度解说AI年夜模子道理,它究竟是怎样事情的-25.png


真战案例

光教实践是出用的,要教会随着共同敲,要入手真操,才气将自己的所教使用到理论傍边来,这时候分能够弄面真战案例去进修。
深度解说AI年夜模子道理,它究竟是怎样事情的-26.png


口试质料

咱们进修AI年夜模子一定是念找到下薪的事情,上面那些口试题皆是归纳目前最新、最冷、最下频的口试题,而且每一讲题皆有具体的谜底,口试前刷完那套口试题质料,小小offer,没有正在话下
深度解说AI年夜模子道理,它究竟是怎样事情的-27.png


640套AI年夜模子陈述开散

那套包罗640份陈述的开散,涵盖了AI年夜模子的实践钻研、手艺完毕、止业使用等多个圆里。不管您是科研职员、工程师,仍是对于AI年夜模子感兴致的喜好者,那套陈述开散皆将为您供给贵重的疑息战启迪。
深度解说AI年夜模子道理,它究竟是怎样事情的-28.png


那份残破版的年夜模子 AI 进修质料已经上传CSDN,朋友们假设需要能够微疑扫描下圆CSDN民间认证两维码免费付出【包管100%免费】
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )