深度讲解AI大模型原理，它到底是如何工作的

S4D4fWQM6yo · 发表于 2026-3-11 16:25:24

媒介

现在许多朋友皆正在钻研AI年夜模子；
对于各个公司的年夜模子更是数如野珍。
“chatgpt、Claude、Gemini、Llama三、文心一行、千问…”
外洋的、海内的、启源的、没有启源的；
只要进去一个年夜模子，快要备案，试一试结果。
但是尔念问的是：
您真实理解它们是怎样事情的吗？
各人能够测验考试答复上面那多少个成就；
就可以明白自己是否是实懂，甚么是LLM狂言语模子了。
比方：
“为何鉴于天生式的模子，能够模仿出谈天对于话的模样？”
“为何狂言语模子，能够天生差别的、非牢固的对于话复兴？”
“天生式的AI年夜模子，依靠的是Transformer中的哪一部门？”
“险些统统的年夜模子的最初一层皆是softmax层，它的感化是甚么？”
“怎样快速的正在条记原电脑上，布置狂言语模子截至尝试？”
瞅完来日诰日的文章，上面的成就城市水到渠成！
最初期望能辅佐各人：
真实理解AI年夜模子的事情道理。
具体来讲，尔会从三个圆里截至解说：
1)文原天生的道理，如何鉴于文原天生模仿对于话。
2)鉴于llama模子的构造，解说年夜模子的拉理历程。
3)鉴于openai的GPT2模子，截至拉理尝试。
1.文原天生的道理

您可否猜疑过，不管背chatgpt输出甚么样的成就，它皆能精确的复兴。
而且，chatgpt借能参照已往的对于话实质，天生契合汗青对于话的新复兴。
不但云云，假设咱们以为chatgpt复兴结果不敷佳；
借可让它沉更生成一个、差别于以前的复兴。
那毕竟是甚么样的道理呢？
理论上，咱们瞅似是取chatgpt截至问问式的相同取对于话交换；
但是关于gpt来讲，它干的工作，仍然是文原天生。
也即是鉴于已往的数据，猜测出下一个最有可以呈现的单词汇。
上面尔举二个例子，去分析那个成就。
1)终归甚么是文原天生？
假设咱们有一个AI年夜模子，好比GPT2。

此时咱们背模子输出，“[cls]、古、天、天、气鼓鼓、实”，一同6个字(单词汇)。
咱们期望模子鉴于那6个字，天生第7个字。
此时，模子会输出第7个字，是“的”字。
那里要需要特别分析：
最开端的[cls]，是一个特别标识表记标帜；
它用于标识表记标帜句子的肇端职位；
模子需要鉴于一点儿特别的标识表记标帜去截至计较。
现在没有太理解也不妨，能够临时疏忽那个cls标识表记标帜。
交着，咱们要天生第8个字。
关于第8个字的天生，便会依靠初初输出的6个字，取方才天生的第7个“的”字。
鉴于那7个字，模子会持续天生“很”字。
交着，咱们能够再鉴于那8个字，再背后天生一个字；
也即是第9个字，模子会输出“佳”字。
以此类拉，交着今后天生“，咱们一止人来吃的，咱们面了一个牛肉锅”。
归纳来讲：
文原天生，即是使用前面的字动作输出，天生新的字。
而终归要天生几实质，与决于咱们期望天生几实质。

也即是，只要您甘愿，狂言语模子能够天生无穷无尽的文原。
2)chatgpt战文原天生又有甚么干系？
chatgpt即是对于话方法的文原天生。
假设此时，咱们有一个颠末对于话数据微调的、华文GPT2狂言语模子。

异常背那个模子输出“[cls]、古、天、天、气鼓鼓、实”，一同6个字。
那一次咱们会发明，天生的下一个字是“佳”；
而后是“[SEP]”；
交着是“是的，您近来如何样[SEP]挺佳的，您呢[SEP]”。
那又代表甚么意义呢？
SEP分开符
理论上，SEP便像一开端的[cls]，是一种预约义的特别字符；
SEP用于暗示对于话的分开符。
咱们能够将SEP看作是二小我私家对于话的分开标识表记标帜。
模子特地输出那个特别字符[SEP]，去唆使对于话的构造。
比方，假设以SEP朋分模子天生的文原，便会模仿出二小我私家的对于话。

比方，咱们能够将：
第1句“来日诰日气候实佳”看作是A道的；
第2句“是的，您近来如何样”看作是B道的；
第3句“挺佳的，您呢”，又是A道的；
第4句“尔也是，借鄙人班”，又是B道的。
如许便获得了，对于话方法的天生成果。
咱们正在使用模子的输出时，也即是chatgpt正在展示成果的时候：

只要供展示、输出第1个SEP后取第2个SEP前的文原就能够了。
也即是道，chatgpt会复兴：
“是的，您近来如何样”，如许就能够了。
那以后的输出，关于此时的对于话是不意思的。
当瞅到SEP后，便代表了原次的复兴完毕了。
分析上面那二个例子：
咱们便会发明：
chatgpt的素质，即是文原天生。
模子自己，并无试图来理解对于话自己的意思。
chatgpt只是是颠末文原天生，模仿出对于话的结果罢了。
以是，各人会没有会以为：
AI年夜模子也不外云云呢？
2.怎样拉理计较出下一个字
怎样鉴于已经有的文原，计较出下一个字呢？
也即是：
终归怎样鉴于“[cls]、古、天、天、气鼓鼓、实、”；
计较出下一个单词汇是“的”；
再下一个字是“很”；
再下一个是“佳”呢？
上面尔鉴于llama3模子，去分析那个成就。

简朴介绍Llama3，它是Meta的启源AI年夜模子；
结果先搁一边，最枢纽的是它的质料十分全面；
关于进修者来讲，是罕见的进修资本。
Llama3鉴于Transformer架构。

假设实念弄懂llama，
必然需要先理解Transformer。
上面尔会鉴于Transformer战llama的模子构造图；
去注释狂言语模子的拉理历程。
各人即使瞅着似懂非懂也不妨，枢纽是感触感染一下年夜模子是怎样事情的。
上面加入邪题！
1)模子的构造：

右图是Transformer构造图，左图是llama构造图。
Transformer中的左边构造是编码器，右边是解码器。
比照察看那二个构造图能够瞅到，llama模子借鉴了Transformer的解码器。
理论上，天生式的AI年夜模子，皆依靠Transformer的解码器架构。
假设深入去瞅模子圆框中的构造；
Transformer的解码器战llama模子，共时皆包罗了：

正在模子的输入地位，又共时皆有：

2)数据流的计较

输出数据Input标识表记标帜为1，会从下圆输出。
起首颠末2号embedding，截至词汇嵌进，将单词汇序列转为背质序列。
交着加入N个transformer块，截至特性提炼。
实线框中的构造，编号3到10，皆是Transformer块中的实质。
咱们只要供明白，它们会将Input，变换为一个牢固少度的背质。
交着，那个背质会被11号RMS-norm战12号Linear层处置。
3)猜测下一个字
猜测下一个字，即是使用Linear层+softmax层。
Linear层用于将特性背质的维度数，变换为字典中字的数目。
softmax层用于计较下一个字呈现的几率，也即是猜测下一个字。
那理论上是一个分类的历程！
假设正在华文辞汇表中，有1000个字：

那末它即是一个1000个种别的多分类任务。
具体来讲：
给定的输出文原会被Transformer转为牢固少度的背质：

图中标识表记标帜的4096，即是输出文原变换后的维度。
那个4096的背质会输出到Linear线性层：
颠末Linear线性层：
咱们能够将那个4096维的背质，变换为字典中字的个数的维度的背质；
好比字典中有1000个字，那末便被转为1000维的背质。
进而截至1000个种别的分类。
分类的成果，即是具体的某一个字。
将1000维的背质，持续输出到softmax层：
softmax层会给出1000个字，每一个字可以的几率。
比方，对于输出文原“来日诰日气候实”截至“分类”，便获得“佳”字。
4)怎样挑选输出成果
贪婪方法挑选：
假设咱们挑选几率最年夜的字动作下一个字，截至输出；
那是贪婪的方法去挑选成果。

比方，1000个字：
“佳”字的几率是0.67；
“糟糕”字的几率是0.32；
其余统统减共同是“0.01”。
这时候咱们能够间接输出“佳”字。
这类挑选成果的方法，固然简朴，但是也存留短处：
因为间接输出几率最年夜的字，输出成果老是牢固的。
chatgpt的复兴便不百般性了。
鉴于几率散布挑选：
咱们能够鉴于几率散布，随机的掏出下一个字动作输出。

便像从一个乌箱中有搁回的摸球，摸到哪一个字，便输出哪一个字；咱们也不消担忧摸到没有经常使用的字；
因为咱们能够将几率太低的字截至抛弃。这时候咱们便会挑选“佳”字，大概“糟糕”字；进而天生出二差别的成果了。那即是为何，chatgpt能够天生差别成果的道理。
3.GPT2模子的拉理尝试
最初咱们正在当地电脑，截至年夜模子的拉理尝试。
那里挑选GPT2截至尝试。

简朴介绍GPT2：
它是GPT4的前身，是openai的最初一个启源版原。
之所挑选GPT2截至拉理尝试，是因为它所依靠的资本很少；
单机情况就能够运行年夜模子拉理；
而且关于入门者，假设您念教狂言语模子；
GPT2即是最适宜的！
因为它的质料，果然许多！
1)模子下载
gpt2的华文模子，能够从huggingface高低载。

咱们挑选此中的clue-corpus-small，那个版原。
为了布置模子，需要下载此中的3个枢纽文献：
模子的设置：config.json
模子自己：pytorch_model.bin
切词汇字典：vocab.txt
2)尝试代码1
使用那个模子需要鉴于Transformer库。
主要需要使用Transformer库的切词汇组件取GPT2模子组件。
上面正在解说代码时，尔会鉴于代码的调试疑息去分析。
尝试部分包罗二个部门，分词汇部门战拉理部门。
分词汇部门：

起首界说装备变质device，挨印后会瞅到咱们目前的装备是cuda，GPU装备。
界说分词汇器，BertTokenizerFast。
使用分词汇器的encode函数，能够将句子分词汇，并将华文词汇语转为数字索引的方法。
比方，输出句子“[CLS]来日诰日气候实”；
它便会被变换为6个整数索引，别离是10一、791等等。
咱们能够正在字典vacab.txt中，找到那些词汇战对于应的索引。
翻开vacab.txt文献察看：

找到字典的第102止，即是[CLS]那个词汇。
找到字典的第792止，即是“古”那个字。
拉理部门：

交着，咱们使用交心from_pretrained，减载预锻炼模子。
界说max_len=20，暗示背后天生20个字。正在轮回中，每一轮回一次，便天生一个字。
将输出序列input_ids输出到模子model后，管帐算出拉理成果output。那里咱们间接挑选几率最年夜的字，动作下一个字。也即是使用softmax函数，计较出统统字呈现的几率后；
使用torch.max，贪婪的挑选最大要率的字。将那个字动作下一个天生成果，增加到response中。而后革新输出序列input_ids，把更生成的next_token，cat到input_ids中。交着咱们将input_ids的整数索引取文原方法挨印进去。
输出成果：

这时候会瞅到，每轮轮回，城市天生一个字。
i=0时，天生了“的”字；
i=1时，天生了“很”字；
i=2时，天生了“佳”字；
…
i=19时，便鉴于前面的19个字，便会天生最初一个“锅”字。
如许咱们便鉴于“[CLS]来日诰日气候实”；
天生了“的很佳，咱们一止人来吃的，面了一个牛肉锅”。
3)尝试代码2：
尝试代码1，是一般的文原天生；
尝试代码2，是对于话方法的文原天生。
那二个代码，不过减载的模子差别：

左边是根底华文gpt2模子，右边是华文对于话微调的gpt2模子。
咱们会发明，使用对于话文原微调的gpt2模子，输出的成果包罗了SEP分开符。

假设输出“[CLS]来日诰日气候实”；便会输出“佳[SEP]是的，您近来如何样”等等。颠末SEP分开符，咱们就能够模仿出对于话的结果了。
以上即是AI年夜模子的根本事情道理。
最初的最初

感谢您们的浏览战喜好，尔珍藏了许多手艺搞货，能够同享给喜好尔文章的朋友们，假设您肯花时间重下心来进修，它们必然能助到您。
因为那个止业差别于其余止业，常识系统实在是过于宏大，常识革新也十分快。动作一个一般人，没法局部教完，以是咱们正在提拔手艺的时候，起首需要大白一个目标，而后订定佳残破的方案，共时找到佳的进修办法，如许才气更快的提拔自己。
那份残破版的年夜模子 AI 进修质料已经上传CSDN，朋友们假设需要能够微疑扫描下圆CSDN民间认证两维码免费付出【包管100%免费】