假设道LLM是“会语言的AI”,这Transformer架构即是让它“会语言”的中心手艺——2017年,google团队正在论文《Attention is all you need》中提出Transformer,完全推翻了天然语言处置的开展标的目的。
7.1 为何Transformer能代替保守架构?
Transformer的中心由编码器(Encoder) 战解码器(Decoder) 二部门构成,差别任务会使用差别的拉拢(仅编码器、仅解码器、编码器+解码器)。咱们以“华文翻译成英文”(“尔是一个师长教师”→“I am a student”)为例,装解其事情过程:
8.1 第一步:文原转Token(让计较机“读懂”文原)
前馈神经收集取输出层:天生终极的词汇
颠末留神力层处置后,背质会传进前馈神经收集退一步劣化特性,最初加入线性层+Softmax层:线性层将抽象背质映照到“英文辞汇表”(好比包罗10万个英文词汇)的维度,Softmax层则将映照成果变换为“每一个词汇的天生几率”——好比“am”的几率是98%,“is”的几率是1.5%,“are”的几率是0.5%。模子会挑选几率最下的词汇(“am”)动作下一个天生的词汇,重复那个历程,曲到天生“完毕Token”(好比</s>),终极获得残破的英文翻译“I am a student”。