狂言语模子(Large Language Model,LLM)是年夜模子的子分类,是特地颠末处置大批文原数据去理解战天生人类语言的AI体系,进而施行各类天然语言处置任务,如文天职类、问问、对于话、实质归纳等。咱们最为罕见的ChatGPT、baidu文心一行、讯飞星水等皆属于狂言语模子。
狂言语模子LLM的根底架构
今朝流行的狂言语模子的架构根本皆相沿了目前NLP范围最热门最有用的架构—Transformer架构。Transformer架构滥觞于google正在2017年揭晓的论文《Attention Is All You Need》,翻译过去即是留神力即是您需要的统统。
留神力体制是狂言语模子的中心体制,它让模子正在处置文原时,能够共时存眷输出中的统统辞汇,不管句子是非,皆能精确捕获到近距离的语义联系关系。比方,正在剖析“华为公司公布了新款脚机”那句话时,模子能够疾速散焦“华为”取“脚机”之间的干系,疏忽“公司”或者“公布”等词汇的滋扰,这类才气使患上狂言语模子正在处置年夜段文原、庞大语境时能够真实理解其表示的中心寄义。
别的,狂言语模子颠末职位编码(Positional Encoding)的奇妙设想,模子患上以理解文原中的词汇语职位温顺序,精确掌握语言的时序特征,共时保存了下效的并止计较才气。
狂言语模子LLM的使用场景