举个例子,英文翻译「The cat sat on the mat because it was tired」里的「it」指谁?人类一瞅便明白是「cat」。但是机械患上「瞅」到前半句每一个词汇,而后决定——「it」跟「cat」联系关系度最下,以是它指猫。那个历程即是留神力挨分:模子对于每一个输入地位算一个「相干性分数」,分数下的多照顾,分数高的少理睬。
2017 年 Google 的《Attention Is All You Need》间接把留神力拉到极致——整篇文章的中心翻译即是「没有需要 RNN,光靠留神力便够了」。那篇论文提出了 Transformer,而 Transformer 到来日诰日仍然是 GPT、Claude、Llama 统统支流模子的根底架构。