举个例子,英文翻译「The cat sat on the mat because it was tired」里的「it」指谁?人类一看就知道是「cat」。但机器得「看」到前半句每个词,然后决议——「it」跟「cat」关联度最高,所以它指猫。这个过程就是留意力打分:模型对每个输上天位算一个「相关性分数」,分数高的多关照,分数低的少理会。
2017 年 Google 的《Attention Is All You Need》直接把留意力推到极致——整篇文章的核心翻译就是「不需求 RNN,光靠留意力就够了」。这篇论文提出了 Transformer,而 Transformer 到明天依然是 GPT、Claude、Llama 一切主流模型的基础架构。