【Transformer 与注意力机制】11|「注意力」的直觉
💡
原文中文,约24700字,阅读约需59分钟。
📝
内容提要
本文探讨了注意力机制的原理,强调其源于认知心理学与神经科学。注意力是处理信息的方式,涉及动态分配权重。人类的注意力是“软”的,允许同时关注多个信息。机器翻译中的对齐问题促使了软对齐的出现,注意力机制通过加权平均实现信息提取。softmax是实现可微选择的关键,注意力机制广泛应用于多个领域,而非仅限于Transformer。
🎯
关键要点
- 注意力机制源于认知心理学和神经科学,强调动态分配权重。
- 人类的注意力是“软”的,允许同时关注多个信息。
- 机器翻译中的对齐问题促使了软对齐的出现。
- 注意力机制通过加权平均实现信息提取,softmax是实现可微选择的关键。
- 注意力机制广泛应用于多个领域,而非仅限于Transformer。
❓
延伸问答
注意力机制的基本原理是什么?
注意力机制通过动态分配权重来处理信息,允许模型在多个候选中选择并加权提取信息。
人类的注意力与机器的注意力有什么不同?
人类的注意力是“软”的,允许同时关注多个信息,而机器的注意力机制通过加权平均实现信息提取。
为什么注意力机制需要使用softmax而不是argmax?
使用softmax可以保证权重的可微性,允许通过反向传播进行端到端训练,而argmax不可微,无法传递梯度。
注意力机制在机器翻译中如何应用?
在机器翻译中,注意力机制通过软对齐解决了源语言和目标语言之间的对齐问题,动态选择相关信息。
注意力机制的权重是如何计算的?
注意力机制的权重通过计算query与每个候选的相似度得出,然后使用softmax归一化为概率分布。
注意力机制的应用领域有哪些?
注意力机制广泛应用于机器翻译、图像描述、视觉问答等多个领域,不仅限于Transformer。
➡️