土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】11｜「注意力」的直觉

💡 原文中文，约24700字，阅读约需59分钟。

📝

内容提要

本文探讨了注意力机制的原理，强调其源于认知心理学与神经科学。注意力是处理信息的方式，涉及动态分配权重。人类的注意力是“软”的，允许同时关注多个信息。机器翻译中的对齐问题促使了软对齐的出现，注意力机制通过加权平均实现信息提取。softmax是实现可微选择的关键，注意力机制广泛应用于多个领域，而非仅限于Transformer。

🎯

关键要点

注意力机制源于认知心理学和神经科学，强调动态分配权重。
人类的注意力是“软”的，允许同时关注多个信息。
机器翻译中的对齐问题促使了软对齐的出现。
注意力机制通过加权平均实现信息提取，softmax是实现可微选择的关键。
注意力机制广泛应用于多个领域，而非仅限于Transformer。

🔎

延伸解读

注意力机制的来源与发展

注意力机制并非Transformer的专利，而是源于认知心理学和神经科学的长期研究。早在1890年，William James就对注意力进行了探讨，强调其在信息处理中的重要性。这一机制在机器翻译等领域的应用，标志着其逐渐成为深度学习中的核心组件。

软对齐的优势

软对齐相较于传统的硬对齐，允许模型在处理信息时动态分配权重。这种灵活性使得模型能够同时关注多个信息源，避免了信息的丢失。通过softmax实现的软对齐，不仅提高了翻译质量，还使得模型在长句处理上表现更佳。

可微性的重要性

在深度学习中，选择机制的可微性至关重要。使用softmax而非argmax的设计选择，确保了模型能够通过反向传播进行有效训练。可微性使得模型在学习过程中能够不断优化其选择策略，从而提升整体性能。

注意力机制的广泛应用

注意力机制不仅限于机器翻译，还广泛应用于图像描述、视觉问答等多个领域。其核心思想是通过加权平均从候选信息中提取最相关的部分，这一方法在不同任务中展现出强大的适应性和有效性。

❓

延伸问答

注意力机制的基本原理是什么？

注意力机制通过动态分配权重来处理信息，允许模型在多个候选中选择并加权提取信息。

人类的注意力与机器的注意力有什么不同？

人类的注意力是“软”的，允许同时关注多个信息，而机器的注意力机制通过加权平均实现信息提取。

为什么注意力机制需要使用softmax而不是argmax？

使用softmax可以保证权重的可微性，允许通过反向传播进行端到端训练，而argmax不可微，无法传递梯度。

注意力机制在机器翻译中如何应用？

在机器翻译中，注意力机制通过软对齐解决了源语言和目标语言之间的对齐问题，动态选择相关信息。

注意力机制的权重是如何计算的？

注意力机制的权重通过计算query与每个候选的相似度得出，然后使用softmax归一化为概率分布。

注意力机制的应用领域有哪些？

注意力机制广泛应用于机器翻译、图像描述、视觉问答等多个领域，不仅限于Transformer。

🏷️