土法炼钢兴趣小组的博客 ·

【Transformer 与注意力机制】02 向量与点积的几何直觉

💡 原文中文，约33400字，阅读约需80分钟。

📝

内容提要

点积是衡量向量对齐程度的重要运算，结合了长度和方向。在Transformer中，点积用于高效计算注意力。其代数和几何定义相辅相成，代数便于计算，几何提供直观理解。点积在高维空间有效，但需注意随机向量趋于正交的现象。与其他相似度度量相比，点积在工程应用中，尤其是在GPU并行计算时更具优势。

🎯

🔎

点积不仅是一个数学运算，它在几何上有深刻的意义。通过将向量视为箭头，点积可以被理解为两个箭头之间的对齐程度。这个几何视角帮助我们更直观地理解点积的结果，尤其是在高维空间中，尽管我们无法直接可视化，但仍然可以通过公式推导出夹角的关系。

在选择相似度度量时，点积相较于余弦相似度、欧氏距离等有其独特优势。点积不仅计算简单且速度快，尤其适合GPU并行计算。理解这些差异有助于在实际应用中选择合适的相似度度量，尤其是在处理大规模数据时。

在高维空间中，随机向量的点积趋向于接近零，这意味着它们往往是正交的。这一现象在使用注意力机制时需要特别注意，因为它可能导致模型在处理高维数据时的相似度计算不稳定。因此，在设计模型时，适当的缩放和正则化是必要的。

❓

点积用于高效计算注意力，衡量向量的对齐程度。

点积的代数定义为两个向量的对应元素相乘后求和，即 \\mathbf{a} \\cdot \\mathbf{b} = a_1 b_1 + a_2 b_2 + ... + a_n b_n。

点积衡量的是方向对齐，而欧氏距离衡量的是差异，注意力机制更关注相关性而非距离。

点积的几何定义为两个向量的长度乘以它们夹角的余弦，即 \\mathbf{a} \\cdot \\mathbf{b} = |\\mathbf{a}| \\cdot |\\mathbf{b}| \\cdot \\cos\theta。

在高维空间中，点积仍然有效，但需注意随机向量趋于正交的现象，导致相似度较低。

Transformer使用点积因为它可以直接通过矩阵乘法实现，且在训练中模型可以自调尺度。

🏷️