Ying’s Blog ·

《GPT 图解》笔记：QKV、多头注意力及掩码

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值，通过矩阵变换提取特征。多头注意力将输入分为多个子空间，从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”，以优化注意力计算。

🎯

🔎

QKV在注意力机制中扮演着关键角色。Query、Key和Value通过不同的矩阵变换提取特征，使得模型能够有效地捕捉输入数据中的重要信息。理解这些变换的过程有助于更好地掌握模型的工作原理，尤其是在处理复杂的自然语言任务时。

多头注意力通过将输入分为多个子空间，能够从不同角度学习特征。这种方法不仅提高了模型的表达能力，还能有效避免高维度带来的梯度优化困难。然而，需注意的是，若多个子空间最终学习到相似的特征，可能会导致注意力头的崩溃现象。

掩码在注意力计算中用于将不重要的信息权重设为接近“0”，从而优化模型的性能。特别是在处理填充符或其他无关信息时，掩码的使用能够显著提高模型的关注度和准确性。理解掩码的实现方式有助于更好地设计和调试注意力机制。

❓

QKV分别代表查询（Query）、键（Key）和值（Value）。

多头注意力将输入分为多个子空间，从不同角度学习特征，避免高维度导致的梯度优化困难。

掩码用于将不重要的信息权重设为接近“0”，以优化注意力计算。

QKV的变换过程包括计算相似度分数、得到注意力权重和生成新的上下文表示。

使用多个子空间可以衍生出不同的注意力矩阵，便于从不同角度学习，同时避免高维度导致的梯度优化困难。

Q和K的特征维度必须相同，而K和V的序列长度维度也必须相同。

🏷️