《GPT 图解》笔记:QKV、多头注意力及掩码

《GPT 图解》笔记:QKV、多头注意力及掩码

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

🎯

关键要点

  • 注意力机制中的QKV分别代表查询、键和值,通过矩阵变换提取特征。

  • Query表示寻找的对象,Key表示被匹配的特征,Value表示需要读取的信息。

  • QKV的变换过程包括计算相似度分数、得到注意力权重和生成新的上下文表示。

  • 多头注意力将输入分为多个子空间,从不同角度学习特征,避免高维度导致的梯度优化困难。

  • 掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

延伸问答

QKV在注意力机制中分别代表什么?

QKV分别代表查询(Query)、键(Key)和值(Value)。

多头注意力的主要作用是什么?

多头注意力将输入分为多个子空间,从不同角度学习特征,避免高维度导致的梯度优化困难。

掩码在注意力机制中有什么用途?

掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

QKV的变换过程是怎样的?

QKV的变换过程包括计算相似度分数、得到注意力权重和生成新的上下文表示。

为什么要使用多个子空间而不是一个高维空间?

使用多个子空间可以衍生出不同的注意力矩阵,便于从不同角度学习,同时避免高维度导致的梯度优化困难。

QKV的特征维度有什么要求?

Q和K的特征维度必须相同,而K和V的序列长度维度也必须相同。

➡️

继续阅读