MHA、MQA、GQA的差异与共性

MHA、MQA、GQA差异 MHA：Multi-Head Attention，QKV 三部分有相同数量的头，且一一对应。每次做 Attention，head_i 的 QKV 做好自己的运算就可以，输出时各个头加起来就行。 MQA：Multi-Query Attention，让 Q 仍然保持原来的头数，但 K 和 V 只有一个头，相当于所有的 Q 头共享一组 K 和 V 头，所以叫做...

MHA、MQA和GQA是不同版本的注意力机制。MHA具有多个头部，每个头部都有自己的QKV计算。MQA在所有Q头部中共享相同的K和V头部。GQA是MHA和MQA之间的折中，一定数量的Q头部共享一组K和V头部。MQA和MHA可以看作是GQA的特例。从MHA中获得MQA和GQA，对每个头部的K和V头部进行平均池化。在性能方面，GQA在MQA和MHA的优势之间提供了平衡。

GQA MHA MQA attention mechanisms performance