论文阅读:MHA、MQA、GQA的差异与共性
原文中文,约1100字,阅读约需3分钟。发表于: 。MHA、MQA、GQA差异 MHA:Multi-Head Attention,QKV 三部分有相同数量的头,且一一对应。每次做 Attention,head_i 的 QKV 做好自己的运算就可以,输出时各个头加起来就行。 MQA:Multi-Query Attention,让 Q 仍然保持原来的头数,但 K 和 V 只有一个头,相当于所有的 Q 头共享一组 K 和 V 头,所以叫做...
MHA、MQA和GQA是不同版本的注意力机制。MHA具有多个头部,每个头部都有自己的QKV计算。MQA在所有Q头部中共享相同的K和V头部。GQA是MHA和MQA之间的折中,一定数量的Q头部共享一组K和V头部。MQA和MHA可以看作是GQA的特例。从MHA中获得MQA和GQA,对每个头部的K和V头部进行平均池化。在性能方面,GQA在MQA和MHA的优势之间提供了平衡。