MHA、MQA、GQA的差异与共性

YongYuan's homepage YongYuan's homepage ·

MHA、MQA和GQA是不同版本的注意力机制。MHA具有多个头部,每个头部都有自己的QKV计算。MQA在所有Q头部中共享相同的K和V头部。GQA是MHA和MQA之间的折中,一定数量的Q头部共享一组K和V头部。MQA和MHA可以看作是GQA的特例。从MHA中获得MQA和GQA,对每个头部的K和V头部进行平均池化。在性能方面,GQA在MQA和MHA的优势之间提供了平衡。

原文中文,约1100字,阅读约需3分钟。
阅读原文