一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
本文介绍了分组查询注意力和多查询注意力两种注意力机制,前者通过共享键和值矩阵减少内存成本,后者让所有头共享同一份键和值矩阵,每个头只保留一份查询参数,从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。
🎯
关键要点
- 分组查询注意力和多查询注意力是两种注意力机制。
- 分组查询注意力通过共享键和值矩阵减少内存成本。
- 多查询注意力让所有头共享同一份键和值矩阵,每个头只保留一份查询参数,从而减少参数量。
- GQA变体在大多数评估任务上的表现与MHA基线相当,并且平均优于MQA变体。
- 多查询注意力的核心特征是各自的Query矩阵,但共享Key和Value矩阵。
- MQA与MHA的本质区别在于建立Wqkv层的方式。
- 在MHA中,query、key、value每个向量均有768维度,而在MQA中,只有query是768维,key和value均只剩下96维。
- MQA通过矩阵乘法实现参数共享,使得每个头都能使用同一份key和value参数。
➡️