小红花·文摘

本文总结了MHA、GQA、MQA和MLA等注意力结构的源码及其演变过程，涵盖多头注意力、前馈神经网络和层归一化等实现细节。

MHA, GQA, MQA, MLA的代码

李文举 ·

姚期智团队推出的新型注意力机制TPA，通过动态张量分解优化QKV，节省90%内存且不降低性能，兼容RoPE位置编码，统一多种注意力设计。新模型T6已开源，实验结果在多个基准测试中表现优异。

姚期智团队开源新型注意力，节省90%内存不降性能，一个框架统一MHA/MQA/GQA

量子位 ·

本研究解决了大型语言模型在输入序列长度增大时推理速度变慢的问题，提出了一种通过逐步去除冗余参数的低成本方法，将多头自注意力（MHA）模型修剪为关键-值查询（GQA）模型。通过对注意力头施加正交变换以提高相似性，我们的方法能够以高达87.5%的压缩比成功减少LLaMA2-7B模型的关键-值头数量，同时保持良好的性能。

合并前对齐注意力头：转换MHA为GQA的有效方法

BriefGPT - AI 论文速递 ·

本文介绍了分组查询注意力和多查询注意力两种注意力机制，前者通过共享键和值矩阵减少内存成本，后者让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

结构之法算法之道 ·

MHA、MQA和GQA是不同版本的注意力机制。MHA具有多个头部，每个头部都有自己的QKV计算。MQA在所有Q头部中共享相同的K和V头部。GQA是MHA和MQA之间的折中，一定数量的Q头部共享一组K和V头部。MQA和MHA可以看作是GQA的特例。从MHA中获得MQA和GQA，对每个头部的K和V头部进行平均池化。在性能方面，GQA在MQA和MHA的优势之间提供了平衡。

MHA、MQA、GQA的差异与共性

YongYuan's homepage ·