小红花·文摘

本文总结了MHA、GQA、MQA和MLA等注意力结构的源码及其演变过程，涵盖多头注意力、前馈神经网络和层归一化等实现细节。

MHA, GQA, MQA, MLA的代码

李文举 ·

姚期智团队推出的新型注意力机制TPA，通过动态张量分解优化QKV，节省90%内存且不降低性能，兼容RoPE位置编码，统一多种注意力设计。新模型T6已开源，实验结果在多个基准测试中表现优异。

姚期智团队开源新型注意力，节省90%内存不降性能，一个框架统一MHA/MQA/GQA

量子位 ·

Tidal 正在重塑其无损和沉浸式音频格式

The Verge ·

本研究介绍了一种新型数据集标注技术Markup-QA，通过将问题回答包含在标记中，有助于评估模型在语句生成和VQA方面的能力。同时，设计了NuScenes-MQA数据集，侧重于自动驾驶任务的描述能力和准确的问答。

NuScenes-MQA：使用标记注释集成评估自动驾驶数据集的标题和问答

BriefGPT - AI 论文速递 ·

本文介绍了分组查询注意力和多查询注意力两种注意力机制，前者通过共享键和值矩阵减少内存成本，后者让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

结构之法算法之道 ·

MHA、MQA和GQA是不同版本的注意力机制。MHA具有多个头部，每个头部都有自己的QKV计算。MQA在所有Q头部中共享相同的K和V头部。GQA是MHA和MQA之间的折中，一定数量的Q头部共享一组K和V头部。MQA和MHA可以看作是GQA的特例。从MHA中获得MQA和GQA，对每个头部的K和V头部进行平均池化。在性能方面，GQA在MQA和MHA的优势之间提供了平衡。

MHA、MQA、GQA的差异与共性

YongYuan's homepage ·