结构之法算法之道 ·

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了分组查询注意力和多查询注意力两种注意力机制，前者通过共享键和值矩阵减少内存成本，后者让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。

🎯

关键要点

分组查询注意力和多查询注意力是两种注意力机制。
分组查询注意力通过共享键和值矩阵减少内存成本。
多查询注意力让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。
GQA变体在大多数评估任务上的表现与MHA基线相当，并且平均优于MQA变体。
多查询注意力的核心特征是各自的Query矩阵，但共享Key和Value矩阵。
MQA与MHA的本质区别在于建立Wqkv层的方式。
在MHA中，query、key、value每个向量均有768维度，而在MQA中，只有query是768维，key和value均只剩下96维。
MQA通过矩阵乘法实现参数共享，使得每个头都能使用同一份key和value参数。

🏷️

继续阅读

撒野作风 Wildstyle：在一个越来越不允许撒野的时代，撒野本身就是一种信仰
《D.T BABYLON SYSTEM》是YoungQueenz的一首重要作品，探讨历史与个人命运的交织。歌词叙述年轻人的家族史，反映香港的压迫与流亡经历...
Visual Studio中C++项目的NuGet PackageReference
Visual Studio 18.7版本开始支持在C++项目中使用<PackageReference>声明NuGet包依赖，旨在简化依赖管理，...
LG将在今年发布首款支持1000Hz刷新率的1080p游戏显示器
LG将在2026年下半年发布首款支持1000Hz刷新率的1080p游戏显示器25G590B。这款24.5英寸IPS屏幕专为电子竞技设计，具备AI场景优化和...
微软确认Windows 11 5月更新存在无法安装并触发0x800f0922错误代码自动回滚
微软确认Windows 11更新KB5089549因EFI系统分区空间不足导致安装失败，受影响设备在重启时会自动回滚，用户无需操作。微软已通过云端推送KI...
黑石集团将与谷歌成立合资企业，共同创建新的TPU云服务。
黑石集团与谷歌宣布成立合资企业，共同创建新的TPU云服务。黑石初始投资50亿美元，预计到2027年上线500MW的计算能力。谷歌将提供TPU、软件和服务，...
炎症老化全解析：从细胞着火到精准灭火的健康新思路
炎症老化是指因细胞衰老导致的慢性发炎状态，可能引发肌肉萎缩和脑退化等问题。免疫系统的老化加剧了炎症，且男性和女性的发炎模式存在差异。改善饮食、运动、睡眠和...

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

内容提要

关键要点

标签

继续阅读