小红花·文摘 - 小红花技术领袖俱乐部

多头注意力与分组查询注意力的温和介绍

多头注意力与分组查询注意力的温和介绍

MachineLearningMastery.com ·

解锁大型语言模型效率：长文本的成本优化策略

解锁大型语言模型效率：长文本的成本优化策略

DEV Community ·

本文介绍了分组查询注意力和多查询注意力两种注意力机制，前者通过共享键和值矩阵减少内存成本，后者让所有头共享同一份键和值矩阵，每个头只保留一份查询参数，从而减少参数量。两种注意力机制的区别在于建立Wqkv层的方式。

一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA

结构之法算法之道 ·