合并前对齐注意力头:转换MHA为GQA的有效方法

📝

内容提要

本研究解决了大型语言模型在输入序列长度增大时推理速度变慢的问题,提出了一种通过逐步去除冗余参数的低成本方法,将多头自注意力(MHA)模型修剪为关键-值查询(GQA)模型。通过对注意力头施加正交变换以提高相似性,我们的方法能够以高达87.5%的压缩比成功减少LLaMA2-7B模型的关键-值头数量,同时保持良好的性能。

➡️

继续阅读