使用跨层注意力减小 Transformer 键 - 值缓存大小
原文中文,约200字,阅读约需1分钟。发表于: 。使用交叉层注意力(CLA)设计可以进一步减小关键 - 值缓存的大小,而几乎保持与未修改 MQA 相同的准确性,在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进,使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小
EL-attention是一种高效的无损注意力机制,通过扩展query并共享key和value来提高推断速度。