小红花·文摘

本研究提出多头潜在注意力（MLA）方法，旨在解决大语言模型的通信瓶颈。通过低秩矩阵缓存压缩KV状态，减少缓存大小并提高推理速度。同时引入TransMLA方法，以增强模型表现力。