小红花·文摘

机器之心 ·

本文提出了一种名为MHA2MLA的方法，旨在解决深度学习模型中多头注意力的高成本问题。该方法通过使用0.3%到0.6%的数据，显著降低推理成本并恢复性能，同时压缩KV缓存。

BriefGPT - AI 论文速递 ·