小红花·文摘 - 小红花技术领袖俱乐部

《GPT 图解》笔记：QKV、多头注意力及掩码

《GPT 图解》笔记：QKV、多头注意力及掩码

Ying’s Blog ·

本研究探讨了大语言模型中的键值缓存压缩技术，提出了多种量化方法以提高内存效率和推理速度。通过KIVI、LESS、MiKV等算法，显著降低了内存占用并提升了吞吐量，优化了模型性能。这些方法在保持生成质量的同时，实现了高压缩比和更大的上下文长度，为资源受限环境中的大语言模型应用提供了新思路。

零延迟QKV压缩以减轻大型语言模型推理中的KV缓存和网络瓶颈

BriefGPT - AI 论文速递 ·

该文介绍了一种基于键值记忆的注意力机制模型，用于神经机器翻译。该模型通过维护及时更新的键内存和固定值内存来存储源语句的表示，以便在每个解码步骤时，可以关注更合适的源单词来预测下一个目标单词，从而提高翻译的适用性。实验结果表明该模型在中英文和WMT17德英翻译任务中表现优越。

神经注意力：利用神经网络增强自注意力机制中的 QKV 计算

BriefGPT - AI 论文速递 ·