小红花·文摘 - 小红花技术领袖俱乐部

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

机器之心 ·

本文介绍了Multi-Query Attention技术，可共享Key和Value矩阵，提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异，本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%，微调后的模型效果更好。

通透理解FlashAttention与FlashAttention2：全面降低显存读写、加快计算速度

结构之法算法之道 ·