小红花·文摘

本文介绍了Multi-Query Attention技术，可共享Key和Value矩阵，提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异，本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%，微调后的模型效果更好。