INT-FlashAttention:使Flash Attention适用于INT8量化
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对自注意力模块在序列长度上的时间和内存复杂度问题,提出了INT-FlashAttention,一个与FlashAttention前向工作流兼容的首个INT8量化架构。其显著提升了Ampere GPU上FlashAttention的推理速度,实验结果显示INT-FlashAttention在推理速度上提高了72%,量化误差降低了82%。
本研究通过将模型参数存储在闪存中,提出“窗口化”和“行列捆绑”技术,减少数据传输,提高数据块大小,使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。