INT-FlashAttention:使Flash Attention适用于INT8量化
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究通过将模型参数存储在闪存中,提出“窗口化”和“行列捆绑”技术,减少数据传输,提高数据块大小,使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。
🎯
关键要点
- 本研究通过使用闪存存储模型参数,以满足超过DRAM容量的大型语言模型的高效运行需求。
- 提出了两种主要技术:窗口化和行列捆绑。
- 窗口化技术通过重新使用已激活的神经元来减少数据传输。
- 行列捆绑技术利用闪存的顺序数据访问能力来增加数据块大小。
- 这些方法使模型能够在可用DRAM容量的两倍情况下运行。
- 与传统加载方法相比,CPU和GPU推理速度分别提升4-5倍和20-25倍。
- 结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。
➡️