INT-FlashAttention:使Flash Attention适用于INT8量化

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究通过将模型参数存储在闪存中,提出“窗口化”和“行列捆绑”技术,减少数据传输,提高数据块大小,使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。

🎯

关键要点

  • 本研究通过使用闪存存储模型参数,以满足超过DRAM容量的大型语言模型的高效运行需求。
  • 提出了两种主要技术:窗口化和行列捆绑。
  • 窗口化技术通过重新使用已激活的神经元来减少数据传输。
  • 行列捆绑技术利用闪存的顺序数据访问能力来增加数据块大小。
  • 这些方法使模型能够在可用DRAM容量的两倍情况下运行。
  • 与传统加载方法相比,CPU和GPU推理速度分别提升4-5倍和20-25倍。
  • 结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。
➡️

继续阅读