InfLLM: 揭示 LLM 对于无需训练的记忆理解极长序列的内在能力

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了两种技术,通过重新使用神经元和利用闪存的顺序数据访问能力,以满足大型语言模型的高效运行需求。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行,并实现了CPU和GPU推理速度的显著提升。

🎯

关键要点

  • 本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型的高效运行需求。

  • 提出了两种主要技术:通过重新使用已激活的神经元来减少数据传输的“窗口化”,以及利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。

  • 这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行。

  • 与传统加载方法相比,CPU 和 GPU 分别实现了 4-5 倍和 20-25 倍的推理速度提升。

  • 本研究结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。

➡️

继续阅读