MEMORYLLM: 迈向自我可更新的大型语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了两种技术,通过重新使用神经元和利用闪存的顺序数据访问能力,以满足大型语言模型的高效运行需求。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行,并实现了CPU和GPU推理速度的显著提升。
🎯
关键要点
- 本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型的高效运行需求。
- 提出了两种主要技术:通过重新使用已激活的神经元来减少数据传输的“窗口化”,以及利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。
- 这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行。
- 与传统加载方法相比,CPU 和 GPU 分别实现了 4-5 倍和 20-25 倍的推理速度提升。
- 本研究结合稀疏感知、上下文自适应加载和面向硬件的设计,为在内存有限的设备上进行有效的 LLMs 推理铺平了道路。
➡️