智能无限:在真实系统上使用近存储处理进行快速大型语言模型训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了两种技术,通过重新使用神经元和利用闪存的顺序数据访问能力,以满足大型语言模型的高效运行需求。这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行,并实现了推理速度的显著提升。研究为在内存有限的设备上进行有效的 LLMs 推理提供了新的解决方案。
🎯
关键要点
- 本研究提出了两种技术以满足大型语言模型的高效运行需求。
- 第一种技术是通过重新使用已激活的神经元来减少数据传输。
- 第二种技术是利用闪存的顺序数据访问能力来增加数据块大小。
- 这些方法使得模型能够在可用 DRAM 容量的两倍大小的情况下运行。
- 与传统加载方法相比,CPU 和 GPU 的推理速度分别提升了 4-5 倍和 20-25 倍。
- 研究为在内存有限的设备上进行有效的 LLMs 推理提供了新的解决方案。
➡️