BriefGPT - AI 论文速递 ·

智能无限：在真实系统上使用近存储处理进行快速大型语言模型训练

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本研究提出了一种通过闪存存储模型参数以支持大型语言模型（LLMs）高效运行的方法，采用“窗口化”和“行列捆绑”技术显著提升推理速度。同时，研究探讨了并行和分布式机器学习算法，优化数据处理，并提出新型执行技术L2L，降低内存使用，提高吞吐量，推动人工智能的普及。

🎯

❓

通过将模型参数存储在 DRAM 之外，使用闪存来满足超出 DRAM 容量的需求。

‘窗口化’通过重用已激活的神经元减少数据传输，‘行列捆绑’利用闪存的顺序数据访问能力增加数据块大小，显著提升推理速度。

L2L技术减少了45%的内存使用量，并提高了40%的吞吐量，推动了人工智能的普及。

这些算法优化了数据处理，特别是在预训练多个编码解码器LLM时，提高了效率。

通过结合稀疏感知、上下文自适应加载和面向硬件的设计，优化了在内存有限设备上的LLMs推理。

CPU的推理速度提升4-5倍，GPU的推理速度提升20-25倍。

🏷️