本研究通过将模型参数存储在闪存中,提出“窗口化”和“行列捆绑”技术,减少数据传输,提高数据块大小,使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。
本研究提出了窗口化和行列捆绑两种技术来提高大型语言模型的运行效率,实现了在有限内存设备上的有效LLMs推理。通过这些方法,模型能够在可用DRAM容量的两倍大小的情况下运行,并显著提升了CPU和GPU推理速度。
完成下面两步后,将自动完成登录并继续当前操作。