本文介绍了一种有效运行超过可用DRAM容量的大型语言模型(LLMs)的方法,通过将模型参数存储在闪存中,并按需将其传输到DRAM中来解决计算和内存需求的挑战。作者构建了推理成本模型,考虑了闪存特性,引入了窗口化和行列捆绑两种主要技术。这种方法使得模型可以在可用DRAM容量的两倍大小下运行,并且相比于CPU和GPU的朴素加载方法,推理速度分别提高了4-5倍和20-25倍。
本研究提出了窗口化和行列捆绑两种技术来提高大型语言模型的运行效率,实现了在有限内存设备上的有效LLMs推理。通过这些方法,模型能够在可用DRAM容量的两倍大小的情况下运行,并显著提升了CPU和GPU推理速度。
完成下面两步后,将自动完成登录并继续当前操作。