小红花·文摘

本研究提出了窗口化和行列捆绑两种技术来提高大型语言模型的运行效率，实现了在有限内存设备上的有效LLMs推理。通过这些方法，模型能够在可用DRAM容量的两倍大小的情况下运行，并显著提升了CPU和GPU推理速度。