闪存中的LLM:有限内存下的大型语言模型高效推理
原文英文,约300词,阅读约需1分钟。发表于: 。This paper was accepted at the ACL 2024 Large language models (LLMs) are central to modern natural language processing, delivering exceptional performance in various tasks. However, their...
本文介绍了一种有效运行超过可用DRAM容量的大型语言模型(LLMs)的方法,通过将模型参数存储在闪存中,并按需将其传输到DRAM中来解决计算和内存需求的挑战。作者构建了推理成本模型,考虑了闪存特性,引入了窗口化和行列捆绑两种主要技术。这种方法使得模型可以在可用DRAM容量的两倍大小下运行,并且相比于CPU和GPU的朴素加载方法,推理速度分别提高了4-5倍和20-25倍。