Pie:大规模语言模型推理的CPU内存池化
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对大规模语言模型(LLM)推理中CPU和GPU内存交换带来的高延迟和低吞吐量问题,提出了一种新颖的推理框架Pie。通过智能的内存访问模式和自适应扩展机制,Pie在不影响前台计算的情况下,实现数据的高效平均分配和内存使用优化,显著提升了整体性能。实验结果表明,Pie在吞吐量上比现有解决方案vLLM和FlexGen得到了显著的提升和更低的延迟。
本研究提出了一种新颖的推理框架Pie,旨在解决大规模语言模型推理中的内存交换问题。通过智能内存访问和自适应扩展,Pie显著提升了性能,实验结果表明其吞吐量优于现有方案vLLM和FlexGen。