Pie：大规模语言模型推理的CPU内存池化

本研究针对大规模语言模型（LLM）推理中CPU和GPU内存交换带来的高延迟和低吞吐量问题，提出了一种新颖的推理框架Pie。通过智能的内存访问模式和自适应扩展机制，Pie在不影响前台计算的情况下，实现数据的高效平均分配和内存使用优化，显著提升了整体性能。实验结果表明，Pie在吞吐量上比现有解决方案vLLM和FlexGen得到了显著的提升和更低的延迟。

本研究提出了一种新颖的推理框架Pie，旨在解决大规模语言模型推理中的内存交换问题。通过智能内存访问和自适应扩展，Pie显著提升了性能，实验结果表明其吞吐量优于现有方案vLLM和FlexGen。

FlexGen cpu vLLM 内存内存交换性能提升推理框架语言模型