Pie: Pooling CPU Memory for Large-Scale Language Model Inference
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为Pie的新框架,旨在解决大规模语言模型推理中的CPU和GPU内存交换导致的高延迟和低吞吐量问题。通过智能内存访问和自适应扩展,Pie优化了内存使用,显著提高了性能,实验结果显示其吞吐量优于现有方案。
🎯
关键要点
-
本研究提出了一种名为Pie的新框架,旨在解决大规模语言模型推理中的CPU和GPU内存交换导致的高延迟和低吞吐量问题。
-
Pie通过智能的内存访问模式和自适应扩展机制,实现数据的高效平均分配和内存使用优化。
-
实验结果显示,Pie在吞吐量上优于现有方案vLLM和FlexGen,并且具有更低的延迟。
-
Pie的设计不影响前台计算,显著提升了整体性能。
🏷️