Pie: Pooling CPU Memory for Large-Scale Language Model Inference

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为Pie的新框架,旨在解决大规模语言模型推理中的CPU和GPU内存交换导致的高延迟和低吞吐量问题。通过智能内存访问和自适应扩展,Pie优化了内存使用,显著提高了性能,实验结果显示其吞吐量优于现有方案。

🎯

关键要点

  • 本研究提出了一种名为Pie的新框架,旨在解决大规模语言模型推理中的CPU和GPU内存交换导致的高延迟和低吞吐量问题。

  • Pie通过智能的内存访问模式和自适应扩展机制,实现数据的高效平均分配和内存使用优化。

  • 实验结果显示,Pie在吞吐量上优于现有方案vLLM和FlexGen,并且具有更低的延迟。

  • Pie的设计不影响前台计算,显著提升了整体性能。

🏷️

标签

➡️

继续阅读