Pie:大规模语言模型推理的CPU内存池化

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的推理框架Pie,旨在解决大规模语言模型推理中的内存交换问题。通过智能内存访问和自适应扩展,Pie显著提升了性能,实验结果表明其吞吐量优于现有方案vLLM和FlexGen。

原文中文,约300字,阅读约需1分钟。
阅读原文