本研究提出了一种新颖的推理框架Pie,旨在解决大规模语言模型推理中的内存交换问题。通过智能内存访问和自适应扩展,Pie显著提升了性能,实验结果表明其吞吐量优于现有方案vLLM和FlexGen。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: