MoE轻量化：在内存受限的GPU上高吞吐量的MoE推理

本研究针对在资源受限平台上高效部署混合专家模型（MoE）所面临的计算效率和内存利用问题，提出了一种高吞吐量的MoE批量推理系统MoE-Lightning。其创新性地引入了CPU-GPU-I/O流水线调度方法CGOPipe，并结合源于分层屋顶线模型的性能模型HRM，从而实现更高的资源利用率和吞吐量，能够显著超越现有的推理系统。

本研究提出了MoE-Lightning系统，旨在解决资源受限平台上混合专家模型的计算效率和内存利用问题。通过引入CGOPipe调度方法和HRM性能模型，实现了更高的资源利用率和吞吐量，显著优于现有推理系统。

CGOPipe HRM性能模型 MoE-Lightning gpu 内存混合专家模型资源利用率