MoE轻量化:在内存受限的GPU上高吞吐量的MoE推理
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对在资源受限平台上高效部署混合专家模型(MoE)所面临的计算效率和内存利用问题,提出了一种高吞吐量的MoE批量推理系统MoE-Lightning。其创新性地引入了CPU-GPU-I/O流水线调度方法CGOPipe,并结合源于分层屋顶线模型的性能模型HRM,从而实现更高的资源利用率和吞吐量,能够显著超越现有的推理系统。
本研究提出了MoE-Lightning系统,旨在解决资源受限平台上混合专家模型的计算效率和内存利用问题。通过引入CGOPipe调度方法和HRM性能模型,实现了更高的资源利用率和吞吐量,显著优于现有推理系统。