MoE轻量化:在内存受限的GPU上高吞吐量的MoE推理

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了MoE-Lightning系统,旨在解决资源受限平台上混合专家模型的计算效率和内存利用问题。通过引入CGOPipe调度方法和HRM性能模型,实现了更高的资源利用率和吞吐量,显著优于现有推理系统。

原文中文,约300字,阅读约需1分钟。
阅读原文