ProMoE:基于先进缓存的快速MoE大语言模型服务
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究提出了QMoE框架,将1.6万亿参数的SwitchTransformer模型压缩至160GB,压缩比达到20倍,且在单个GPU上执行时间不足一天,运行时开销低于5%。
🎯
关键要点
- 研究提出了QMoE框架
- 将1.6万亿参数的SwitchTransformer模型压缩至160GB
- 压缩比达到20倍,每个参数0.8个比特
- 在单个GPU上执行时间不足一天
- 实现了较少的准确性损失
- 适用于廉价服务器如4x NVIDIA A6000或8x NVIDIA 3090 GPU
- 运行时开销低于5%
➡️