小红花·文摘

本文介绍了一种名为 DeepSpeed-MoE 的深度学习模型训练及推断方案，通过 Mixture-of-Experts 模型架构实现。该方案采用新颖的模型压缩技术和高度优化的推断系统，能够在减小模型尺寸、提高能效和降低硬件资源要求等方面表现出色。