STUN:结构化先行后非结构化的可扩展MoE剪枝
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
混合专家(MoE)架构通过增加模型参数但仅激活部分参数来提高大型语言模型(LLMs)性能。研究发现,一些专家在预训练期间编码了冗余知识。提出了一种将相似专家分组并修剪以提高模型参数效率的方法。通过修剪两个最先进的MoE模型验证了方法的有效性。发布了代码和修剪过的MoE模型。
🎯
关键要点
- 混合专家(MoE)架构通过增加模型参数但仅激活部分参数来提高大型语言模型(LLMs)性能。
- 专家数量增加导致的内存消耗对模型在实际应用中的部署构成挑战。
- 研究发现一些专家在预训练期间编码了冗余知识。
- 提出了一种将相似专家分组并修剪以提高模型参数效率的方法。
- 通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型验证了方法的有效性。
- 评估结果显示该方法在各种自然语言任务上优于其他模型修剪方法。
- 将发布代码和修剪过的MoE模型以便于未来研究。
➡️