STUN:结构化先行后非结构化的可扩展MoE剪枝

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

混合专家(MoE)架构通过增加模型参数但仅激活部分参数来提高大型语言模型(LLMs)性能。研究发现,一些专家在预训练期间编码了冗余知识。提出了一种将相似专家分组并修剪以提高模型参数效率的方法。通过修剪两个最先进的MoE模型验证了方法的有效性。发布了代码和修剪过的MoE模型。

🎯

关键要点

  • 混合专家(MoE)架构通过增加模型参数但仅激活部分参数来提高大型语言模型(LLMs)性能。
  • 专家数量增加导致的内存消耗对模型在实际应用中的部署构成挑战。
  • 研究发现一些专家在预训练期间编码了冗余知识。
  • 提出了一种将相似专家分组并修剪以提高模型参数效率的方法。
  • 通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型验证了方法的有效性。
  • 评估结果显示该方法在各种自然语言任务上优于其他模型修剪方法。
  • 将发布代码和修剪过的MoE模型以便于未来研究。
➡️

继续阅读