E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究提出了E-Sparse修剪度量设计,利用信息熵提高大型语言模型的稀疏性准确性,快速优化信息分布和节省内存。实验结果表明,E-Sparse可以显著加速模型推理,同时实现内存节省。
🎯
关键要点
- 该研究提出了E-Sparse修剪度量设计,利用信息熵提高大型语言模型的稀疏性准确性。
- 传统修剪方法在大型语言模型中的使用具有挑战性,训练过程代价高且计算需求大。
- E-Sparse通过引入信息熵和创新技术快速优化信息分布,解决N:M稀疏性对准确性的影响。
- E-Sparse通过FasterTransformer实现为Sparse-GEMM,并在NVIDIA Ampere GPU上运行。
- 对LLaMA系列和OPT模型的实验表明,E-Sparse可以显著加速模型推理(高达1.53倍),并实现内存节省(高达43.52%),在可接受的准确性损失范围内。
➡️