E-Sparse: 通过基于熵的 N:M 稀疏性提升大型语言模型推理
原文中文,约400字,阅读约需1分钟。发表于: 。传统修剪方法在大型语言模型中的使用具有挑战性,因为训练过程代价高且计算需求大。我们首次引入隐藏状态特征的信息熵作为修剪度量设计,即 E-Sparse,以提高大型语言模型的 N:M 稀疏性准确性,并通过引入信息熵和几种创新技术来快速优化信息分布和应对 N:M 稀疏性对准确性的影响。E-Sparse 通过 FasterTransformer 实现为 Sparse-GEMM,并在 NVIDIA...
该研究提出了E-Sparse修剪度量设计,利用信息熵提高大型语言模型的稀疏性准确性,快速优化信息分布和节省内存。实验结果表明,E-Sparse可以显著加速模型推理,同时实现内存节省。