MVQ:基于掩蔽向量量化的高效DNN压缩与加速
📝
内容提要
本研究解决了传统向量量化技术在DNN压缩中造成显著精度损失的问题。提出了一种新方法MVQ,通过N:M剪枝重要权重并利用掩蔽k-means算法最小化向量聚类误差,从而更好地保留重要权重。实验结果表明,MVQ在可比压缩比下超越了传统方法,显著提高了能源效率。
➡️
本研究解决了传统向量量化技术在DNN压缩中造成显著精度损失的问题。提出了一种新方法MVQ,通过N:M剪枝重要权重并利用掩蔽k-means算法最小化向量聚类误差,从而更好地保留重要权重。实验结果表明,MVQ在可比压缩比下超越了传统方法,显著提高了能源效率。