SplitQuant:用于低比特神经网络量化的层分割
📝
内容提要
本研究解决了深度神经网络量化过程中由于异常值引起的精度下降问题。提出的SplitQuant方法通过将可量化层分割为三个数学上等效的层,并应用不同的缩放因子,有效地保留了异常值并改善了量化分辨率。实验结果表明,SplitQuant显著提高了模型的准确性,达到与原FP32模型相当的水平。
🏷️
标签
➡️