Transformer 中鲁棒性 N:M 稀疏训练的渐进梯度流
原文中文,约300字,阅读约需1分钟。发表于: 。现有稀疏训练方法在高稀疏度区域存在模型质量下降的问题,本文通过限制梯度传递以减少梯度噪声,提供了一种改善高稀疏度区域视觉和语言模型性能的方法,并针对模型精度和训练计算成本的权衡问题进行了评估。
该文章提出了一种高效的N:M稀疏深度神经网络(DNN)训练方案,通过双向权重修剪方法和稀疏加速器实现高效训练。实验结果表明,在2:8稀疏比率下,该方案相对于密集训练可实现1.75倍的加速,准确度损失仅为0.56%。在FPGA加速器上,训练吞吐量提高了2.97~25.22倍,能效提高了1.36~3.58倍。