SNP:结构化神经元级剪枝以保持注意力分数
原文中文,约200字,阅读约需1分钟。发表于: 。我们提出了一种新颖的图感知神经元级剪枝方法(SNP),通过剪枝数据图中信息较少的注意力分数和消除多头冗余,有效压缩和加速基于 Transformer 的模型,适用于边缘设备和服务器处理器。
基于 Transformers 的语言模型在 NLP 中表现出色,但训练和推理仍是障碍。通过稀疏性方法,利用生物网络机制,展示了基于模型的稀疏性方法在多样的 NLP 任务中表现出色,训练时间可快速到 10 倍,推理时间也有改善。