小红花·文摘

本文介绍了一种通过权重剪枝和模型蒸馏技术训练稀疏的预训练变压器语言模型，并使用量化感知训练将这些模型压缩为8位精度的新方法。实验证明，该方法在多种自然语言任务中传输知识，并且是目前最好的压缩BERT模型的方法。