SpikeBERT: 从 BERT 进行两阶段知识蒸馏训练的语言 Spikformer
原文中文,约300字,阅读约需1分钟。发表于: 。我们改进了最近提出的脉冲变压器(即 Spikformer)以使其能够处理语言任务,并提出了一种两阶段知识蒸馏方法来训练它,该方法结合了通过从 BERT 对大量无标签文本进行知识蒸馏的预训练和通过再次从 BERT 在相同训练样本上进行知识蒸馏的微调来进行训练。通过广泛的实验证明,我们采用这种方法训练的模型,即 SpikeBERT,在英文和中文的文本分类任务上优于最先进的...
本文介绍了改进的脉冲变压器(Spikformer)用于处理语言任务,并提出了两阶段知识蒸馏方法来训练它。通过从BERT对无标签文本进行知识蒸馏的预训练和再次从BERT进行微调,训练出的SpikeBERT模型在英文和中文文本分类任务上表现优于最先进的SNNs,甚至与BERT相当,并且能够降低能量消耗。