小红花·文摘

该论文研究了利用未标记数据、有限标记数据和基于简单 RNN 模型的硬蒸馏方法解决自然语言处理中预训练模型的问题。实验结果表明，软蒸馏和利用教师模型的中间表示可以提高学生模型性能，低资源环境下，学生模型可实现最多 26 倍的压缩比，多语言环境的扩展实验结果惊人。