该论文研究了利用未标记数据、有限标记数据和基于简单 RNN 模型的硬蒸馏方法解决自然语言处理中预训练模型的问题。实验结果表明,软蒸馏和利用教师模型的中间表示可以提高学生模型性能,低资源环境下,学生模型可实现最多 26 倍的压缩比,多语言环境的扩展实验结果惊人。
完成下面两步后,将自动完成登录并继续当前操作。