重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法,通过解耦的嵌入提高了参数分配效率。在微调期间保持参数数量不变的情况下,实现了标准自然语言理解任务的性能改进。增加输出嵌入容量可以防止模型过度专注于预训练任务,使得Transformer表示更加普遍和易于传递到其他任务和语言。利用这些发现,能够训练出在XTREME基准上表现出色的模型。
该论文提出了一种量化感知张量压缩训练方法,通过压缩Transformer模型的嵌入层和线性层,获得低精度的模型表示进行训练。通过层与层的蒸馏方法将预训练的Transformer模型转换为量化和张量压缩的学生模型,提高收敛速度。在自然语言理解任务中,表现出高压缩比、几乎无损的精度损失和显著的推断和训练加速。
完成下面两步后,将自动完成登录并继续当前操作。