小红花·文摘

重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法，通过解耦的嵌入提高了参数分配效率。在微调期间保持参数数量不变的情况下，实现了标准自然语言理解任务的性能改进。增加输出嵌入容量可以防止模型过度专注于预训练任务，使得Transformer表示更加普遍和易于传递到其他任务和语言。利用这些发现，能够训练出在XTREME基准上表现出色的模型。