使用预训练嵌入初始化 Transformer

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法,通过解耦的嵌入提高了参数分配效率。在微调期间保持参数数量不变的情况下,实现了标准自然语言理解任务的性能改进。增加输出嵌入容量可以防止模型过度专注于预训练任务,使得Transformer表示更加普遍和易于传递到其他任务和语言。利用这些发现,能够训练出在XTREME基准上表现出色的模型。

🎯

关键要点

  • 重新评估了共享输入和输出嵌入权重的做法,解耦嵌入提供更好的建模灵活性。
  • 通过重新分配输入嵌入参数,提高了多语言模型的参数分配效率。
  • 在保持相同参数数量的情况下,实现了自然语言理解任务的性能改进。
  • 增加输出嵌入容量可以防止模型过度专注于预训练任务。
  • 更大的输出嵌入鼓励Transformer表示更加普遍,易于传递到其他任务和语言。
  • 利用这些发现,训练出在XTREME基准上表现出色的模型。
➡️

继续阅读