使用预训练嵌入初始化 Transformer
原文中文,约400字,阅读约需1分钟。发表于: 。使用随机初始化方案而非预训练嵌入已成为一种常见做法。这篇论文观察到使用预训练的词嵌入(如 GloVe、T5 和 mT5)会比随机初始化表现较差,而 BERT 和 mBERT 的嵌入表现更好。作者提出了两个可能导致这种结果的因素:模型对参数分布的敏感性和嵌入与位置编码的相互作用。同时,作者发现预训练的 GloVe、T5 和 mT5...
重新评估了先进的预训练语言模型中共享输入和输出嵌入权重的标准做法,通过解耦的嵌入提高了参数分配效率。在微调期间保持参数数量不变的情况下,实现了标准自然语言理解任务的性能改进。增加输出嵌入容量可以防止模型过度专注于预训练任务,使得Transformer表示更加普遍和易于传递到其他任务和语言。利用这些发现,能够训练出在XTREME基准上表现出色的模型。