Tik-to-Tok:一个逐令牌翻译语言模型的嵌入初始化策略用于有效语言适应

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文研究了使用高资源语言预训练的模型权重作为启动来降低获取低资源语言高质量语言模型所需的数据和计算量的方法,并提出了一种嵌入初始化方法FOCUS,该方法在适应XLM-R时优于先前的方法。

🎯

关键要点

  • 使用高资源语言预训练的模型权重可以降低获取低资源语言高质量语言模型所需的数据和计算量。

  • 为了适应新语言,需要调整预先训练的词汇表和嵌入。

  • 本文提出了一种嵌入初始化方法FOCUS,优于先前的方法。

  • FOCUS方法将新添加的令牌表示为预训练和新词汇表重叠的令牌组合。

  • 重叠的令牌是基于辅助令牌嵌入空间中的语义相似性选择的。

➡️

继续阅读