零资源跨语言词性标注
原文中文,约300字,阅读约需1分钟。发表于: 。零资源环境中的词性标注可以是一种有效的方法,当没有标记的训练数据可用时,特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法,并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言,法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论...
本文研究了零资源环境中的词性标注方法,适用于资源匮乏的语言。通过预训练的多语言语言模型或源语言标签映射到目标语言并训练序列标注模型,可以有效进行词性标注。研究结果表明,在零资源语言中进行映射对于预测词性标签是有益的。