RoBERTurk:针对土耳其语进行 RoBERTa 的调整
原文中文,约200字,阅读约需1分钟。发表于: 。使用 BPE 分词工具,我们在土耳其语语料库上对 RoBERTa 进行预训练,模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型,在 IMST 数据集上表现不佳,在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数,且只使用了较小的预训练数据,我们公开了我们的预训练模型和分词工具。
使用BPE分词工具在土耳其语语料库上预训练RoBERTa模型,优于BERTurk模型在词性标注任务中,但在IMST数据集上表现不佳。在土库曼语的XTREME数据集上的命名实体识别任务中获得竞争性分数。公开了预训练模型和分词工具。