RoBERTurk:针对土耳其语进行 RoBERTa 的调整

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

使用BPE分词工具在土耳其语语料库上预训练RoBERTa模型,优于BERTurk模型在词性标注任务中,但在IMST数据集上表现不佳。在土库曼语的XTREME数据集上的命名实体识别任务中获得竞争性分数。公开了预训练模型和分词工具。

🎯

关键要点

  • 使用BPE分词工具对RoBERTa模型进行预训练。

  • 模型在土耳其语BOUN数据集上的词性标注任务中优于BERTurk模型。

  • 在IMST数据集上的表现不佳。

  • 在土库曼语XTREME数据集上的命名实体识别任务中获得竞争性分数。

  • 仅使用较小的预训练数据。

  • 公开了预训练模型和分词工具。

➡️

继续阅读