巴伐利亚方言数据中的命名实体识别

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本研究使用WikiGoldSK数据集评估了多语言预训练语言模型在斯洛伐克语上的效果,并与现有的斯洛伐克NER数据集进行了比较。结果显示使用银标准数据集进行训练可以获得更好的结果。研究公开了数据集、代码和训练模型。

🎯

关键要点

  • 本研究旨在解决某些语种缺乏高质量手动标注数据集的问题。
  • 引入WikiGoldSK数据集评估多语言预训练语言模型在斯洛伐克语上的效果。
  • 与现有的银标准斯洛伐克NER数据集进行了比较。
  • 研究结果显示使用银标准数据集进行训练可以获得更好的结果。
  • 研究公开了数据集、代码和经过训练的模型,并采用可许可的许可条款。
➡️

继续阅读