巴伐利亚方言数据中的命名实体识别
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本研究使用WikiGoldSK数据集评估了多语言预训练语言模型在斯洛伐克语上的效果,并与现有的斯洛伐克NER数据集进行了比较。结果显示使用银标准数据集进行训练可以获得更好的结果。研究公开了数据集、代码和训练模型。
🎯
关键要点
- 本研究旨在解决某些语种缺乏高质量手动标注数据集的问题。
- 引入WikiGoldSK数据集评估多语言预训练语言模型在斯洛伐克语上的效果。
- 与现有的银标准斯洛伐克NER数据集进行了比较。
- 研究结果显示使用银标准数据集进行训练可以获得更好的结果。
- 研究公开了数据集、代码和经过训练的模型,并采用可许可的许可条款。
➡️