中文小说多种类型命名实体识别语料库
原文中文,约300字,阅读约需1分钟。发表于: 。基于最大规模的多文类文学命名实体识别语料库,研究文学作品中不同类型实体的特征,并提出了几种基线命名实体识别模型,并进行了跨文类和跨域实验,结果表明文类差异显著影响 NER 性能,尽管不如文体领域与新闻领域之间的领域差异大,文学 NER 仍需要改进且由于文学作品中实体的高多样性,Out-of-Vocabulary(OOV)问题更具挑战性。
我们开发了一个塔加洛语命名实体识别(NER)数据集,填补了菲律宾语言中NER资源匮乏的空白。数据集包含约7.8k个文档,涵盖人名、组织和地点三个实体类型。我们对最先进的方法进行了实证评估,并公开发布了数据和处理代码,以促进塔加洛语自然语言处理的研究工作。