中文小说多种类型命名实体识别语料库

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们开发了一个塔加洛语命名实体识别(NER)数据集,填补了菲律宾语言中NER资源匮乏的空白。数据集包含约7.8k个文档,涵盖人名、组织和地点三个实体类型。我们对最先进的方法进行了实证评估,并公开发布了数据和处理代码,以促进塔加洛语自然语言处理的研究工作。

🎯

关键要点

  • 开发了塔加洛语命名实体识别(NER)数据集,填补菲律宾语言中NER资源匮乏的空白。
  • 数据集包含约7.8k个文档,涵盖人名、组织和地点三个实体类型。
  • 文本来源于包含新闻报道的预训练语料库,由母语人士迭代标注。
  • 在有监督学习和迁移学习环境中对最先进的方法进行了广泛的实证评估。
  • 公开发布了数据和处理代码,以激励未来在塔加洛语自然语言处理方面的研究工作。
➡️

继续阅读