MultiCoNER v2: 用于细粒度和嘈杂的命名实体识别的大型多语言数据集
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
该文介绍了一个名为MULTICONER V2的数据集,用于细粒度命名实体识别,包括12种语言中的33个实体类别。该数据集从维基百科和维基数据等开放资源中编译而来,并且是公开可用的。基于XLM-RoBERTa基准进行的评估突显了该数据集所带来的独特挑战,包括细粒度分类困难和实体噪声对性能的影响。
🎯
关键要点
- MULTICONER V2 数据集用于细粒度命名实体识别,涵盖 12 种语言中的 33 个实体类别。
- 该数据集旨在解决 NER 中的实际挑战,包括处理复杂实体和输入错误导致的噪声。
- 数据集来源于维基百科和维基数据等开放资源,并且是公开可用的。
- 基于 XLM-RoBERTa 基准的评估显示,细粒度分类困难,所有语言的宏 F1 分数仅为 0.63。
- 损坏策略显著影响性能,实体损坏导致的性能下降比非实体损坏高 9%。
- 实体噪声对性能的影响大于环境噪声。
🏷️
标签
➡️