注释错误与 NER:OntoNotes 5.0 研究
原文中文,约300字,阅读约需1分钟。发表于: 。该研究通过使用三种简单技术在 OntoNotes 5.0 语料库中检测注释错误,对英文命名实体识别(Named Entity Recognition,NER)的训练集、开发集和测试集进行了大量修正,提高了 1.23% 的整体 F 分数,对某些实体类型的改进超过 10%。这些技术可应用于其他 NER 数据集和其他序列标记任务。
现代命名实体识别系统在神经模型时代中性能稳步提高。本文通过对最高性能NER模型的测试输出进行分析,并在测试集上引入新的文档级注释,对其性能进行评估。通过对错误进行分类,超越F1分数,解释NER的真实技术水平并指导未来研究。回顾了之前纠正测试集缺陷的尝试,并引入了一个新的纠正版本CoNLL#,解决了系统性和常见错误,允许进行低噪声、可解释的错误分析。