KoCoNovel:韩国小说中的人物指代注释数据集
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文介绍了多个新数据集,涵盖指代消解和命名实体识别等任务,特别是包含大量文学文本的注释数据集。这些数据集旨在评估跨领域性能,分析指代特征,推动自然语言理解研究的发展。
🎯
关键要点
- 新数据集包含100部英文小说的29,103个指代注释,文档平均长度为2,105.3个单词,显著长于其他基准数据集。
- KoCHET数据集为韩国文化遗产提供命名实体识别、关系提取和实体类型识别的语料库,涵盖所有相关实体类型。
- Project Dialogism Novel Corpus (PDNC)是最大的英语文学文本引用注释数据集,包含22部小说中的35,978个引用的注释。
- 基于多文类文学命名实体识别语料库的研究表明,文类差异显著影响NER性能,文学作品中的实体多样性带来OOV问题的挑战。
- 构建并发布的韩文NLI和STS数据集(KorNLI和KorSTS)旨在加速韩文自然语言理解研究。
- 俄语指代消解语料库(RuCoCo)包含一百万个单词和约15万个提及,旨在保持高注释者一致性。
- 孟加拉语文本核指标注的数据集BenCoref强调文本领域变化对核指现象的影响,并呼吁更多特定语言资源的需求。
- 新的众包数据集用于多句理解文本,评估阅读模型解决复杂指代消解的能力,表现显著优于现有基准模型。
- 大规模英语数据集PreCo设计用于解决指代消解中的核心挑战,强调实体表示和训练与测试集的重叠性。
- 研究评估了基于规则和基于神经网络的共指系统在不同文本领域的表现,揭示了领域和文档长度的影响。
❓
延伸问答
KoCoNovel数据集的主要特点是什么?
KoCoNovel数据集包含100部英文小说的29,103个指代注释,文档平均长度为2,105.3个单词,显著长于其他基准数据集。
KoCHET数据集的用途是什么?
KoCHET数据集为韩国文化遗产提供命名实体识别、关系提取和实体类型识别的语料库,涵盖所有相关实体类型。
Project Dialogism Novel Corpus (PDNC)有什么特别之处?
PDNC是最大的英语文学文本引用注释数据集,包含22部小说中的35,978个引用的注释,提供全面的引用属性评估。
不同文类对命名实体识别(NER)性能的影响是什么?
研究表明,文类差异显著影响NER性能,文学作品中的实体多样性带来OOV问题的挑战。
KorNLI和KorSTS数据集的目的是什么?
KorNLI和KorSTS数据集旨在加速韩文自然语言理解研究,提供基于机器翻译和手动翻译的训练和测试集。
RuCoCo数据集的特点是什么?
RuCoCo包含一百万个单词和约15万个提及,旨在保持高注释者一致性,主要用于俄语指代消解。
➡️