小红花·文摘

该文介绍了一个名为MULTICONER V2的数据集，用于细粒度命名实体识别，包括12种语言中的33个实体类别。该数据集从维基百科和维基数据等开放资源中编译而来，并且是公开可用的。基于XLM-RoBERTa基准进行的评估突显了该数据集所带来的独特挑战，包括细粒度分类困难和实体噪声对性能的影响。