GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
命名实体识别(NER)模型在NLP任务中起关键作用。本文发布了一个包含100个手动注释的科学出版物语料库,并提供了一个围绕ML模型和数据集的基准模型。数据集还包含了与非正式提及相关的注释。
🎯
关键要点
-
命名实体识别(NER)模型在自然语言处理(NLP)任务中起关键作用。
-
NER在信息抽取(IE)和文本理解等任务中应用广泛。
-
学术写作中对机器学习模型和数据集的引用需要准确识别。
-
现有数据集未将细粒度类型(如ML模型和模型架构)视为单独实体类型。
-
本文发布了一个包含100个手动注释的科学出版物语料库。
-
提供了一个围绕ML模型和数据集的10种实体类型的基准模型。
-
数据集还包含与非正式提及相关的注释,例如“我们的BERT模型”或“图像CNN”。
-
真实的数据集和代码可在指定URL找到,以便复制模型训练。
➡️