GSAP-NER: 以机器学习模型和数据集为焦点的学术实体提取的新任务、语料库和基准线

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

命名实体识别(NER)模型在NLP任务中起关键作用。本文发布了一个包含100个手动注释的科学出版物语料库,并提供了一个围绕ML模型和数据集的基准模型。数据集还包含了与非正式提及相关的注释。

🎯

关键要点

  • 命名实体识别(NER)模型在自然语言处理(NLP)任务中起关键作用。
  • NER在信息抽取(IE)和文本理解等任务中应用广泛。
  • 学术写作中对机器学习模型和数据集的引用需要准确识别。
  • 现有数据集未将细粒度类型(如ML模型和模型架构)视为单独实体类型。
  • 本文发布了一个包含100个手动注释的科学出版物语料库。
  • 提供了一个围绕ML模型和数据集的10种实体类型的基准模型。
  • 数据集还包含与非正式提及相关的注释,例如“我们的BERT模型”或“图像CNN”。
  • 真实的数据集和代码可在指定URL找到,以便复制模型训练。
➡️

继续阅读