QueryNER: 电子商务查询的分割
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 QueryNER,一个手动注释的数据集和相应模型,用于电子商务查询分割。我们的研究工作关注的是将查询分成有意义的块,而不是仅仅提取产品标题或查询的特定方面。通过实验比较标记结果和令牌和实体删除方法来恢复无效和低召回的查询,我们展示了如何使用简单的数据增强技术使模型对噪声更加稳健。我们提供了 QueryNER 数据集的公开可用性。
命名实体识别(NER)模型在自然语言处理任务中起关键作用。本文发布了一个包含100个手动注释的科学出版物语料库,并提供了一个围绕ML模型和数据集的10种实体类型的基准模型。数据集还包含了与非正式提及相关的注释。