BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

使用维基百科超链接自动构建大规模地理解析语料库

通过使用维基百科文章中的超链接将多个位置表达式与坐标关联起来,我们构建了 WHLL(Wikipedia Hyperlink-based Location Linking)语料库,该语料库包含 130 万篇文章,每篇文章大约包含 7.8 个独特的位置表达式。实验结果表明,通过消除位置表达式的歧义性,仍然存在改进的空间。

地理位置是人道主义响应的关键要素。最新的自然语言处理发展可以帮助从大量人道主义领域产生的报告和文件中提取关键信息。本研究利用Spacy和roBERTa进行人道主义文本的地理标记,提出了一个名为FeatureRank的地理编码方法。发现人道主义领域的数据不仅提高了分类器的性能,而且缓解了现有工具的偏见。需要更多来自非西方文件的资源,以确保现成的NER系统适用于人道主义领域的部署。

FeatureRank 人道主义文本 地理位置 地理标记 自然语言处理 语料库

相关推荐 去reddit讨论