映射过去:通过 Wikidata 地理链接 20 世纪早期的瑞典百科全书
内容提要
本文探讨了自然语言处理(NLP)领域的研究,包括利用维基百科和Wikidata进行文化和地理分析、提高数据预测的成本效益,以及通过新方法提取人物生命轨迹。这些研究旨在改善数据的可用性和准确性,推动社会科学研究和政策决策。
关键要点
-
研究了超过 10,300 个 Encyclopédie 条目与 Wikidata 识别符的注释,分析了历史人物的文化背景及其空间、时间和性别分布。
-
提出了一种利用开放源代码的地理定位维基百科文章文本信息的新方法,提高了社区层面的资产财富和教育成果的预测成本效益。
-
介绍了 JELLY 方法,通过多位置学习文档和位置的编码器,更有效地识别文档空间重点。
-
使用 mGENRE 多语言实体链接模型与 Wikipedia API Search 结合的方法,显著提高了冰岛语数据的标注覆盖率。
-
调查了自然语言处理领域文章的地理分布与发表成功率及引用量的关系,发现地理多样性差距仍在增加。
-
研究了数据可用性对现代 NLP 系统质量的影响,探讨了跨语言一致性及其地理和经济因素。
-
提出了一个基于问题回答技术的框架,能从网页中提取新事实并推荐给 Wikidata 编辑人员,实验结果显示其提取潜力巨大。
-
通过挖掘 Wikipedia 上的人物传记页面,成功提取了人物生命轨迹,并提供了相关数据集以促进研究。
-
提出了一种利用人类编写的指南书知识改善地理定位的方法,显著优于现有的只使用图像的地理定位方法。
延伸问答
这篇文章如何利用Wikidata进行文化和地理分析?
文章通过分析超过10,300个Encyclopédie条目与Wikidata识别符的注释,研究历史人物的文化背景及其空间、时间和性别分布。
JELLY方法的主要功能是什么?
JELLY方法通过多位置学习文档和位置的编码器,更有效地识别文档的空间重点。
文章中提到的mGENRE模型有什么优势?
mGENRE模型与Wikipedia API Search结合使用,显著提高了冰岛语数据的标注覆盖率,从30.9%提升至53.9%。
自然语言处理领域的地理分布有什么变化?
研究发现,自2000年代初以来,自然语言处理领域文章的地理多样性差距仍在增加,尽管采取了一些措施来改善。
如何通过挖掘Wikipedia人物传记页面提取生命轨迹?
通过结合COSMOS模型的半监督学习和对比学习思想,成功提取了人物生命轨迹,并提供了相关数据集以促进研究。
文章提出的基于问题回答技术的框架有什么潜力?
该框架能从网页中提取新事实并推荐给Wikidata编辑人员,实验结果显示其提取潜力巨大,平均F1得分为84.07。