ParaNames 1.0: 利用 Wikidata 创建一个包含 400 多种语言的实体名称语料库

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究介绍了一种新的免费多语种名义实体资源,包含20多种语言、20万个人名和组织名及拼写变体。该资源可用于改进数据库、名称搜索和机器学习系统,每日更新。

🎯

关键要点

  • 本研究介绍了一种新的免费多语种名义实体资源。
  • 该资源包含20多种语言、20万个人名和组织名及拼写变体。
  • 资源可用于改进数据库、名称搜索和机器学习系统。
  • 该资源经过七年大规模多语言新闻分析和维基百科挖掘编制。
  • 描述了资源的创建方式、当前规模的统计数据和形态学屈折问题的解决方案。
  • 该资源的更新将每日提供。
➡️

继续阅读