ParaNames 1.0: 利用 Wikidata 创建一个包含 400 多种语言的实体名称语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究介绍了一种新的免费多语种名义实体资源,包含20多种语言、20万个人名和组织名及拼写变体。该资源可用于改进数据库、名称搜索和机器学习系统,每日更新。
🎯
关键要点
- 本研究介绍了一种新的免费多语种名义实体资源。
- 该资源包含20多种语言、20万个人名和组织名及拼写变体。
- 资源可用于改进数据库、名称搜索和机器学习系统。
- 该资源经过七年大规模多语言新闻分析和维基百科挖掘编制。
- 描述了资源的创建方式、当前规模的统计数据和形态学屈折问题的解决方案。
- 该资源的更新将每日提供。
➡️