ParaNames 1.0: 利用 Wikidata 创建一个包含 400 多种语言的实体名称语料库
原文中文,约1400字,阅读约需4分钟。
📝
内容提要
ParaNames 是一个多语言个人名库,涵盖 400 种语言和 1.18 亿个人名,支持命名实体识别和机器翻译。经过七年的新闻分析和维基百科挖掘,该库包含 20 万个名字及其变体,旨在改善名称搜索和机器学习。
🎯
关键要点
-
ParaNames 是一个多语言个人名库,涵盖 400 种语言和 1.18 亿个人名。
-
该库经过七年的新闻分析和维基百科挖掘,包含 20 万个名字及其变体。
-
ParaNames 支持命名实体识别和机器翻译,旨在改善名称搜索和机器学习。
-
该资源的更新将每日提供,能够为数据库和互联网上的名称搜索提供支持。
-
研究展示了如何使用维基百科和 Freebase 自动构建多语言命名实体识别注释器,达到竞争性的表现。
❓
延伸问答
ParaNames 1.0 是什么?
ParaNames 1.0 是一个多语言个人名库,涵盖 400 种语言和 1.18 亿个人名,支持命名实体识别和机器翻译。
ParaNames 如何改善名称搜索和机器学习?
ParaNames 通过提供多语言的个人名和变体,帮助机器学习系统学习命名实体识别规则,从而改善名称搜索和机器翻译。
ParaNames 的数据来源是什么?
ParaNames 的数据来源包括七年的新闻分析和维基百科挖掘。
ParaNames 包含多少个名字及其变体?
ParaNames 包含 20 万个名字及其变体。
ParaNames 的更新频率如何?
ParaNames 的更新将每日提供。
ParaNames 对非拉丁字母语言的支持如何?
ParaNames 提供了对应于常见实体类型的名称列表资源,以支持非拉丁字母语言的技术发展。
🏷️