基于英文词典语义匹配的粗粒度义库存
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种无监督的方法来区分名词的意义变化,并通过数字化书籍中的严格时间变化文本数据构建分布式词库网络,将它们分别聚类以获得与不同时间点对应的以词为中心的意义聚类。该方法可应用于词汇编纂和语义搜索,并经过人工评估和WordNet对比,该算法在48个样本和21个样本分别中正确识别出60.4%的新出现情况,57%的分裂/合并情况,并有44%的新意义得到WordNet验证。
🎯
关键要点
-
提出了一种无监督的方法来区分名词的意义变化。
-
通过数字化书籍中的严格时间变化文本数据构建分布式词库网络。
-
将文本数据聚类以获得与不同时间点对应的以词为中心的意义聚类。
-
该方法可应用于词汇编纂和语义搜索。
-
经过人工评估和WordNet对比,该算法在48个样本中正确识别出60.4%的新出现情况。
-
在21个样本中正确识别出57%的分裂/合并情况。
-
有44%的新意义得到WordNet验证。
➡️