AKEM: 使用集成模型将知识库与查询对齐的实体识别和链接
原文中文,约300字,阅读约需1分钟。发表于: 。该研究论文提出了一种新方法来解决 NLPCC 2015 中的实体识别和链接挑战问题,通过扩展现有知识库并利用外部知识识别候选实体,提高了召回率,同时利用支持向量回归和多增加回归树作为评分函数来过滤结果,应用规则进一步优化结果并提高精确度,该方法计算效率高,F1 得分为 0.535。
该文介绍了使用双编码器模型实现实体链接的方法,通过在相同的密集向量空间中对实体和提及进行编码,并使用近似最近邻搜索检索候选实体。该方法通过使用维基百科中的锚文本链接训练双编码器,优于离散别名表和BM25基线,并可以快速检索候选者,并可以很好地推广到从Wikinews推导出的新数据集。同时,无监督的负采矿算法在这一任务中也发挥了重要作用。