ALMs:作者语言模型用于作者归属
原文中文,约500字,阅读约需1分钟。发表于: 。本文介绍了一种作者归属方法,即作者语言模型 (ALMs),它通过对一组候选作者的文本进行经验修正得到的调整语言模型的困惑度,从而识别问询文档的最有可能的作者。我们使用 CCAT50 数据集和 Blogs50 数据集对 ALMs 进行了基准测试,并发现 ALMs 在 Blogs50 上达到 83.6% 的宏平均准确率,超过所有其他方法,在 CCAT50 上达到 74.9%...
本文介绍了作者语言模型 (ALMs) 的归属方法,通过调整语言模型的困惑度来识别问询文档的最有可能的作者。ALMs 在Blogs50和CCAT50上分别达到了83.6%和74.9%的准确率。短文本删除测试结果显示,为了达到70%的准确率,ALMs需要在Blogs50上有40个词元,在CCAT50上有400个词元。为了达到60%的准确率,ALMs需要在Blogs50上有20个词元,在CCAT50上有70个词元。