ALMs:作者语言模型用于作者归属
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文介绍了作者语言模型 (ALMs) 的归属方法,通过调整语言模型的困惑度来识别问询文档的最有可能的作者。ALMs 在Blogs50和CCAT50上分别达到了83.6%和74.9%的准确率。短文本删除测试结果显示,为了达到70%的准确率,ALMs需要在Blogs50上有40个词元,在CCAT50上有400个词元。为了达到60%的准确率,ALMs需要在Blogs50上有20个词元,在CCAT50上有70个词元。
🎯
关键要点
-
本文介绍了一种作者归属方法,即作者语言模型 (ALMs)。
-
ALMs 通过调整语言模型的困惑度来识别问询文档的最有可能的作者。
-
在 Blogs50 数据集上,ALMs 达到 83.6% 的宏平均准确率,超过所有其他方法。
-
在 CCAT50 数据集上,ALMs 达到 74.9% 的宏平均准确率,与最好方法的性能相当。
-
短文本删除测试显示,为了达到 70% 的宏平均准确率,ALMs 在 Blogs50 上需要 40 个词元,在 CCAT50 上需要 400 个词元。
-
为了达到 60% 的宏平均准确率,ALMs 在 Blogs50 上需要 20 个词元,在 CCAT50 上需要 70 个词元。
➡️