ALMs:作者语言模型用于作者归属

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

本文介绍了作者语言模型 (ALMs) 的归属方法,通过调整语言模型的困惑度来识别问询文档的最有可能的作者。ALMs 在Blogs50和CCAT50上分别达到了83.6%和74.9%的准确率。短文本删除测试结果显示,为了达到70%的准确率,ALMs需要在Blogs50上有40个词元,在CCAT50上有400个词元。为了达到60%的准确率,ALMs需要在Blogs50上有20个词元,在CCAT50上有70个词元。

🎯

关键要点

  • 本文介绍了一种作者归属方法,即作者语言模型 (ALMs)。

  • ALMs 通过调整语言模型的困惑度来识别问询文档的最有可能的作者。

  • 在 Blogs50 数据集上,ALMs 达到 83.6% 的宏平均准确率,超过所有其他方法。

  • 在 CCAT50 数据集上,ALMs 达到 74.9% 的宏平均准确率,与最好方法的性能相当。

  • 短文本删除测试显示,为了达到 70% 的宏平均准确率,ALMs 在 Blogs50 上需要 40 个词元,在 CCAT50 上需要 400 个词元。

  • 为了达到 60% 的宏平均准确率,ALMs 在 Blogs50 上需要 20 个词元,在 CCAT50 上需要 70 个词元。

➡️

继续阅读