一种贝叶斯方法:利用大型语言模型进行作者归属

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种作者归属方法——作者语言模型(ALMs),通过调整语言模型的困惑度来识别文档作者。基准测试显示,ALMs在Blogs50数据集上的宏平均准确率为83.6%,在CCAT50上为74.9%。短文本测试表明,Blogs50需要40个词元和CCAT50需要400个词元才能达到70%的准确率。

🎯

关键要点

  • 本文介绍了一种作者归属方法,即作者语言模型 (ALMs)。
  • ALMs通过调整语言模型的困惑度来识别文档的最有可能作者。
  • 在Blogs50数据集上,ALMs的宏平均准确率为83.6%。
  • 在CCAT50数据集上,ALMs的宏平均准确率为74.9%。
  • 短文本测试显示,Blogs50需要40个词元才能达到70%的准确率。
  • CCAT50需要400个词元才能达到70%的准确率。
  • 为了达到60%的宏平均准确率,Blogs50需要20个词元,CCAT50需要70个词元。
➡️

继续阅读