一种贝叶斯方法:利用大型语言模型进行作者归属
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种作者归属方法——作者语言模型(ALMs),通过调整语言模型的困惑度来识别文档作者。基准测试显示,ALMs在Blogs50数据集上的宏平均准确率为83.6%,在CCAT50上为74.9%。短文本测试表明,Blogs50需要40个词元和CCAT50需要400个词元才能达到70%的准确率。
🎯
关键要点
- 本文介绍了一种作者归属方法,即作者语言模型 (ALMs)。
- ALMs通过调整语言模型的困惑度来识别文档的最有可能作者。
- 在Blogs50数据集上,ALMs的宏平均准确率为83.6%。
- 在CCAT50数据集上,ALMs的宏平均准确率为74.9%。
- 短文本测试显示,Blogs50需要40个词元才能达到70%的准确率。
- CCAT50需要400个词元才能达到70%的准确率。
- 为了达到60%的宏平均准确率,Blogs50需要20个词元,CCAT50需要70个词元。
➡️