一种贝叶斯方法:利用大型语言模型进行作者归属
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对作者归属中传统方法的局限性,提出了一种全新的贝叶斯方法,利用预训练的GPT模型进行一-shot作者归属分析。研究结果显示,该方法在IMDb和博客数据集上的分类准确率达到85%,为一-shot作者分析设定了新的基准,并扩展了大型语言模型在法语语言学中的应用。
本文介绍了一种作者归属方法——作者语言模型(ALMs),通过调整语言模型的困惑度来识别文档作者。基准测试显示,ALMs在Blogs50数据集上的宏平均准确率为83.6%,在CCAT50上为74.9%。短文本测试表明,Blogs50需要40个词元和CCAT50需要400个词元才能达到70%的准确率。