作者身份表达学习能捕捉到文体特征吗?
原文约500字/词,阅读约需2分钟。发表于: 。自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码内容。然而,成功完成这个替代任务并不能确保这些表征能够捕捉到写作风格,因为作者归属也可能与其他潜在变量(如主题)相关。为了更好地理解这些表征传达的信息性质...
最近可用的大型文本语料库使得可以通过数据驱动的方式学习作者表征,用于作者归属任务。实验发现这些表征对写作风格敏感,对时间主题漂移具有稳健性。这些发现可能为风格转换等应用开启大门。