BriefGPT - AI 论文速递 ·

捕捉作者和文档特征中的风格

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文探讨了通过数据驱动的方法学习作者表征，以实现作者归属任务。研究表明，学习的表征对写作风格敏感，能够有效捕捉风格特征。通过实验提出多种神经网络模型，展示了在作者识别和风格转换中的优势，为风格表征的应用提供了新可能性。

🎯

❓

通过使用带有作者标签的大型文本语料库，采用数据驱动的方法来学习作者表征，以实现作者归属任务。

学习的表征对写作风格敏感，能够有效捕捉风格特征，从而提高作者识别的准确性。

本文提出了多种神经网络模型，包括样式感知神经模型和基于双向长短期记忆的模型，展示了在作者识别中的优势。

通过深度学习模型，特别是结合字符 n-grams 和句法信息的模型，选择适当的文体特征来提高跨领域的表示泛化能力。

LISA embeddings是一组可解释的文体表示方法，用于解决神经网络进行文体表示学习时的可解释性困境。

通过对比训练模型，评估文本的余弦相似性来进行作者验证的零炮验证，适用于文学作品和匿名博客等。

🏷️