议会会议中的多语种情感识别训练数据集 ParlaSent
原文中文,约400字,阅读约需1分钟。发表于: 。本文介绍一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。此外,还引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。通过实验证明,LLM...
本文介绍了一种基于情感分析的新数据集以及依此数据集进行的一系列实验,重点是训练一个强大的情感分类器用于议会会议。同时,引入了第一个领域特定的 LLM(语言模型)用于政治科学应用,并在 27 个欧洲议会的会议记录中进行了 1.72 亿专业领域词汇的预训练。实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能,尤其是在情感检测等具体领域任务上。该研究对社会科学的多个领域做出了重要贡献,并建立了一种更可靠的政治文本情感分析方法。