多语言环境下的政治主张识别与分类:初步实验
原文中文,约400字,阅读约需1分钟。发表于: 。通过不同的策略进行政治要求分析的跨语言投射是一项重要工作,本文以德国数据集 DebateNet2.0 为基础,涵盖了 2015 年难民危机引发的政策辩论,通过两个任务(要求识别和分类)、三种语言(德语、英语和法语)以及两种方法(机器翻译 —— 实验中的最佳方法和多语言嵌入)进行了实验和评估。
本文介绍了一种基于情感分析的新数据集和使用该数据集进行的实验。研究者训练了一个强大的情感分类器,用于议会会议,并引入了第一个领域特定的 LLM 用于政治科学应用。实验证明,LLM 在议会数据上的额外预训练可以显著提高模型的性能。同时,该研究显示多语言模型在未知语言上表现良好,并且来自其他语言的额外数据显著提高了目标议会的结果。