UstanceBR: 一个用于立场预测的多模态语言资源
原文中文,约300字,阅读约需1分钟。发表于: 。介绍了巴西葡萄牙语 Twitter 领域的多模态语料库 UstanceBR,该语料库包含对所选目标主题的 86.8k 个标记立场,并提供了有关在社交媒体上发布这些立场的用户的广泛网络信息。描述了语料库的多模态数据以及基于文本和网络相关信息的领域内和零样本立场预测的若干使用示例,旨在为未来的研究提供初步基准结果。
该论文研究了阿拉伯语新闻中使用文本蕴含的应用和新的语料库。作者介绍了语料库的创建和注释过程,并开发了两个机器学习模型进行断言验证和立场预测。最佳模型使用预训练(BERT)在立场预测任务上取得了76.7 F1的成绩,在断言验证任务上取得了64.3 F1的成绩。结果显示,预训练学习到的语言特征和世界知识对立场预测有用,但对于没有上下文或证据的断言验证来说不够。