揭露宣传:通过比较人类标注和机器分类的文体线索进行分析
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该研究调查了宣传语言及其风格特征,提出了PPN数据集,包括多源、多语言、多模态的新闻文章。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识别注释者使用的线索,并将它们与机器分类进行比较。
🎯
关键要点
- 该研究调查了宣传语言及其风格特征。
- 提出了PPN数据集,包括多源、多语言、多模态的新闻文章。
- 数据来自被专家机构确定为宣传来源的网站。
- 通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。
- 提出了不同的自然语言处理技术,用于识别注释者使用的线索。
- 将人工注释与机器分类进行比较。
- 使用的分析工具包括VAGO、TF-IDF和四种不同的分类器。
- 分类器包括两种基于RoBERTa的模型、使用语法的CATS和结合句法与语义特征的XGBoost。
➡️