揭露宣传:通过比较人类标注和机器分类的文体线索进行分析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该研究调查了宣传语言及其风格特征,提出了PPN数据集,包括多源、多语言、多模态的新闻文章。通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。本文提出了不同的自然语言处理技术,用于识别注释者使用的线索,并将它们与机器分类进行比较。

🎯

关键要点

  • 该研究调查了宣传语言及其风格特征。
  • 提出了PPN数据集,包括多源、多语言、多模态的新闻文章。
  • 数据来自被专家机构确定为宣传来源的网站。
  • 通过人工注释实验,结果表明人工注释者能够可靠地区分两种类型的新闻。
  • 提出了不同的自然语言处理技术,用于识别注释者使用的线索。
  • 将人工注释与机器分类进行比较。
  • 使用的分析工具包括VAGO、TF-IDF和四种不同的分类器。
  • 分类器包括两种基于RoBERTa的模型、使用语法的CATS和结合句法与语义特征的XGBoost。
➡️

继续阅读