一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测:一份罗马尼亚新闻文章的点击诱饵语料库

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。作者用 4 种机器学习方法建立了一组有竞争力的基准,并提出了一种基于 BERT 的对比学习模型。该模型将新闻标题和内容编码成深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。数据集和代码可在指定 URL 下载。

🎯

关键要点

  • 罗马尼亚点击诱骗语料库(RoCliCo)包含8,313个新闻样本,手动注释了点击诱骗和非点击诱骗标签。
  • 点击诱骗检测旨在自动识别虚假广告,节省用户时间。
  • 使用4种机器学习方法进行实验,建立了有竞争力的基准。
  • 提出了一种基于BERT的对比学习模型,将新闻标题和内容编码成深度度量空间。
  • 非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。
  • 数据集和代码可在指定URL下载。
➡️

继续阅读