一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测:一份罗马尼亚新闻文章的点击诱饵语料库
原文中文,约400字,阅读约需1分钟。发表于: 。为了增加收入,新闻网站经常使用虚假新闻标题,诱使用户点击标题并阅读完整的新闻。点击诱骗检测是一项旨在自动检测这种虚假广告,并避免浪费在线用户宝贵时间的任务。我们介绍了一个新颖的罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。此外,我们用 4...
该文介绍了罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。作者用 4 种机器学习方法建立了一组有竞争力的基准,并提出了一种基于 BERT 的对比学习模型。该模型将新闻标题和内容编码成深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。数据集和代码可在指定 URL 下载。