一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测:一份罗马尼亚新闻文章的点击诱饵语料库
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。作者用 4 种机器学习方法建立了一组有竞争力的基准,并提出了一种基于 BERT 的对比学习模型。该模型将新闻标题和内容编码成深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。数据集和代码可在指定 URL 下载。
🎯
关键要点
- 罗马尼亚点击诱骗语料库(RoCliCo)包含8,313个新闻样本,手动注释了点击诱骗和非点击诱骗标签。
- 点击诱骗检测旨在自动识别虚假广告,节省用户时间。
- 使用4种机器学习方法进行实验,建立了有竞争力的基准。
- 提出了一种基于BERT的对比学习模型,将新闻标题和内容编码成深度度量空间。
- 非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。
- 数据集和代码可在指定URL下载。
➡️