BriefGPT - AI 论文速递 ·

一种新的对比学习方法用于 RoCliCo 上的点击诱饵检测：一份罗马尼亚新闻文章的点击诱饵语料库

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

该文介绍了罗马尼亚点击诱骗语料库（RoCliCo），包括 8,313 个新闻样本，手动注释了点击诱骗和非点击诱骗标签。作者用 4 种机器学习方法建立了一组有竞争力的基准，并提出了一种基于 BERT 的对比学习模型。该模型将新闻标题和内容编码成深度度量空间，使得非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。数据集和代码可在指定 URL 下载。

🎯

关键要点

罗马尼亚点击诱骗语料库（RoCliCo）包含8,313个新闻样本，手动注释了点击诱骗和非点击诱骗标签。
点击诱骗检测旨在自动识别虚假广告，节省用户时间。
使用4种机器学习方法进行实验，建立了有竞争力的基准。
提出了一种基于BERT的对比学习模型，将新闻标题和内容编码成深度度量空间。
非点击诱骗新闻的标题和内容具有高余弦相似度，而点击诱骗新闻的标题和内容具有低余弦相似度。
数据集和代码可在指定URL下载。

🏷️

内容提要

关键要点

标签

继续阅读