该文介绍了罗马尼亚点击诱骗语料库(RoCliCo),包括 8,313 个新闻样本,手动注释了点击诱骗和非点击诱骗标签。作者用 4 种机器学习方法建立了一组有竞争力的基准,并提出了一种基于 BERT 的对比学习模型。该模型将新闻标题和内容编码成深度度量空间,使得非点击诱骗新闻的标题和内容具有高余弦相似度,而点击诱骗新闻的标题和内容具有低余弦相似度。数据集和代码可在指定 URL 下载。
完成下面两步后,将自动完成登录并继续当前操作。