小红花·文摘

本论文介绍了构建针对性仇恨言论检测系统的方法，并提出了一种整合至在线流媒体系统的实际应用。

IndoToxic2024：一份丰富人口统计数据集，用于印度尼西亚语的仇恨言论和毒性类型

BriefGPT - AI 论文速递 ·

该文章介绍了IndoNLI数据集，是第一个适用于印度尼西亚语的NLI数据集。作者使用MNLI的数据收集协议，收集了近18K个句子对。实验结果显示，XLM-R在该数据集上的性能优于其他预训练模型，但仍远低于人类性能。作者发现专家标注数据比众包标注数据更多样化，注释工件更少。希望该数据集能推动印尼自然语言处理研究的进展。

XNLIeu：巴斯克语的跨语言自然语言推理数据集

BriefGPT - AI 论文速递 ·

本文研究了点击标题破坏的任务，分类了破坏类型并生成了适当的内容。在手动破坏的点击标题帖子语料库上进行了评估，结果显示分类器准确率达到80％，问答模型表现出色。

通过问答实现低资源印度尼西亚语标题党取消

BriefGPT - AI 论文速递 ·