BriefGPT - AI 论文速递 ·

支持标注人员的提升对抗数据收集：GAHD 德语仇恨言论数据集的经验教训

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本研究提出了一种动态数据集生成和训练模型的方法，生成约40,000项新数据，显著提升了模型的鲁棒性和性能。通过构建多语言的GOTHate数据集，开发了HEN-mBERT模型，增强了恶意言论检测效果。同时，研究探讨了在有限数据情况下的仇恨言论检测，提出合成数据生成方法，显示出良好的模型性能。

🎯

❓

GAHD德语仇恨言论数据集通过动态数据集生成和训练模型的方法，生成了约40,000项新数据，显著提升了模型的鲁棒性和性能。

HEN-mBERT模型的整体宏F1值提升了2.5%，恶意言论F1值提升了5%。

研究提出了合成数据生成方法，显示出良好的模型性能，能够在有限数据情境中有效进行仇恨言论检测。

使用合成数据训练的模型在有限数据情境中表现与仅使用目标领域样本训练的模型相媲美，甚至更好。

GOTHate数据集是一个多语言和多主题的数据集，旨在增强恶意言论检测任务的效果。

DADC能够不断生成具有挑战性的例子，获得更多训练样本，提高模型泛化能力，减少错误率。

🏷️