AustroTox:用于基于目标的奥地利德语冒犯性语言检测的数据集
原文中文,约400字,阅读约需1分钟。发表于: 。模型解释性在毒性检测中获益于对令牌级注释。我们介绍了一个从新闻论坛获取的用于侮辱语言检测的数据集,其特点是包含奥地利德语方言,包含 4562 个用户评论。除了二进制侮辱分类外,我们还确定了每个评论中构成粗俗语言或代表侮辱性陈述目标的部分。我们以零次和少次迭代的方式评估了微调的语言模型和大型语言模型。结果表明,虽然微调模型在检测粗俗方言等语言特异性方面表现卓越,但大型语言模型在检测...
研究者使用奥地利德语方言数据集进行侮辱语言检测,发现大型语言模型在检测侮辱性方面表现更好。他们发布了数据和代码,模型解释性受益于令牌级注释。