AustroTox:用于基于目标的奥地利德语冒犯性语言检测的数据集
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者使用奥地利德语方言数据集进行侮辱语言检测,发现大型语言模型在检测侮辱性方面表现更好。他们发布了数据和代码,模型解释性受益于令牌级注释。
🎯
关键要点
- 研究者使用奥地利德语方言数据集进行侮辱语言检测。
- 数据集包含4562个用户评论,特点是包含粗俗语言和侮辱性陈述。
- 模型解释性在毒性检测中受益于令牌级注释。
- 微调模型在检测粗俗方言方面表现卓越。
- 大型语言模型在检测侮辱性方面表现出更高的性能。
- 研究者发布了数据和代码。
➡️