基于大型语言模型提取理由的可解释仇恨言论检测

为了解决社交媒体中的仇恨言论问题,本文提出使用最新的大型语言模型(LLMs)从文本中提取特征,以训练基于仇恨言论分类器,从而实现设计上的可信解释性。全面评估了多个社交媒体仇恨言论数据集,证明了 LLMs 提取的解释特征的优越性以及实现解释性后依然保持良好性能的惊人结果。

本文使用最新的大型语言模型(LLMs)从文本中提取特征,训练仇恨言论分类器,解决社交媒体中的仇恨言论问题。通过评估多个数据集,证明了LLMs提取的解释特征的优越性和实现解释性后的良好性能。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文