GOAT-Bench: 多模态大型模型的安全洞察力通过基于模因的社交滥用
💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
社交媒体的指数增长改变了信息的创造、传播和吸收方式,但也导致了网络违规使用表情包的增加。本文研究了大型多模型识别和应对表情包中的社交虐待能力,并提出了GOAT-Bench表情包基准。实验结果显示当前模型对隐性虐待形式缺乏敏感性。
🎯
关键要点
- 社交媒体的指数增长改变了信息的创造、传播和吸收方式。
- 网络违规使用表情包的显著增加,涉及隐性仇恨言论、性别歧视和网络欺凌等主题。
- 研究了大型多模型识别和应对表情包中社交虐待的能力。
- 引入了GOAT-Bench表情包基准,评估LMMs对仇恨、厌女症、冒犯和有害内容的识别能力。
- 实验结果显示当前模型对隐性虐待形式缺乏敏感性,存在安全意识不足的问题。
- 这种不足对实现安全人工智能构成了重要阻碍。
- GOAT-Bench和相关资源可公开访问,促进该领域的持续研究。
➡️