RTP-LX: 多语言情境下,LLM 能否评估毒性?

通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX,我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力,并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难,特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。

通过RTP-LX数据集评估了七种语言模型在多语境下检测有害内容的能力,发现对微小攻击和偏见等微妙但有害的内容存在困难。发布该数据集以改善模型的安全性。

原文中文,约300字,阅读约需1分钟。发表于:
阅读原文