小红花·文摘

本文评估了多种语言模型在检测有害内容方面的能力，发现它们在判断毒性和识别微妙攻击时存在困难。研究提出了改进策略，强调数据选择的重要性，并开发了多语言安全基准，以提高模型的安全性和减少偏见。这些发现旨在指导AI系统的监管和改进。