本文评估了多种语言模型在检测有害内容方面的能力,发现它们在判断毒性和识别微妙攻击时存在困难。研究提出了改进策略,强调数据选择的重要性,并开发了多语言安全基准,以提高模型的安全性和减少偏见。这些发现旨在指导AI系统的监管和改进。
完成下面两步后,将自动完成登录并继续当前操作。