本文探讨了大型语言模型在多语言环境中的安全挑战及减毒策略。研究表明,基本干预虽然能优化自动指标,但可能降低对边缘化团体的覆盖。低资源语言的恶意提示导致更多不安全回答,而高资源语言的训练未显著改善安全性。提出了多语言安全基准和自动评估方法,以提升模型的安全性和跨语言能力。
完成下面两步后,将自动完成登录并继续当前操作。