小红花·文摘

本文探讨了大型语言模型在多语言环境中的安全挑战及减毒策略。研究表明，基本干预虽然能优化自动指标，但可能降低对边缘化团体的覆盖。低资源语言的恶意提示导致更多不安全回答，而高资源语言的训练未显著改善安全性。提出了多语言安全基准和自动评估方法，以提升模型的安全性和跨语言能力。