研究表明,古典语言如文言文和拉丁语能够绕过主流大模型的安全机制,导致100%成功输出有害内容。这是由于训练数据不平衡和古典语言缺乏安全对齐。此现象提醒AI行业重视多语言安全,重建评估体系,提升跨语言安全能力。
本研究建立了多语言安全基准(XSafety),揭示了大型语言模型在非英语查询中的安全隐患。提出了多种提示方法以提升ChatGPT的多语言安全性,并分析了微调对安全性的影响,强调了安全神经元在模型中的重要性。研究结果为未来的安全性研究提供了新见解。
完成下面两步后,将自动完成登录并继续当前操作。