本研究探讨了开源大型语言模型(LLMs)的安全性,提出了“Shadow Alignment”概念,揭示了安全对齐在不同NLP任务中的差异及其漏洞。研究表明,微调可能降低模型的安全性,现有安全措施不足以应对新风险,强调了加强安全对齐的重要性。
完成下面两步后,将自动完成登录并继续当前操作。