小红花·文摘

本研究探讨了开源大型语言模型（LLMs）的安全性，提出了“Shadow Alignment”概念，揭示了安全对齐在不同NLP任务中的差异及其漏洞。研究表明，微调可能降低模型的安全性，现有安全措施不足以应对新风险，强调了加强安全对齐的重要性。