小红花·文摘

本文提出了强调帮助而非安全性的模型安全性担忧，指出经过指示调优的模型高度不安全。研究发现，训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例可以显著提高其安全性。过度的安全调优会使模型拒绝对表面上类似不安全的合理提示作出回应。