小红花·文摘

改进算法以破解已进行安全调优的模型，并找到普遍优化的提示，使多个模型在未见任务上达到高合规性。

BriefGPT - AI 论文速递 ·

本文提出了强调帮助而非安全性的模型安全性担忧，指出经过指示调优的模型高度不安全。研究发现，训练 LLaMA 等模型进行微调时，仅增加 3％的安全示例可以显著提高其安全性。过度的安全调优会使模型拒绝对表面上类似不安全的合理提示作出回应。

BriefGPT - AI 论文速递 ·