LoRA 高效地撤销了 Llama 2-Chat 70B 中的安全训练

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,对大型语言模型进行微调以优化下游应用会引入新的安全风险,即使使用良性数据集也可能降低安全对齐性。需要进一步研究以加强对齐的大型语言模型的自定义微调的安全协议。

🎯

关键要点

  • 对大型语言模型进行微调以优化下游应用可能引入新的安全风险。
  • 现有的安全对齐基础设施在推理时能限制有害行为,但无法覆盖微调后的安全风险。
  • 红队研究发现,少量恶意训练样例可危及大型语言模型的安全对齐性。
  • 即使使用良性数据集进行微调,也可能无意中降低安全对齐性。
  • 细调对齐的语言模型引入新的安全风险,当前安全基础设施无法有效解决。
  • 需要进一步研究以加强对齐的语言模型的自定义微调的安全协议。
➡️

继续阅读