无过度:通过安全意识激活引导减轻大语言模型的夸大安全

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

研究发现,使用大型语言模型(LLMs)进行微调存在安全风险,即使使用良性数据集也可能降低安全性。当前的安全基础设施无法解决这些风险,需要进一步研究以加强对齐的LLMs的自定义微调的安全协议。

🎯

关键要点

  • 通过细调大型语言模型 (LLMs) 进行定制以优化下游应用需要在预训练的LLMs上进行微调。
  • 现有的安全对齐基础设施在推理时可以限制LLMs的有害行为,但在扩展微调权限给最终用户时无法覆盖安全风险。
  • 红队研究发现,使用少数恶意设计的训练样例对GPT-3.5 Turbo进行微调可能危及LLMs的安全对齐性。
  • 即使使用良性且常用的数据集进行微调,也可能无意中降低LLMs的安全对齐性。
  • 细调对齐的LLMs引入了新的安全风险,当前的安全基础设施无法很好地解决这些风险。
  • 需要进一步研究以加强对齐的LLMs的自定义微调的安全协议。
➡️

继续阅读