免疫有害微调攻击

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究发现,微调大型语言模型存在安全风险,恶意设计的训练样例可能危及模型的安全对齐性,良性数据集也可能降低其安全性。当前的安全基础设施无法解决这些问题,需要进一步研究以加强自定义微调的安全协议。

🎯

关键要点

  • 微调大型语言模型 (LLMs) 需要在预训练模型上进行,但存在安全风险。
  • 现有的安全对齐基础设施在推理时能限制有害行为,但无法覆盖微调带来的安全风险。
  • 恶意设计的训练样例可能危及 LLMs 的安全对齐性。
  • 使用良性数据集进行微调也可能无意中降低安全对齐性。
  • 细调对齐的 LLMs 引入了新的安全风险,当前安全基础设施无法有效解决。
  • 需要进一步研究以加强自定义微调的安全协议。
➡️

继续阅读