通用对抗触发器并非通用

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究发现,对齐的偏好优化模型(APO)难以破解,对齐的微调模型(AFT)对对抗触发器敏感,优化的触发器可泛化到不同领域的新不安全指令。需要全面评估对齐语言模型的安全性。

🎯

关键要点

  • 研究了通过优化模型找到的诱发不安全响应的标记序列,即对抗触发器。
  • 发现对齐的偏好优化模型(APO)极难被破解。
  • 对齐的微调模型(AFT)对对抗触发器非常敏感。
  • 大部分针对 AFT 模型优化的触发器可以泛化到来自五个不同领域的新不安全指令。
  • 强调了对对齐语言模型进行更全面安全评估的必要性。
➡️

继续阅读