流利的学生 - 教师红队行动

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

改进算法以破解已进行安全调优的模型,并找到普遍优化的提示,使多个模型在未见任务上达到高合规性。

🎯

关键要点

  • 改进了现有算法以破解安全调优的模型,如 Llama-2 和 Phi-3。
  • 采用新的蒸馏方法和多模型困惑度惩罚、重复惩罚来破解模型。
  • 找到一个普遍优化的提示,使多个模型在未见任务上达到高合规性。
  • Llama-2-7B、Phi-3-mini 和 Vicuna-7B 等模型在未见任务上合规性超过 88%。
  • 该方法可以转移到其他黑盒模型。
➡️

继续阅读