大型语言模型防御对多轮人类越狱攻击不够稳健

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

通过修剪大型语言模型(LLM)的参数,可以提高其对Jailbreaking攻击的抵抗力。实验结果显示修剪有助于LLM集中注意力于与提示相关的标记。修剪作为提高LLM安全性的可推广方法具有潜力。

🎯

关键要点

  • 通过修剪大型语言模型(LLM)的参数,可以提高其对Jailbreaking攻击的抵抗力。
  • 修剪不需要额外的训练,并且在标准基准测试中不会牺牲性能。
  • 引入了一个由225个有害任务组成的精选数据集,并将其插入到10个不同的Jailbreaking提示中。
  • 实验结果显示修剪有助于LLM集中注意力于与提示相关的标记。
  • 著名的聊天模型(如LLaMA-2 Chat,Vicuna和Mistral Instruct)对Jailbreaking攻击非常容易受到攻击,某些类别的成功率接近70-100%。
  • 修剪作为提高LLM安全性、可靠性和其他所期望行为的可推广方法具有潜力。
🏷️

标签

➡️

继续阅读