大型语言模型防御对多轮人类越狱攻击不够稳健
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
通过修剪大型语言模型(LLM)的参数,可以提高其对Jailbreaking攻击的抵抗力。实验结果显示修剪有助于LLM集中注意力于与提示相关的标记。修剪作为提高LLM安全性的可推广方法具有潜力。
🎯
关键要点
- 通过修剪大型语言模型(LLM)的参数,可以提高其对Jailbreaking攻击的抵抗力。
- 修剪不需要额外的训练,并且在标准基准测试中不会牺牲性能。
- 引入了一个由225个有害任务组成的精选数据集,并将其插入到10个不同的Jailbreaking提示中。
- 实验结果显示修剪有助于LLM集中注意力于与提示相关的标记。
- 著名的聊天模型(如LLaMA-2 Chat,Vicuna和Mistral Instruct)对Jailbreaking攻击非常容易受到攻击,某些类别的成功率接近70-100%。
- 修剪作为提高LLM安全性、可靠性和其他所期望行为的可推广方法具有潜力。
🏷️
标签
➡️