大型语言模型的红队和防御攻击指令生成
原文中文,约300字,阅读约需1分钟。发表于: 。通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
该文介绍了一种攻击框架,通过手动和自动方法生成攻击提示,训练大型语言模型并模仿人类生成的提示,增强受攻击模型对红队攻击的安全性。在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)。