研究人员使用贪婪和基于梯度的搜索技术相结合的方法,生成了一种对抗性攻击后缀,可以提高大语言模型产生肯定回应的概率,并生成恶意内容。该攻击后缀具有可迁移性,可以对黑盒和公开发布的大型语言模型进行攻击。研究者成功地将恶意内容引入多个语言模型,推动了对语言模型的对抗性攻击技术发展。
完成下面两步后,将自动完成登录并继续当前操作。