小红花·文摘

研究人员使用贪婪和基于梯度的搜索技术相结合的方法，生成了一种对抗性攻击后缀，可以提高大语言模型产生肯定回应的概率，并生成恶意内容。该攻击后缀具有可迁移性，可以对黑盒和公开发布的大型语言模型进行攻击。研究者成功地将恶意内容引入多个语言模型，推动了对语言模型的对抗性攻击技术发展。