大规模语言模型应用的词汇攻击

原文约300字,阅读约需1分钟。发表于:

使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模型的模型进行攻击。

本文揭示了攻击者使用视觉对抗样本来影响与大型语言模型连接的用户资源的机密性和完整性的能力。研究发现,这些攻击可以以接近真实语法的方式操控语言模型调用工具,并保持与原始图像的高相似度。这些攻击对用户与语言模型之间的对话没有显著影响。

相关推荐 去reddit讨论