本研究针对大型语言模型中的目标劫持问题,提出了一种新颖的伪对话注入攻击方法,利用模型在对话中角色识别的弱点,实验结果显示其效果显著优于现有方法。
该研究探索了一种名为“通过视觉提示注入进行目标劫持”的新方法,利用大型视觉语言模型(LVLMs)的能力来执行攻击者指定的任务。研究发现,GPT-4V对这种方法很脆弱,攻击成功率达到15.8%。成功的攻击需要LVLMs具有高的字符识别和指令跟随能力。
完成下面两步后,将自动完成登录并继续当前操作。