小红花·文摘

本研究针对大型语言模型中的目标劫持问题，提出了一种新颖的伪对话注入攻击方法，利用模型在对话中角色识别的弱点，实验结果显示其效果显著优于现有方法。

BriefGPT - AI 论文速递 ·

该研究探索了一种名为“通过视觉提示注入进行目标劫持”的新方法，利用大型视觉语言模型（LVLMs）的能力来执行攻击者指定的任务。研究发现，GPT-4V对这种方法很脆弱，攻击成功率达到15.8％。成功的攻击需要LVLMs具有高的字符识别和指令跟随能力。

BriefGPT - AI 论文速递 ·