小红花·文摘

本研究提出了一种基于隐喻的越狱攻击方法MJA，旨在解决文本到图像模型的安全漏洞。MJA通过生成隐喻式对抗提示，提高了攻击效果和查询效率，实验结果显示其在多种模型上表现良好。

BriefGPT - AI 论文速递 ·

本文提出了一种基于令牌级别检测方法来识别对抗提示的方法，利用大型语言模型的能力来预测下一个令牌的概率，测量模型的困惑度并结合相邻令牌信息，以鼓励检测连续的对抗提示序列，提出了两种方法：一种将每个令牌识别为是否属于对抗提示的一部分，另一种估计每个令牌属于对抗提示的概率。

BriefGPT - AI 论文速递 ·