本研究提出了一种新防御方法BlueSuffix,旨在增强视觉语言模型对监狱逃脱攻击的防御能力。该方法结合视觉和文本净化器及强化学习,显著提升了模型的防御效果,同时保持了良好的输入性能。研究结果表明,BlueSuffix优于传统防御方法。
完成下面两步后,将自动完成登录并继续当前操作。