本研究提出了一种名为BlueSuffix的新防御方法,旨在增强视觉语言模型(VLMs)抵御监狱逃脱攻击的能力。该方法结合视觉和文本净化器及强化学习微调,显著提升了模型的防御表现,同时保持了良性输入的性能。研究结果表明,BlueSuffix在多项基准测试中优于传统防御方法。
完成下面两步后,将自动完成登录并继续当前操作。