小红花·文摘

本研究提出了一种名为BlueSuffix的新防御方法，旨在增强视觉语言模型（VLMs）抵御监狱逃脱攻击的能力。该方法结合视觉和文本净化器及强化学习微调，显著提升了模型的防御表现，同时保持了良性输入的性能。研究结果表明，BlueSuffix在多项基准测试中优于传统防御方法。