本研究提出了“保留评分”指标,以量化视觉语言模型(VLMs)抵御越狱攻击的能力。结果表明,大多数VLMs对这些攻击的鲁棒性较低,提供了一种有效的安全性评估方法。
完成下面两步后,将自动完成登录并继续当前操作。