小红花·文摘

本研究提出了“保留评分”指标，以量化视觉语言模型（VLMs）抵御越狱攻击的能力。结果表明，大多数VLMs对这些攻击的鲁棒性较低，提供了一种有效的安全性评估方法。