Retention Score: Quantifying Jailbreak Risks for Vision Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了“保留评分”指标,以量化视觉语言模型(VLMs)抵御越狱攻击的能力。结果表明,大多数VLMs对这些攻击的鲁棒性较低,提供了一种有效的安全性评估方法。
🎯
关键要点
- 本研究提出了“保留评分”指标,用于量化视觉语言模型(VLMs)抵御越狱攻击的能力。
- 研究发现,大多数视觉组件的VLMs对越狱攻击的鲁棒性较低。
- 通过对不同VLM的评估,提供了一种有效的安全性评估方法。
➡️