本研究提出了一种多面攻击框架,解决了视觉大型语言模型在多层防御下易受复杂对抗攻击的问题。在八个商业 VLLM 的黑箱测试中,该方法实现了 61.56% 的攻击成功率,显著优于现有技术。
本文介绍了一种新颖的数据合成流水线SynthVLM,通过生成高质量的字幕和选择高分辨率图像,实现了最先进的性能,并减少了计算开销。该方法纯粹依赖于生成的数据,保护了隐私。
完成下面两步后,将自动完成登录并继续当前操作。