AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models through Preference Optimization
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出AdPO方法,旨在提高大规模视觉语言模型(LVLMs)在对抗攻击下的鲁棒性。通过将对抗训练重新定义为偏好优化,AdPO增强了模型生成正常输出的能力,实验结果表明其在多个任务中优于现有防御方法。
🎯
关键要点
- 本研究提出AdPO方法,旨在提高大规模视觉语言模型(LVLMs)在对抗攻击下的鲁棒性。
- AdPO方法将对抗训练重新定义为偏好优化,增强模型生成正常输出的能力。
- 实验结果表明,AdPO在多个任务中优于现有的对抗防御方法。
- AdPO为未来的对抗防御研究提供了新的视角。
➡️