AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models through Preference Optimization

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出AdPO方法,旨在提高大规模视觉语言模型(LVLMs)在对抗攻击下的鲁棒性。通过将对抗训练重新定义为偏好优化,AdPO增强了模型生成正常输出的能力,实验结果表明其在多个任务中优于现有防御方法。

🎯

关键要点

  • 本研究提出AdPO方法,旨在提高大规模视觉语言模型(LVLMs)在对抗攻击下的鲁棒性。
  • AdPO方法将对抗训练重新定义为偏好优化,增强模型生成正常输出的能力。
  • 实验结果表明,AdPO在多个任务中优于现有的对抗防御方法。
  • AdPO为未来的对抗防御研究提供了新的视角。
➡️

继续阅读