本研究提出了一种无训练的视觉检索增强生成(VRAG)框架,旨在应对对抗性补丁攻击对视觉系统的威胁。该方法通过集成视觉-语言模型,显著提高了对抗补丁的检测准确性,为实际防御提供了新思路。
本研究提出了MMDocIR基准,以解决多模态文档检索性能评估不足的问题。实验结果表明,视觉检索优于文本检索,强调了视觉元素的重要性。
完成下面两步后,将自动完成登录并继续当前操作。