本研究提出了一种无训练的视觉检索增强生成(VRAG)框架,旨在应对对抗性补丁攻击对视觉系统的威胁。该方法通过集成视觉-语言模型,显著提高了对抗补丁的检测准确性,为实际防御提供了新思路。
本研究提出了MMDocIR基准,以解决多模态文档检索性能评估不足的问题。实验结果表明,视觉检索优于文本检索,强调了视觉元素的重要性。
本文介绍了反向兼容训练(BCT)和跨模态预训练等创新方法,旨在提升视觉检索和识别性能。研究表明,这些方法在多种任务中表现优异,尤其在低资源场景下有效减少多语言差异。
完成下面两步后,将自动完成登录并继续当前操作。