MMFakeBench: 用于 LVLM 的混合源多模态虚假信息检测基准

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

当前的多模态误信息检测方法存在不足,无法应对多个伪造来源的现实场景。引入了MMFakeBench作为混合来源多模态误信息的基准,通过评估6种检测方法和15个大规模视觉语言模型,结果显示当前方法在混合来源环境下表现不佳。提出了一种创新的统一框架,结合了LVLM智能体的能力,显著提高了准确性和概括能力。这项研究将推动对更真实的混合来源多模态误信息的研究,并提供公正评估。

🎯

关键要点

  • 当前的多模态误信息检测方法假设每个样本只有一个来源和一种伪造类型,无法应对多个伪造来源的现实场景。

  • 缺乏混合来源误信息的基准妨碍了该领域的进展。

  • 引入了MMFakeBench,这是第一个全面的混合来源多模态误信息检测基准。

  • MMFakeBench包括文本真实性失真、视觉真实性失真和跨模态一致性失真三个关键来源,以及12个不同类别的误信息伪造类型。

  • 在零-shot设置下,对MMFakeBench进行了6种流行检测方法和15个大规模视觉语言模型的评估,结果显示表现不佳。

  • 提出了一种创新的统一框架,结合LVLM智能体的逻辑、行动和工具使用能力,显著提高了准确性和概括能力。

  • 这项研究将推动对更真实的混合来源多模态误信息的研究,并提供公正评估。

➡️

继续阅读