FragFake:用于细粒度检测编辑图像的基准数据集结合视觉语言模型 本研究针对现有图像编辑检测中的三个关键挑战,提出了FragFake数据集,以提供高质量的编辑图像检测基准。通过首次运用视觉语言模型进行编辑图像分类和定位,实验结果表明经过微调的模型在所有数据集上均表现出更高的精确度。本研究开创了一种将局部图像编辑检测重新定义为视觉语言理解任务的新方法,预计将推动多模态内容真实性领域的后续研究。 本研究提出FragFake数据集,旨在解决图像编辑检测中的三大挑战。通过视觉语言模型进行分类和定位,微调后的模型在各数据集上表现优异,推动了多模态内容真实性的研究。 FragFake数据集 内容真实性 图像编辑检测 多模态 数据集 视觉语言模型 语言模型