量子位 ·

AI打假AI，拿下SOTA丨厦大&腾讯优图

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

厦门大学与腾讯优图合作提出AIGI-Holmes，结合大模型与视觉专家，提升AI生成图像的检测能力。该方法通过双视觉编码器和协同解码策略，解决了可解释性和泛化能力的问题，实验结果在各项基准测试中表现最佳。

🎯

🔎

AIGI-Holmes结合了大模型与视觉专家，通过双视觉编码器架构提升了AI生成图像的检测能力。这种创新架构不仅解决了可解释性不足的问题，还增强了模型的泛化能力，使其能够更好地应对快速发展的生成技术。

Holmes-Set数据集的构建是AIGI-Holmes成功的关键之一。该数据集包含多种生成缺陷，确保了模型在不同场景下的检测能力。数据的多样性和质量直接影响到模型的训练效果和最终性能。

尽管AIGI-Holmes在多个评估指标上表现优异，但仍存在幻觉问题和缺乏定量评估指标的局限性。未来的研究需要集中在提高模型的细粒度理解能力和解决幻觉问题，以适应不断变化的生成图像技术。

❓

AIGI-Holmes的主要创新点是结合了双视觉编码器架构和协同解码策略，提升了AI生成图像的检测能力。

AIGI-Holmes通过双视觉编码器架构和Holmes Pipeline的三阶段训练流程，增强了模型的可解释性和泛化能力。

Holmes-Set数据集的构建旨在解决训练数据稀缺问题，包含多种生成缺陷的图像和标注。

AIGI-Holmes在所有基准测试中表现最佳，显示出其卓越的检测能力。

AIGI-Holmes存在幻觉问题和缺乏定量评估指标的局限性。

AIGI-Holmes的训练流程包括视觉专家预训练、监督微调(SFT)和直接偏好优化(DPO)三个阶段。

🏷️