CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

CVPR 2025 Oral | 多模态交互新基准OpenING,新版GPT-4o杀疯了?

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

文章讨论了多模态大语言模型(MLLM)的发展,特别是在图文生成方面的挑战与进展。上海人工智能实验室提出了OpenING基准,包含5400个真实场景的图文实例,旨在提升模型的生成能力和评测准确性。新评估模型IntJudge通过人机协作标注,显著提高了评测一致性。研究表明,当前模型在图像生成质量上仍需改进,未来将继续扩展数据和优化模型。

🎯

关键要点

  • 多模态大语言模型(MLLM)旨在复刻人类理解和生成视觉与语言信息的能力。
  • 当前大部分MLLM仍局限于处理单一图像或文本,难以实现流畅的多模态交错生成。
  • 上海人工智能实验室提出了OpenING基准,包含5400个真实场景的图文实例,旨在提升模型生成能力和评测准确性。
  • OpenING基准涵盖23个现实领域和56个具体任务,提供高质量的标注数据。
  • 评估模型IntJudge通过人机协作标注,显著提高了评测一致性,减少了传统模型的偏见。
  • IntJudge的训练数据包括高质量对比数据和参考增强生成数据,提升了评测模型的鲁棒性。
  • OpenING采用类ELO机制的相对评分策略,提供客观性能评测排行榜。
  • 当前主流多模态模型在图文一致性和视觉质量方面表现优异,但图像生成质量仍需改进。
  • 研究发现当前模型存在图像质量差、内容不一致等问题,为未来优化指明方向。
  • OpenING团队已开源基准数据和评测模型,鼓励更多研究者参与,共同推动图文交错生成领域的发展。

延伸问答

OpenING基准的主要目标是什么?

OpenING基准旨在提升多模态大语言模型的生成能力和评测准确性,特别是在图文交错生成任务中。

IntJudge评估模型的创新之处在哪里?

IntJudge通过人机协作标注和参考增强生成技术,显著提高了评测的一致性和准确性,减少了传统模型的偏见。

当前多模态模型在图像生成方面存在哪些问题?

当前多模态模型在图像生成质量上普遍存在视觉质量差、内容不一致等问题,亟需改进。

OpenING基准包含多少个图文实例?

OpenING基准包含5400个真实场景的图文实例。

OpenING基准如何确保数据的真实性和一致性?

OpenING通过专业团队的严格把关和精细化的标注流程,确保了数据的一致性与真实性。

未来OpenING团队的计划是什么?

OpenING团队计划继续扩展数据规模与多样性,优化评测模型,并推动更接近真实应用场景的研究。

➡️

继续阅读