机器之心 ·

CVPR 2025 Oral | 多模态交互新基准OpenING，新版GPT-4o杀疯了？

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

文章讨论了多模态大语言模型（MLLM）的发展，特别是在图文生成方面的挑战与进展。上海人工智能实验室提出了OpenING基准，包含5400个真实场景的图文实例，旨在提升模型的生成能力和评测准确性。新评估模型IntJudge通过人机协作标注，显著提高了评测一致性。研究表明，当前模型在图像生成质量上仍需改进，未来将继续扩展数据和优化模型。

🎯

关键要点

多模态大语言模型（MLLM）旨在复刻人类理解和生成视觉与语言信息的能力。
当前大部分MLLM仍局限于处理单一图像或文本，难以实现流畅的多模态交错生成。
上海人工智能实验室提出了OpenING基准，包含5400个真实场景的图文实例，旨在提升模型生成能力和评测准确性。
OpenING基准涵盖23个现实领域和56个具体任务，提供高质量的标注数据。
评估模型IntJudge通过人机协作标注，显著提高了评测一致性，减少了传统模型的偏见。
IntJudge的训练数据包括高质量对比数据和参考增强生成数据，提升了评测模型的鲁棒性。
OpenING采用类ELO机制的相对评分策略，提供客观性能评测排行榜。
当前主流多模态模型在图文一致性和视觉质量方面表现优异，但图像生成质量仍需改进。
研究发现当前模型存在图像质量差、内容不一致等问题，为未来优化指明方向。
OpenING团队已开源基准数据和评测模型，鼓励更多研究者参与，共同推动图文交错生成领域的发展。

🔎

延伸解读

多模态模型的挑战与机遇

尽管多模态大语言模型（MLLM）在图文生成方面取得了一定进展，但仍面临诸多挑战。当前模型在生成内容的一致性和视觉质量上存在不足，尤其是在复杂的应用场景中。这为研究者提供了优化的机会，未来的研究可以集中在提升模型的生成能力和处理多模态信息的流畅性上。

OpenING基准的创新意义

OpenING基准的推出标志着图文交错生成领域的一个重要里程碑。通过提供5400个真实场景的图文实例，OpenING不仅提升了评测的准确性，还为研究者提供了丰富的数据支持。这种系统化的评测方法将推动多模态模型的进一步发展，促进更高质量的生成结果。

IntJudge评测模型的优势

IntJudge评测模型通过人机协作标注和数据增强策略，显著提高了评测的一致性和准确性。这种创新方法不仅减少了传统模型的偏见，还为多模态生成模型的性能提升提供了有效的评估工具。未来，IntJudge有望在更广泛的自动化评测场景中发挥重要作用。

❓

延伸问答

OpenING基准的主要目标是什么？

OpenING基准旨在提升多模态大语言模型的生成能力和评测准确性，特别是在图文交错生成任务中。

IntJudge评估模型的创新之处在哪里？

IntJudge通过人机协作标注和参考增强生成技术，显著提高了评测的一致性和准确性，减少了传统模型的偏见。

当前多模态模型在图像生成方面存在哪些问题？

当前多模态模型在图像生成质量上普遍存在视觉质量差、内容不一致等问题，亟需改进。

OpenING基准包含多少个图文实例？

OpenING基准包含5400个真实场景的图文实例。

OpenING基准如何确保数据的真实性和一致性？

OpenING通过专业团队的严格把关和精细化的标注流程，确保了数据的一致性与真实性。

未来OpenING团队的计划是什么？

OpenING团队计划继续扩展数据规模与多样性，优化评测模型，并推动更接近真实应用场景的研究。

🏷️