SenseNova U1 是商汤发布的开源多模态模型,具备连续图文生成能力,能够同时生成文字和图片。该模型在信息图生成方面表现出色,采用 NEO-unify 架构,提升了生成效率和理解能力,适合创作者和开发者使用。SenseNova U1 的开源版本已在 GitHub 和 Hugging Face 上发布。
文章讨论了多模态大语言模型(MLLM)的发展,特别是在图文生成方面的挑战与进展。上海人工智能实验室提出了OpenING基准,包含5400个真实场景的图文实例,旨在提升模型的生成能力和评测准确性。新评估模型IntJudge通过人机协作标注,显著提高了评测一致性。研究表明,当前模型在图像生成质量上仍需改进,未来将继续扩展数据和优化模型。
本研究提出了GATE OpenING基准,解决了开放式交互图文生成评估中数据规模和多样性不足的问题。该基准包含5400个高质量标注实例,涵盖56个真实任务,展示了IntJudge模型在评估多模态生成方法方面的优势,为未来模型发展提供指导。
完成下面两步后,将自动完成登录并继续当前操作。