小红花·文摘

本文介绍了一个新的多任务基准，用于评估文本到图像模型，并比较了开源与商业模型的表现。研究探讨了多模态信息如何提升文本生成模型的能力，并提出了交互式文本到图像生成的新任务。实验结果显示，现有模型在常识推理生成方面与人类表现存在显著差距，并且存在社会偏见问题。研究旨在提升人机交互体验和图像质量。