本文介绍了一个新的多任务基准,用于评估文本到图像模型,并比较了开源与商业模型的表现。研究探讨了多模态信息如何提升文本生成模型的能力,并提出了交互式文本到图像生成的新任务。实验结果显示,现有模型在常识推理生成方面与人类表现存在显著差距,并且存在社会偏见问题。研究旨在提升人机交互体验和图像质量。
完成下面两步后,将自动完成登录并继续当前操作。