多模态语言模型作为文本到图像模型评估者
本研究针对文本到图像生成模型(T2I)自动评估基准的不足提出了多模态大型语言模型(MLLM)作为评估代理的方法。我们提出了多模态文本到图像评估框架(MT2IE),该框架能有效生成评估提示并与现有基准相匹配,同时显示出与人类判断的更高相关性,显著提高了评估效率。
本研究针对文本到图像生成模型(T2I)自动评估基准的不足提出了多模态大型语言模型(MLLM)作为评估代理的方法。我们提出了多模态文本到图像评估框架(MT2IE),该框架能有效生成评估提示并与现有基准相匹配,同时显示出与人类判断的更高相关性,显著提高了评估效率。