EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型
原文中文,约400字,阅读约需1分钟。发表于: 。本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 -...
本文提出了EvalAlign评估指标,通过利用多模式大型语言模型的能力,进行生成图像的精确手动评分,使评估模型更接近人类的偏好,验证了其在模型评估中的有效性和实用性。