VCRScore:基于视觉与语言变换器、CLIP和精确率-召回率的图像描述评估指标
📝
内容提要
本研究解决了图像描述领域中现有评估指标无法有效反映模型性能的问题。通过生成一个人类标注的数据集来评估描述与图像内容的相关性,提出了一种新的评估指标VCRScore,并与多种经典和现代指标进行了比较,结果显示其具有优越性。这项工作的潜在影响在于推动图像描述评估的创新和有效性。
🏷️
标签
➡️