ETVA:通过细粒度问题生成与回答评估文本到视频的对齐
Precisely evaluating semantic alignment between text prompts and generated videos remains a challenge in Text-to-Video (T2V) Generation. Existing text-to-video alignment metrics like CLIPScore...
本文提出了一种新方法ETVA,用于精确评估文本提示与生成视频之间的语义对齐。ETVA通过生成细粒度问题并进行回答,克服了现有指标的局限性。实验结果表明,ETVA与人类判断的相关性显著高于现有指标,并构建了一个包含2000个提示和12000个问题的基准,推动了文本到视频生成的发展。
